@tnorthcutt, yo también estoy sorprendido. Si no recuerdo muy mal, mi respuesta Wget solía ser la aceptada, y esto parecía una cosa resuelta. Sin embargo, no me quejo: de repente, la atención renovada me dio más que el valor de la recompensa de la recompensa. : P
@joe: Podría ayudar si proporcionara detalles sobre cuáles son las características que faltan ...
Ilari Kajaste
browse-offline.com puede descargar el árbol completo del sitio web para que pueda ... navegar fuera de línea
Menelaos Vergis
Respuestas:
334
HTTRACK funciona como un campeón para copiar el contenido de un sitio completo. Esta herramienta puede incluso tomar las piezas necesarias para hacer que un sitio web con contenido de código activo funcione sin conexión. Estoy sorprendido por las cosas que puede replicar sin conexión.
He estado usando esto durante años, muy recomendable.
Umber Ferrule
44
¿Copiaría esto el código ASP real que se ejecuta en el servidor?
Taptronic
8
@Optimal Solutions: No, eso no es posible. Necesitaría acceso a los servidores o al código fuente para eso.
Sasha Chedygov
2
Después de probar httrack y wget para sitios con autorización, tengo que inclinarme a favor de wget. No se pudo hacer que httrack funcione en esos casos.
Leo
1
¿Cuál es la opción de autenticación?
vincent mathew
272
Wget es una herramienta clásica de línea de comandos para este tipo de tarea. Viene con la mayoría de los sistemas Unix / Linux, y también puede obtenerlo para Windows . En una Mac, Homebrew es la forma más fácil de instalarlo ( brew install wget).
Harías algo como:
wget -r --no-parent http://site.com/songs/
Para obtener más detalles, consulte el Manual de Wget y sus ejemplos , o por ejemplo, estos:
No hay mejor respuesta que esta: wget puede hacer cualquier cosa: 3
Phoshi
66
+1 por incluir el --no-parent. definitivamente use --mirror en lugar de -r. y es posible que desee incluir -L / - en relación con no seguir enlaces a otros servidores.
quack quijote
2
Como también pedí httrack.com, ¿esta herramienta de línea cmd obtendría el código ASP o solo obtendría la representación del HTML? Tengo que intentar esto. Esto podría ser un poco preocupante para los desarrolladores si lo hace ...
Taptronic
66
@optimal, la salida HTML, por supuesto, obtendría el código solo si el servidor estuviera mal configurado mal
Jonik
2
desafortunadamente no funciona para mí: hay un problema con los enlaces a archivos css, no se cambian a relativos, es decir, puede ver algo como esto en los archivos: <link rel = "stylesheet" type = "text / css" href = "/ static / css / reset.css" media = "screen" /> que no funciona bien localmente, a menos que haya un waz para engañar a firefox para que piense que cierto directorio es una raíz.
Gorn
148
Use wget:
wget -m -p -E -k www.example.com
Las opciones explicadas:
-m, --mirror Turns on recursion and time-stamping, sets infinite
recursion depth, and keeps FTP directory listings.
-p, --page-requisites Get all images, etc. needed to display HTML page.
-E, --adjust-extension Save HTML/CSS files with .html/.css extensions.
-k, --convert-links Make links in downloaded HTML point to local files.
+1 por proporcionar las explicaciones de las opciones sugeridas. (Aunque no creo que --mirrorse explique por sí mismo. Aquí viene de la página del manual: " Esta opción activa la recursión y el sellado de tiempo, establece una profundidad de recursión infinita y mantiene listados de directorios FTP. Actualmente es equivalente a -r -N - l inf --no-remove-listing ")
Ilari Kajaste el
2
Si no desea descargar todo en una carpeta con el nombre del dominio que desea duplicar, cree su propia carpeta y use la opción -nH (que omite la parte del host).
Rafael Bugajewski
2
¿Qué pasa si se requiere la autenticación?
Val
44
Intenté usar tu wget --mirror -p --html-extension --convert-links www.example.comy acabo de descargar el índice. Creo que necesitas -rdescargar todo el sitio.
Eric Brotto
44
Para aquellos preocupados por matar un sitio debido al tráfico / demasiadas solicitudes, use el -w seconds(para esperar un número de segundos entre las solicitudes, o el --limit-rate=amount, para especificar el ancho de banda máximo para usar durante la descarga
Ya no es compatible con Firefox después de la versión 57 (Quantum).
Yay295
8
Internet Download Manager tiene una utilidad Site Grabber con muchas opciones, que le permite descargar completamente cualquier sitio web que desee, de la manera que lo desee.
Puede establecer el límite en el tamaño de las páginas / archivos para descargar
Puede establecer el número de sucursales para visitar
Puede cambiar la forma en que se comportan los scripts / ventanas emergentes / duplicados
Puede especificar un dominio, solo bajo ese dominio se descargarán todas las páginas / archivos que cumplan con la configuración requerida
Los enlaces se pueden convertir en enlaces sin conexión para navegar
Tiene plantillas que le permiten elegir la configuración anterior para usted
Sin embargo, el software no es gratuito; vea si se adapta a sus necesidades, use la versión de evaluación.
Abordaré el almacenamiento en línea que usan los navegadores ...
Por lo general, la mayoría de los navegadores utilizan una memoria caché de navegación para mantener los archivos que descarga de un sitio web durante un tiempo para que no tenga que descargar imágenes estáticas y contenido una y otra vez. Esto puede acelerar un poco las cosas en algunas circunstancias. En términos generales, la mayoría de las memorias caché del navegador están limitadas a un tamaño fijo y cuando alcanza ese límite, eliminará los archivos más antiguos de la memoria caché.
Los ISP tienden a tener servidores de almacenamiento en caché que mantienen copias de sitios web de acceso común como ESPN y CNN. Esto les ahorra la molestia de visitar estos sitios cada vez que alguien en su red va allí. Esto puede suponer un ahorro significativo en la cantidad de solicitudes duplicadas a sitios externos para el ISP.
No he hecho esto en muchos años, pero todavía hay algunas utilidades por ahí. Es posible que desee probar Web Snake . Creo que lo usé hace años. Recordé el nombre de inmediato cuando leí tu pregunta.
Estoy de acuerdo con Stecy. Por favor no martillee su sitio. Muy mal.
Es un navegador sin conexión potente y gratuito. Un programa de descarga y visualización de sitios web de alta velocidad y subprocesos múltiples. Al realizar múltiples solicitudes simultáneas del servidor, BackStreet Browser puede descargar rápidamente todo el sitio web o parte de un sitio incluyendo HTML, gráficos, Applets Java, sonido y otros archivos definibles por el usuario, y guarda todos los archivos en su disco duro, ya sea en su formato nativo, o como un archivo ZIP comprimido y ver sin conexión.
Teleport Pro es otra solución gratuita que copiará todos y cada uno de los archivos de cualquier destino (también tiene una versión paga que le permitirá extraer más páginas de contenido).
DownThemAll es un complemento de Firefox que descargará todo el contenido (archivos de audio o video, por ejemplo) para una página web en particular con un solo clic. Esto no descarga todo el sitio, pero esto puede ser algo que la pregunta estaba buscando.
Solo es capaz de descargar enlaces (HTML) y medios (imágenes).
Ain
3
Para Linux y OS X: escribí grab-site para archivar sitios web completos en archivos WARC . Estos archivos WARC se pueden examinar o extraer. grab-site le permite controlar qué URL omitir utilizando expresiones regulares, y estas se pueden cambiar cuando se está ejecutando el rastreo. También viene con un amplio conjunto de valores predeterminados para ignorar las URL basura.
Hay un panel web para monitorear los rastreos, así como opciones adicionales para omitir el contenido de video o las respuestas de más de un tamaño determinado.
Si bien wget ya se mencionó, este recurso y la línea de comando eran tan fluidos que pensé que merecía mención:
wget -P /path/to/destination/directory/ -mpck --user-agent="" -e robots=off --wait 1 -E https://www.example.com/
Site Explorer
Site Explorer le permite ver la estructura de carpetas de un sitio web y descargar fácilmente los archivos o carpetas necesarios. HTML Spider
Puede descargar páginas web completas o incluso sitios web completos con HTML Spider. La herramienta se puede ajustar para descargar archivos solo con extensiones especificadas.
Creo que Site Explorer es útil para ver qué carpetas incluir / excluir antes de intentar intentar descargar todo el sitio, especialmente cuando hay un foro completo oculto en el sitio que no desea descargar, por ejemplo.
¡Incorrecto! La pregunta pregunta cómo guardar un sitio web completo. Firefox no puede hacer eso.
2
Su método solo funciona si es un sitio de una página, pero si el sitio tiene 699 páginas. Sería muy agotador ...
Quidam
-4
Creo que Google Chrome puede hacer esto en dispositivos de escritorio, solo vaya al menú del navegador y haga clic en Guardar página web.
También tenga en cuenta que los servicios como el bolsillo en realidad pueden no guardar el sitio web y, por lo tanto, son susceptibles a la pudrición de enlaces.
Por último, tenga en cuenta que copiar los contenidos de un sitio web puede infringir los derechos de autor, si corresponde.
Una página web en su navegador es solo una de muchas de un sitio web .
Arjan
@Arjan, supongo que eso hace que mi opción requiera mucho trabajo Creo que es más común que las personas solo quieran guardar una página, por lo que esta respuesta puede ser mejor para aquellas personas que vienen aquí para eso.
Respuestas:
HTTRACK funciona como un campeón para copiar el contenido de un sitio completo. Esta herramienta puede incluso tomar las piezas necesarias para hacer que un sitio web con contenido de código activo funcione sin conexión. Estoy sorprendido por las cosas que puede replicar sin conexión.
Este programa hará todo lo que necesite de él.
¡Feliz cacería!
fuente
Wget es una herramienta clásica de línea de comandos para este tipo de tarea. Viene con la mayoría de los sistemas Unix / Linux, y también puede obtenerlo para Windows . En una Mac, Homebrew es la forma más fácil de instalarlo (
brew install wget
).Harías algo como:
Para obtener más detalles, consulte el Manual de Wget y sus ejemplos , o por ejemplo, estos:
wget: descargue sitios web completos fácilmente
Ejemplos de wget y scripts
fuente
Use wget:
Las opciones explicadas:
fuente
--mirror
se explique por sí mismo. Aquí viene de la página del manual: " Esta opción activa la recursión y el sellado de tiempo, establece una profundidad de recursión infinita y mantiene listados de directorios FTP. Actualmente es equivalente a -r -N - l inf --no-remove-listing ")wget --mirror -p --html-extension --convert-links www.example.com
y acabo de descargar el índice. Creo que necesitas-r
descargar todo el sitio.-w seconds
(para esperar un número de segundos entre las solicitudes, o el--limit-rate=amount
, para especificar el ancho de banda máximo para usar durante la descargaDeberías echar un vistazo a ScrapBook , una extensión de Firefox. Tiene un modo de captura en profundidad .
fuente
Internet Download Manager tiene una utilidad Site Grabber con muchas opciones, que le permite descargar completamente cualquier sitio web que desee, de la manera que lo desee.
Puede establecer el límite en el tamaño de las páginas / archivos para descargar
Puede establecer el número de sucursales para visitar
Puede cambiar la forma en que se comportan los scripts / ventanas emergentes / duplicados
Puede especificar un dominio, solo bajo ese dominio se descargarán todas las páginas / archivos que cumplan con la configuración requerida
Los enlaces se pueden convertir en enlaces sin conexión para navegar
Tiene plantillas que le permiten elegir la configuración anterior para usted
Sin embargo, el software no es gratuito; vea si se adapta a sus necesidades, use la versión de evaluación.
fuente
itsucks - ese es el nombre del programa!
fuente
Abordaré el almacenamiento en línea que usan los navegadores ...
Por lo general, la mayoría de los navegadores utilizan una memoria caché de navegación para mantener los archivos que descarga de un sitio web durante un tiempo para que no tenga que descargar imágenes estáticas y contenido una y otra vez. Esto puede acelerar un poco las cosas en algunas circunstancias. En términos generales, la mayoría de las memorias caché del navegador están limitadas a un tamaño fijo y cuando alcanza ese límite, eliminará los archivos más antiguos de la memoria caché.
Los ISP tienden a tener servidores de almacenamiento en caché que mantienen copias de sitios web de acceso común como ESPN y CNN. Esto les ahorra la molestia de visitar estos sitios cada vez que alguien en su red va allí. Esto puede suponer un ahorro significativo en la cantidad de solicitudes duplicadas a sitios externos para el ISP.
fuente
Me gusta Offline Explorer .
Es un shareware, pero es muy bueno y fácil de usar.
fuente
WebZip es un buen producto también.
fuente
No he hecho esto en muchos años, pero todavía hay algunas utilidades por ahí. Es posible que desee probar Web Snake . Creo que lo usé hace años. Recordé el nombre de inmediato cuando leí tu pregunta.
Estoy de acuerdo con Stecy. Por favor no martillee su sitio. Muy mal.
fuente
Prueba el navegador BackStreet .
fuente
Teleport Pro es otra solución gratuita que copiará todos y cada uno de los archivos de cualquier destino (también tiene una versión paga que le permitirá extraer más páginas de contenido).
fuente
DownThemAll es un complemento de Firefox que descargará todo el contenido (archivos de audio o video, por ejemplo) para una página web en particular con un solo clic. Esto no descarga todo el sitio, pero esto puede ser algo que la pregunta estaba buscando.
fuente
Para Linux y OS X: escribí grab-site para archivar sitios web completos en archivos WARC . Estos archivos WARC se pueden examinar o extraer. grab-site le permite controlar qué URL omitir utilizando expresiones regulares, y estas se pueden cambiar cuando se está ejecutando el rastreo. También viene con un amplio conjunto de valores predeterminados para ignorar las URL basura.
Hay un panel web para monitorear los rastreos, así como opciones adicionales para omitir el contenido de video o las respuestas de más de un tamaño determinado.
fuente
Poder wget
Si bien wget ya se mencionó, este recurso y la línea de comando eran tan fluidos que pensé que merecía mención:
wget -P /path/to/destination/directory/ -mpck --user-agent="" -e robots=off --wait 1 -E https://www.example.com/
Vea este código explicado en explicahell
fuente
El venerable FreeDownloadManager.org también tiene esta característica.
Free Download Manager lo tiene de dos formas en dos formas: Site Explorer y Site Spider :
Creo que Site Explorer es útil para ver qué carpetas incluir / excluir antes de intentar intentar descargar todo el sitio, especialmente cuando hay un foro completo oculto en el sitio que no desea descargar, por ejemplo.
fuente
Descarga HTTracker, descargará sitios web muy fáciles de seguir.
enlace de descarga: http://www.httrack.com/page/2/
video que puede ayudarlo: https://www.youtube.com/watch?v=7IHIGf6lcL4
fuente
Firefox puede hacerlo de forma nativa (al menos FF 42 puede). Solo usa "Guardar página"
fuente
Creo que Google Chrome puede hacer esto en dispositivos de escritorio, solo vaya al menú del navegador y haga clic en Guardar página web.
También tenga en cuenta que los servicios como el bolsillo en realidad pueden no guardar el sitio web y, por lo tanto, son susceptibles a la pudrición de enlaces.
Por último, tenga en cuenta que copiar los contenidos de un sitio web puede infringir los derechos de autor, si corresponde.
fuente