¿Cómo puedo descargar un sitio web completo?

81

Quiero descargar un sitio web completo (con subsitios). ¿Hay alguna herramienta para eso?

Adaptador UA
fuente
1
¿Qué es exactamente lo que estás tratando de lograr? el título y el contenido de su pregunta no están relacionados y el contenido no es específico.
RolandiXor
NB, solo los siguientes enlaces (por ejemplo, usar --convert-linksen wget) no revelarán sitios que solo se revelan mediante el envío de un formulario, entre otras cosas.
Steven

Respuestas:

140

Pruebe el ejemplo 10 desde aquí :

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
  • –mirror : activa las opciones adecuadas para duplicar.

  • -p : descargue todos los archivos necesarios para mostrar correctamente una página HTML determinada.

  • --convert-links : después de la descarga, convierta los enlaces en el documento para su visualización local.

  • -P ./LOCAL-DIR : guarda todos los archivos y directorios en el directorio especificado.
concha
fuente
¿Hay alguna manera de descargar solo ciertas páginas (por ejemplo, varias partes de un artículo que se distribuyen en varios documentos html)?
don.joey
@Private Sí, aunque probablemente sea más fácil usar Python o algo para obtener las páginas (dependiendo del diseño / url). Si la URL de las páginas difiere en un número cada vez mayor o si tiene una lista de las páginas, probablemente podría usar wget en un script bash.
Vreality
2
Puede considerar usar el --wait=secondsargumento si desea ser más amigable con el sitio; esperará el número de segundos especificado entre recuperaciones.
belacqua
lo anterior funciona, pero para joomla la url parametrizada crea archivos que no están vinculados localmente. El que funcionó para mí es wget -m -k -K -E your.domain.com desde aquí: vaasa.hacklab.fi/2013/11/28/…
M.Hefny
1
También --no-parentpara "nunca ascender al directorio padre" tomado de aquí .
Daniel
38

HTTrack para Linux copiando sitios web en modo fuera de línea

httrack es la herramienta que estás buscando.

HTTrack le permite descargar un sitio de la World Wide Web de Internet a un directorio local, creando recursivamente todos los directorios, obteniendo HTML, imágenes y otros archivos del servidor a su computadora. HTTrack organiza la estructura de enlaces relativa del sitio original.

Sid
fuente
7

Con wgetusted puede descargar un sitio web completo, debe usar el -rinterruptor para una descarga recursiva . Por ejemplo,

wget -r http://www.google.com
Arthur Knopper
fuente
6

WEBHTTRACK WEBSITE COPIER es una herramienta útil para descargar un sitio web completo en su disco duro para navegar sin conexión. Inicie el centro de software ubuntu y escriba "webhttrack website copier" sin las comillas en el cuadro de búsqueda. selecciónelo y descárguelo del centro de software en su sistema. inicie webHTTrack desde el menú de inicio o desde el menú de inicio, desde allí puede comenzar a disfrutar de esta gran herramienta para las descargas de su sitio

FriseR
fuente
3

No sé acerca de los subdominios, es decir, los subsitios, pero wget se puede usar para obtener un sitio completo. Echa un vistazo a la pregunta de este superusuario . Dice que puede usar -D domain1.com,domain2.compara descargar diferentes dominios en un solo script. Creo que puedes usar esa opción para descargar subdominios, es decir-D site1.somesite.com,site2.somesite.com

binW
fuente
1

Uso Burp : la herramienta de araña es mucho más inteligente que wget y se puede configurar para evitar secciones si es necesario. Burp Suite en sí es un poderoso conjunto de herramientas para ayudar en las pruebas, pero la herramienta araña es muy efectiva.

Rory Alsop
fuente
1
¿No es solo Burp Windows? El acuerdo de licencia de código cerrado para Burp también es bastante pesado. Sin mencionar el precio $ 299.00:
Kat Amsterdam
de la licencia: ADVERTENCIA: LA EDICIÓN GRATUITA DE BURP SUITE ESTÁ DISEÑADA PARA ENSAYAR POR DEFECTOS DE SEGURIDAD Y PUEDE DAÑAR LOS SISTEMAS OBJETIVOS DEBIDO A LA NATURALEZA DE SU FUNCIONALIDAD. LA PRUEBA DE DEFECTOS DE SEGURIDAD INHERENTE INVOLUCRA LA INTERACCIÓN CON OBJETIVOS DE FORMA NO ESTÁNDAR QUE PUEDE CAUSAR PROBLEMAS EN ALGUNOS OBJETIVOS VULNERABLES. DEBE TENER MUCHO CUIDADO AL UTILIZAR EL SOFTWARE, DEBE LEER TODA LA DOCUMENTACIÓN ANTES DEL USO, DEBE HACER UNA COPIA DE SEGURIDAD DE LOS SISTEMAS OBJETIVO ANTES DEL USO Y NO DEBE UTILIZAR EL SOFTWARE EN SISTEMAS DE PRODUCCIÓN U OTROS SISTEMAS PARA LOS QUE NO ACEPTA EL RIESGO DE DAÑO .
Kat Amsterdam
Por lo que hace, el precio es increíblemente barato: recomendaría comprarlo para una amplia gama de pruebas de seguridad. Y es muy fácil configurarlo para probar exactamente como lo desee, más seguro que AppScan en algunos casos :-)
Rory Alsop
1
@KatAmsterdam Respecto específicamente a la pregunta de compatibilidad: Según Wikipedia , Burp Suite es una aplicación Java, por lo que debería funcionar bien en Ubuntu.
Eliah Kagan
Kat: funciona bien en varios sabores de Linux. La advertencia en la licencia es la misma que cualquier herramienta que pueda usar para las evaluaciones de seguridad.
Rory Alsop
1

Puede descargar todo el comando del sitio web:

wget -r -l 0 website

Ejemplo:

wget -r -l 0 http://google.com
Harish Kotikalapudi
fuente
¿Puede explicar cómo funciona este comando? ¿Que hace?
Kaz Wolfe
0

Si la velocidad es una preocupación (y el bienestar del servidor no lo es), puede probar puf , que funciona como wget pero puede descargar varias páginas en paralelo. Sin embargo, no es un producto terminado, no mantenido y horriblemente indocumentado. Aún así, para descargar un sitio web con muchos archivos pequeños, esta podría ser una buena opción.

loevborg
fuente