Necesito extraer un sitio a través de HTTP. Necesito descargar las imágenes, HTML, CSS y JavaScript, así como organizarlo en un sistema de archivos.
¿Alguien sabe como hacer esto?
html
javascript
css
ripping
damon
fuente
fuente
Respuestas:
Esto se ejecuta en la consola.
esto capturará un sitio, esperará 3 segundos entre solicitudes, limitará la velocidad de descarga para que no mate el sitio y se enmascarará de una manera que parezca ser solo un navegador para que el sitio no lo corte utilizando un mecanismo anti-sanguijuela.
Tenga en cuenta el
-A
parámetro que indica una lista de los tipos de archivo que desea descargar.También puede usar otra etiqueta
-D domain1.com,domain2.com
para indicar una serie de dominios que desea descargar si tienen otro servidor o lo que sea para alojar diferentes tipos de archivos. No hay una forma segura de automatizar eso para todos los casos, si no obtiene los archivos.wget
normalmente está preinstalado en Linux, pero puede compilarse trivialmente para otros sistemas Unix o descargarse fácilmente para Windows: GNUwin32 WGETUse esto para bien y no para mal.
fuente
Buena solución gratuita: HTTrack
fuente
En los sistemas Linux, 'wget' hace esto, más o menos.
También se ha portado a varias otras plataformas, como mencionan varias de las otras respuestas.
fuente
Obviamente, WGet ha sido mencionado varias veces. La mejor interfaz de usuario que he encontrado es
Hay otras interfaces de usuario para WGet, algunas de las cuales son candidatas para la peor pregunta de interfaz de usuario
fuente
Mira la extensión Scrapbook para firefox. Hace un trabajo increíble en esto y también se integra con firebug y le permite eliminar elementos del DOM antes de guardar si lo desea.
fuente
Debe usar wget, que está disponible para la mayoría de las plataformas. curl no solicitará documentos de forma recursiva, que es una de las principales fortalezas de wget.
Linux: (generalmente incluido en la distribución) http://www.gnu.org/software/wget/
Windows: http://gnuwin32.sourceforge.net/packages/wget.htm
Mac: http: //www.geekology. co.za/blog/2009/02/macports-compile-and-install-open-source-software-on-mac-os-x/
POR FAVOR, asegúrese de no estar afectando el sitio web: configure demoras adecuadas entre las solicitudes y asegúrese de que esté dentro de los términos de servicio del sitio.
-Adán
fuente
En realidad, siguiendo mi comentario en la publicación de GWLlosa, acabo de recordar que tengo instalado GnuWin32 y, efectivamente, contiene un puerto de Windows de wget.
http://sourceforge.net/projects/gnuwin32/
fuente
Utilicé esto hace algunos años y funcionó bien. Solo Windows Solía ser adware pero ya no, aparentemente:
http://www.webreaper.net/
fuente
wget --random-wait -r -p -e robots=off -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" --limit-rate=20k -b http://www.example.com
fuente
-c
(o--continue
) la opción cuando las cosas salen mal y tengo que reiniciar el proceso.Creo que IDM Site Grabber es la mejor solución, también hay Teleport pro
fuente
Free Download Manager también puede descargar sitios web completos.
Windows solo pienso.
fuente