Solía ​​wget para descargar archivos html, ¿dónde se almacenan las imágenes en el archivo?

15

Firefox se estaba cargando muy lento, así que decidí usarlo wgetpara guardar archivos HTML. Utilicé el siguiente comando,

wget http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

Los archivos se han guardado en mi carpeta de inicio, pero no sé dónde están almacenadas las imágenes, necesito que las utilicen Anki.

Entonces, ¿dónde se almacenan las imágenes?

usuario registrado
fuente
Este artículo explica las opciones y cómo son útiles.
Wilf

Respuestas:

34

Prefiero usar --page-requisites( -ppara abreviar) en lugar de -raquí, ya que descarga todo lo que la página necesita para mostrar, pero no otras páginas, y no tengo que pensar qué tipo de archivos quiero.

En realidad, usualmente uso algo como

wget -E -H -k -p http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

Esto significa:

  • -E: Agregue .htmlal nombre del archivo si es un archivo HTML pero no termina en .htmlo similar
  • -H: Descargue archivos de otros hosts también
  • -k: Después de la descarga, convierta cualquier enlace para que apunten a los archivos descargados
  • -p: Descargue todo lo que necesite la página para verla sin conexión
Florian Diesch
fuente
Vine aquí buscando -H, y estaba feliz de aprender -Ey -ktambién. ¡Gracias!
Charles Clayton
2

el uso del parámetro -r debería permitir que wget descargue toda la carpeta, incluidas sus imágenes.

wget -r http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter
Vevard Torvund
fuente
2

Descargando los archivos de imagen por separado también

Creo que este comando podría ayudarlo a comenzar.

 wget -r -P /save/location -A jpeg,jpg,bmp,gif,png http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

Le permite especificar la ubicación para guardar las imágenes y qué tipos de archivos desea. Quizás descargar las imágenes como tal sea más fácil.

Fuente :

-r permite la recuperación recursiva. Consulte Descarga recursiva para obtener más información.

-P establece el prefijo de directorio donde se guardan todos los archivos y directorios.

-A establece una lista blanca para recuperar solo ciertos tipos de archivos. Se aceptan cadenas y patrones, y ambos se pueden usar en una lista separada por comas (como se ve arriba). Ver Tipos de archivos para más información.

Copiar los archivos de imagen de su carpeta

He notado que el sitio web utiliza archivos de imagen PNG. Puede copiarlos de su carpeta. Esto debe ejecutarse en la carpeta donde almacenó la página web.

find . -name "*.png" -exec cp '{}' ./some_dir/somewhere/ \;
don.joey
fuente
1

Wget simplemente descarga el archivo HTML de la página, no las imágenes en la página, ya que las imágenes en el archivo HTML de la página se escriben como URL. Para hacer lo que desee, use -R(recursivo), la -Aopción con los sufijos del archivo de imagen, la --no-parentopción, para que no ascienda, y la --levelopción con 1.

Específicamente wget -R -A .jpg,.png,.gif --no-parent --level <url>

Aún mejor, la mayoría de los navegadores tienen métodos para guardar páginas para verlas sin conexión .

Ramchandra Apte
fuente