Me topé con este sitio web que habla sobre esto.
Entonces, al descargar todo el sitio web obteniendo la versión comprimida, ¿cuál es el comando correcto?
He probado este comando, pero no sé si wget realmente obtendrá la versión comprimida:
wget --header="accept-encoding: gzip" -m -Dlinux.about.com -r -q -R gif,png,jpg,jpeg,GIF,PNG,JPG,JPEG,js,rss,xml,feed,.tar.gz,.zip,rar,.rar,.php,.txt -t 1 http://linux.about.com/
Respuestas:
Si solicita contenido gzip'ed (usando la codificación accept: encabezado gzip, que es correcto), entiendo que wget no puede leer el contenido. Por lo tanto, terminará con un solo archivo comprimido en el disco, para la primera página que golpee, pero ningún otro contenido.
es decir, no puede usar wget para solicitar contenido comprimido y recurrir todo el sitio al mismo tiempo.
Creo que hay un parche que permite que wget admita esta función, pero no está en la versión de distribución predeterminada.
Si incluye el indicador -S, puede saber si el servidor web responde con el tipo de contenido correcto. Por ejemplo,
La codificación de contenido indica claramente gzip, sin embargo para linux.about.com (actualmente),
Está devolviendo texto / html.
Debido a que algunos navegadores antiguos aún tienen problemas con el contenido codificado con gzip, muchos sitios solo lo habilitan en función de la identificación del navegador. A menudo lo desactivan de manera predeterminada y solo lo activan cuando saben que el navegador puede admitirlo, y generalmente no incluyen wget en esa lista. Esto significa que es posible que wget nunca devuelva contenido de gzip, incluso si el sitio parece hacerlo para su navegador.
fuente
Content-Type: text/html; charset=UTF-8
, pero también la hayContent-Encoding: gzip
. No sería una compresión transparente si usarlo forzara el tipo MIME de todo a gzip ... Corrístrace -s 128 wget ...
para ver realmente algunos de los bytes leídos del socket / escritos en el disco. No son ASCII. Entonces, aunque creo que en 2011 su comando no recibió una versión comprimida, en 2015 sí lo hizo. (wget 1.15).comando simple para obtener la página html y comprimirla u obtener cualquier archivo y comprimirlo.
para más información sobre la opción usa el comando man.
fuente