¿Cómo evitar los encabezados faltantes de 'última modificación'?

13

Estoy corriendo wgetasí:

wget --mirror --adjust-extension --convert-links --no-cookies http://tshepang.net -o log-main

Recibo un montón de estos mensajes:

Last-modified header missing -- time-stamps turned off.

Supongo que eso significa que las páginas se vuelven a descargar, a pesar de que las tengo localmente.

NOTA : Quiero esto para no tener que volver a descargar los archivos existentes cada vez que ejecuto el espejo del comando.

tshepang
fuente
¿Eres el propietario de la página (si realmente es tshepang.net)? Si es así, ¿el servidor web es apache y tiene algún control sobre su configuración? ¿O al menos está habilitado .htaccess con la anulación de opciones permitida?
forcefsck
@forcefsck: No, el sitio está dirigido por Posterous. Tienen una API para leer todas las publicaciones, pero para mí es una curva de aprendizaje la tecnología web.
tshepang

Respuestas:

10

¿Intentaste agregar el -cparámetro?

Extracto del manual de wget:

-c - continuar

Comenzando con Wget 1.7, si usa -c en un archivo no vacío, y resulta que el servidor no admite la descarga continua, Wget se negará a iniciar la descarga desde cero, lo que arruinaría efectivamente los contenidos existentes. Si realmente desea que la descarga comience desde cero, elimine el archivo.

También comenzando con Wget 1.7, si usa -c en un archivo que es del mismo tamaño que el del servidor, Wget se negará a descargar el archivo e imprimirá un mensaje explicativo. Lo mismo sucede cuando el archivo es más pequeño en el servidor que localmente (presumiblemente porque se modificó en el servidor desde su último intento de descarga) --- porque '' continuar '' no es significativo, no se produce ninguna descarga.

En el otro lado de la moneda, al usar -c, cualquier archivo que sea más grande en el servidor que localmente se considerará una descarga incompleta y solo se descargarán y agregarán bytes "(longitud (remota) - longitud (local))" El final del archivo local. Este comportamiento puede ser deseable en ciertos casos, por ejemplo, puede usar wget -c para descargar solo la nueva porción que se ha agregado a una recopilación de datos o archivo de registro.

Que yo sepa, debe omitir los archivos que ya están descargados y del mismo tamaño.

Shinnok
fuente
¿Qué pasa si el archivo es más pequeño?
CJ7