Estoy tratando de descargar dos sitios para incluirlos en un CD:
http://boinc.berkeley.edu/trac/wiki
http://www.boinc-wiki.info
El problema que tengo es que ambos son wikis. Entonces, al descargar con, por ejemplo:
wget -r -k -np -nv -R jpg,jpeg,gif,png,tif http://www.boinc-wiki.info/
Obtengo muchos archivos porque también sigue enlaces como ...? Action = edit ...? Action = diff & version = ...
¿Alguien sabe una forma de evitar esto?
Solo quiero las páginas actuales, sin imágenes, sin diferencias, etc.
PD:
wget -r -k -np -nv -l 1 -R jpg,jpeg,png,gif,tif,pdf,ppt http://boinc.berkeley.edu/trac/wiki/TitleIndex
Esto funcionó para Berkeley pero boinc-wiki.info todavía me está dando problemas: /
PPS:
Obtuve las que parecen ser las páginas más relevantes con:
wget -r -k -nv -l 2 -R jpg,jpeg,png,gif,tif,pdf,ppt http://www.boinc-wiki.info
Respuestas:
La nueva versión de wget (v.1.14) resuelve todos estos problemas.
Debe usar la nueva opción
--reject-regex=....
para manejar cadenas de consulta.Tenga en cuenta que no pude encontrar el nuevo manual que incluye estas nuevas opciones, por lo que debe usar el comando de ayuda
wget --help > help.txt
fuente
(
--reject-type posix
por defecto) Sinwget
embargo, solo funciona para versiones recientes (> = 1.14) de , según otros comentarios.Tenga en cuenta que parece que
--reject-regex
solo puede usar una vez porwget
llamada. Es decir, debe usar|
una sola expresión regular si desea seleccionar varias expresiones regulares:fuente
|
símbolo ("tubería") no me funciona con GNU Wget 1.16.Esto excluirá todo lo que contenga
?action=
en su nombre.fuente
Yo diría que el lavado de un sitio wiki público es una mala práctica, ya que le agrega una carga adicional.
Si un wiki es público y a los propietarios del sitio no les importa compartir el contenido, generalmente proporcionan un volcado de descarga (backend) (base de datos o lo que sea). Por lo tanto, simplemente debe descargar el paquete de datos, configurar una instancia local del mismo motor wiki, importar los datos y obtener una copia local. Después de eso, si lo desea, puede hacer las sanguijuelas localmente.
fuente