Estoy tratando de descargar dos sitios para incluirlos en un CD:
http://boinc.berkeley.edu/trac/wiki
http://www.boinc-wiki.info
El problema que tengo es que ambos son wikis. Entonces, al descargar con, por ejemplo:
wget -r -k -np -nv -R jpg,jpeg,gif,png,tif http://www.boinc-wiki.info/
Obtengo muchos archivos porque también sigue enlaces como ...? Action = edit ...? Action = diff & version = ...
¿Alguien sabe una forma de evitar esto?
Solo quiero las páginas actuales, sin imágenes, sin diferencias, etc.
PD:
wget -r -k -np -nv -l 1 -R jpg,jpeg,png,gif,tif,pdf,ppt http://boinc.berkeley.edu/trac/wiki/TitleIndex
Esto funcionó para Berkeley pero boinc-wiki.info todavía me está dando problemas: /
PPS:
Obtuve lo que parecen ser las páginas más relevantes con:
wget -r -k -nv -l 2 -R jpg,jpeg,png,gif,tif,pdf,ppt http://www.boinc-wiki.info
Respuestas:
(
--reject-type posix
por defecto) Sinwget
embargo, solo funciona para versiones recientes (> = 1.14) de , según otros comentarios.Tenga en cuenta que parece que
--reject-regex
solo puede usar una vez porwget
llamada. Es decir, debe usar|
una sola expresión regular si desea seleccionar varias expresiones regulares:fuente
wget --reject-regex '\?' http://example.com
es suficiente.La documentación para wget dice:
Parece que esta funcionalidad ha estado sobre la mesa por un tiempo y no se ha hecho nada con ella.
No lo he usado, pero parece que httrack tiene un conjunto de características de filtrado más robusto que wget y puede ser más adecuado para lo que está buscando (lea sobre los filtros aquí http://www.httrack.com/html /fcguide.html ).
fuente
La nueva versión de wget (v.1.14) resuelve todos estos problemas.
Debe usar la nueva opción
--reject-regex=....
para manejar cadenas de consulta.Tenga en cuenta que no pude encontrar el nuevo manual que incluye estas nuevas opciones, por lo que debe usar el comando de ayuda
wget --help > help.txt
fuente
Pavuk debería poder hacerlo:
http://pavuk.sourceforge.net/man.html#sect39
Ejemplo de Mediawiki:
fuente
Parece que está intentando evitar descargar páginas especiales de MediaWiki. Resolví este problema una vez evitando la
index.php
página:Sin embargo, el wiki usó las URL como se ve en Wikipedia (
http://<wiki>/en/Theme
) y no el patrón que he visto en otros lugares (http://<wiki>/index.php?title=Theme
). Sin embargo, dado que el enlace que proporcionó usa URL en el patrón de Wikipedia, creo que esta solución también puede funcionar para usted.fuente
'-R rejlist --reject rejlist' Especifica listas separadas por comas de sufijos o patrones de nombre de archivo para aceptar o rechazar (ver Tipos de archivos). Tenga en cuenta que si alguno de los caracteres comodín, '*', '?', '[' O ']', aparece en un elemento de lista o rechazo, se tratará como un patrón, en lugar de un sufijo.
Los patrones son probablemente lo que quieres. No estoy seguro de cuán sofisticados son los patrones, pero puede intentar aceptar solo ciertos archivos o bloquear:
Aceptar:
Editar: nvm a la luz de la otra publicación.
fuente