Me gustaría poder hacer una versión sin conexión de un sitio de MediaWiki semanalmente.
La extensión DumpHTML realmente hace lo que quiero, ya que volca todos los artículos y archivos multimedia, pero no puedo ver ningún índice de todos los artículos que ha volcado, por lo que no puedo navegar en el volcado.
Al leer acerca de la función de volcado XML que tiene MediaWiki, me pregunto si sería posible usar un programa para ver estos archivos o quizás convertirlos a html.
¿O hay otras formas de hacer una versión fuera de línea de un sitio de MediaWiki?
Main Page
y siga los enlaces desde allí.Respuestas:
Puede usar una herramienta de webcrawler que guardará el sitio como archivos HTML. Todos los enlaces se convertirán, por lo que puede abrir la página principal, decir, y luego hacer clic en los enlaces y acceder a todo el sitio.
Hay varias de estas herramientas disponibles. Uso wget , que se basa en la línea de comandos y tiene miles de opciones, por lo que no es muy amigable. Sin embargo, es bastante poderoso.
Por ejemplo, aquí está la línea de comando que utilicé para volcar mi propio sitio mediawiki. Sugiero que entienda cada opción antes de usarla usted mismo:
fuente
Puede tomar el
-pages-articles.xml.bz2
de la Wikimedia sitio de vertederos y procesarlos con WikiTaxi (descarga en la esquina superior izquierda). La herramienta de importación de Wikitaxi creará un.taxi
archivo (alrededor de 15 Gb para Wikipedia) a partir del.bz2
archivo. Ese archivo será utilizado por el programa WikiTaxi para buscar artículos. La experiencia es muy similar a la experiencia del navegador.O puede usar Kiwix , más rápido de configurar porque también proporciona los volcados (
.zim
archivos) ya procesados . Como el comentario especifica paramwoffliner
poder usar otros sitios de MediaWiki para kiwix , puede que no funcione con todos, ya que pueden tener diferencias personalizadas, pero es la única variante que encontré.Tomar material de Wikimedia
wget
no es una buena práctica. Si muchas personas lo hicieran, puede inundar los sitios con solicitudes.Más tarde edite para el caso en que desea también las imágenes sin conexión:
Proyecto XOWA
Si desea un espejo completo de Wikipedia (incluyendo imágenes) con formato HTML completo intacto que se descargará en aproximadamente 30 horas , debe usar:
Wikipedia en inglés tiene muchos datos. Hay más de 13.9 millones de páginas con más de 20.0 GB de texto, así como más de 3.7 millones de miniaturas.
XOWA :
Pero la versión fuera de línea es muy parecida a la versión en línea, incluye fotos, etc. (probé el siguiente artículo completamente fuera de línea)
Edición posterior si no se aplica ninguno de los anteriores:
Si el wiki no es parte de Wikimedia o no tiene un volcado, hay un proyecto en github que descarga ese wiki usando su API:
WikiTeam - Archivamos wikis, desde Wikipedia hasta las wikis más pequeñas
fuente