¿Cómo volcar un MediaWiki para uso fuera de línea?

16

Me gustaría poder hacer una versión sin conexión de un sitio de MediaWiki semanalmente.

La extensión DumpHTML realmente hace lo que quiero, ya que volca todos los artículos y archivos multimedia, pero no puedo ver ningún índice de todos los artículos que ha volcado, por lo que no puedo navegar en el volcado.

Al leer acerca de la función de volcado XML que tiene MediaWiki, me pregunto si sería posible usar un programa para ver estos archivos o quizás convertirlos a html.

¿O hay otras formas de hacer una versión fuera de línea de un sitio de MediaWiki?

Sandra Schlichting
fuente
¿Realmente necesitas un índice? Simplemente comience en Main Pagey siga los enlaces desde allí.
Ilmari Karonen
Aquí están las instrucciones de Cam Webb para hacer una versión estática de un sitio de MediaWiki. Aquí están los míos , en caso de que ayuden a alguien. Ambos dan enlaces al resultado estático (el mío aquí ).
Michael Allan

Respuestas:

8

Puede usar una herramienta de webcrawler que guardará el sitio como archivos HTML. Todos los enlaces se convertirán, por lo que puede abrir la página principal, decir, y luego hacer clic en los enlaces y acceder a todo el sitio.

Hay varias de estas herramientas disponibles. Uso wget , que se basa en la línea de comandos y tiene miles de opciones, por lo que no es muy amigable. Sin embargo, es bastante poderoso.

Por ejemplo, aquí está la línea de comando que utilicé para volcar mi propio sitio mediawiki. Sugiero que entienda cada opción antes de usarla usted mismo:

"c:\program files\wget\wget" -k -p -r -R '*Special*' -R '*Help*' -E http://example.com/wiki
Paulmorriss
fuente
10

Puede tomar el -pages-articles.xml.bz2de la Wikimedia sitio de vertederos y procesarlos con WikiTaxi (descarga en la esquina superior izquierda). La herramienta de importación de Wikitaxi creará un .taxiarchivo (alrededor de 15 Gb para Wikipedia) a partir del .bz2archivo. Ese archivo será utilizado por el programa WikiTaxi para buscar artículos. La experiencia es muy similar a la experiencia del navegador.

O puede usar Kiwix , más rápido de configurar porque también proporciona los volcados ( .zimarchivos) ya procesados . Como el comentario especifica para mwofflinerpoder usar otros sitios de MediaWiki para kiwix , puede que no funcione con todos, ya que pueden tener diferencias personalizadas, pero es la única variante que encontré.

Tomar material de Wikimedia wgetno es una buena práctica. Si muchas personas lo hicieran, puede inundar los sitios con solicitudes.


Más tarde edite para el caso en que desea también las imágenes sin conexión:

Proyecto XOWA

Si desea un espejo completo de Wikipedia (incluyendo imágenes) con formato HTML completo intacto que se descargará en aproximadamente 30 horas , debe usar:

Wikipedia en inglés tiene muchos datos. Hay más de 13.9 millones de páginas con más de 20.0 GB de texto, así como más de 3.7 millones de miniaturas.

XOWA :

Configurar todo esto en su computadora no será un proceso rápido ... La importación en sí misma requerirá 80 GB de espacio en disco y cinco horas de tiempo de procesamiento para la versión de texto. Si también desea imágenes, los números aumentan a 100 GB de espacio en disco y 30 horas de tiempo de procesamiento. Sin embargo, cuando haya terminado, tendrá una copia completa y reciente de Wikipedia en inglés con imágenes que pueden caber en una tarjeta SD de 128GB.

Pero la versión fuera de línea es muy parecida a la versión en línea, incluye fotos, etc. (probé el siguiente artículo completamente fuera de línea) ingrese la descripción de la imagen aquí


Edición posterior si no se aplica ninguno de los anteriores:

Si el wiki no es parte de Wikimedia o no tiene un volcado, hay un proyecto en github que descarga ese wiki usando su API:

WikiTeam - Archivamos wikis, desde Wikipedia hasta las wikis más pequeñas

Eduard Florinescu
fuente
1
En caso de descartar una instalación de mediawiki personalizada, XOWA es bastante capaz de hacerlo (pueden existir algunos problemas), el siguiente artículo xowa.org/home/wiki/App/Wiki_types/Wikia.com es bastante útil. El uso de Kiwix con wikis personalizados aún no se ha probado (primero es necesario volcar el wiki con github.com/kiwix/mwoffliner o alguna otra herramienta)
escalera mecánica