¿Hay alguna forma portátil de descargar o almacenar en caché todas las páginas de un sitio web para verlas sin conexión? Mañana tengo un vuelo a campo traviesa y me gustaría poder almacenar en caché algunas páginas web (particularmente la página de documentación de Python ( http://docs.python.org/ ) y la referencia de pyqt ( http: // www. riverbankcomputing.co.uk/static/Docs/PyQt4/pyqt4ref.html ).
Idealmente, me gustaría un complemento de Firefox o algo así, pero cualquier cosa funcionará bien siempre que pueda ejecutarlo en Linux.
Respuestas:
Yo uso HTTrack .
fuente
Uso wget con estas opciones para reflejar un sitio para uso sin conexión
dónde
-m activa las opciones de duplicación para duplicar un sitio localmente
-c continúa una descarga anterior en caso de que ya haya descargado algunas páginas
-k convierte href absoluto para que apunte a los locales para verlos sin conexión
-E garantiza que los archivos tengan la extensión .html después de la descarga.
-np solo descarga objetos en / a / section / i / y no almacena en caché todo el sitio.
Por ejemplo, quería descargar la documentación del sur pero no los boletos del sur, etc.
Uso Windows y ejecuto wget en cygwin, pero también hay un puerto wget nativo de Windows .
Aunque, en su caso, puede descargar documentos sin conexión de Python desde la sección de documentos de Python
fuente
Pruebe http://www.downthemall.net/ un complemento de Firefox. Lo he usado para descargar 250 páginas de archivos PDF en más de 20 archivos separados. Es extremadamente poderoso. Tiene una sintaxis comodín / consulta que le permite obtener quirúrgicamente solo los archivos que desea y ninguno de los irrelevantes que no tiene.
fuente
Algunas extensiones de Firefox que conozco:
Álbum de recortes
ScrapBook Plus
UNMHT
Pocket (no es una extensión; una función incorporada de Firefox)
Tenga en cuenta que:
fuente
Puede descargar un sitio web completo o parte de un sitio web con wget.
Consulte el manual de wget para ver otras opciones que desee pasar, por ejemplo, para limitar su uso de ancho de banda, para controlar la profundidad de recursión, para configurar listas de exclusión, etc.
Otro enfoque para la navegación fuera de línea es usar un proxy de almacenamiento en caché. Wwwoffle es uno que tiene muchas características para facilitar la retención para la navegación fuera de línea, como anulaciones de las fechas de vencimiento especificadas por el servidor y una capacidad de recuperación previa recursiva. (He estado usando wwwoffle desde mis días de acceso telefónico).
fuente