Necesito descargar todos los libros electrónicos de Gutenberg, en formato de texto sin formato (no html) y solo en inglés.
¿Alguien tiene sugerencias sobre cómo descargarlas todas desde el servidor Gutenberg?
Los necesito para hacer una investigación lingüística.
fuente
--level=0
. Pero supongo que es mejor que permita abortar y reiniciar: intente--level 9999 --no-clobber
, lo que omitirá los archivos que ya tiene (suponiendo que todavía esté en la misma carpeta en el disco).--input-file
en el manual .-c
opción, pero aún así. Dioffset=xxx
la URL para que se refleje pero aún se está descargando desde la primera página.Puede descargar la colección completa de libros en inglés y otros idiomas de Gutenberg en un solo archivo ZIM, que está muy comprimido y luego se puede abrir con Kiwix tanto en el escritorio como en Android. Los libros en inglés son de 40 GB.
fuente
Si bien la respuesta seleccionada es correcta, potencialmente causará dos problemas:
wget
comando fallará, es verificaciones recursivas al descargar los archivos desde un espejo externo.La siguiente solución corrige estos problemas:
Es posible que desee cambiar las cadenas de referencia y de agente de usuario para proporcionar un poco de aleatoriedad.
fuente
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso tiene un par de buenas opciones.
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso/pgdvd042010.iso es un archivo de 8GB que debería ser suficiente para sus necesidades.
Hay más información aquí:
https://www.gutenberg.org/wiki/Gutenberg:The_CD_and_DVD_Project#Downloading_Via_FTP , ofrece todas las opciones para descargar el archivo, incluidos FTP y BitTorrent.
fuente
Otra opción es la gran herramienta en http://pgiso.pglaf.org/ .
fuente
¿Por qué no utilizar todas sus habilidades y conocimientos de programación demasiado complicados y mostrados arriba para crear un botón simple que vincule todas esas acciones y diga "Descargar todos los libros actuales" con una pestaña de opción de idioma cuando hace clic en él.
Estoy seguro de que la mayoría de los usuarios que visitan el sitio son coleccionistas de libros electrónicos, y la descarga manual de ciertos libros sobre temas que les interesan está bien para 1 o 2 libros. Pero hacer una colección más grande manualmente es un lastre. Sin embargo, si lo necesitan para investigación o simplemente desean tener una enorme biblioteca digital de libros en su propia PC. La mayoría de las personas se apagan y se dispersan del sitio cuando se dan cuenta de que tienen que ser un asistente de computadora para hacer esto. Por lo tanto, un botón "Descargar todos los libros actuales" beneficiaría al proyecto y a sus usuarios, y ciertamente producirá aún más visitantes al sitio. De esa manera todos están felices.
fuente