Dado que IMDb planea eliminar todos los tableros de mensajes en 2 semanas, me gustaría buscar algunas páginas, sin embargo, wget
no lo hace.
Esto es lo que hice:
- Registrado como usuario en la página http://www.imdb.com/boards/ .
- Exportó cookies a un
cookies.txt
archivo usando la extensión de cookies.txt Chrome . Ejecute
wget
como a continuación (como se sugiere en elcookies.txt
archivo):$ wget -x --load-cookies cookies.txt --keep-session-cookies -e robots=off -A Mozilla http://www.imdb.com/boards/ --2017-02-09 15:19:45-- http://www.imdb.com/boards/ Resolving www.imdb.com... 54.239.23.73 Connecting to www.imdb.com|54.239.23.73|:80... connected. HTTP request sent, awaiting response... 503 Service Temporarily Unavailable 2017-02-09 15:19:46 ERROR 503: Service Temporarily Unavailable.
Esto incluso debería funcionar sin él
cookies.txt
, ya que la página es accesible para el público.
¿Qué me estoy perdiendo?
Respuestas:
Parece que hay algunas configuraciones adicionales que debe agregar, incluido el agente de usuario. Agregué lo siguiente a mi
~/.wgetrc
archivo y parece hacer el trabajo. Aunque ocasionalmente obtengo un error 500 o 503. Me pregunto si eso podría ser un mecanismo de estrangulamiento / seguridad.Obtuve la base para esta respuesta de Stack Overflow .
fuente
No es una respuesta directa a su pregunta, pero existe una iniciativa común para respaldar IMDB por parte del ArchiveTeam: todos los interesados pueden ayudar a descargar en un archivo común que finalmente termina en archive.org (vea la
archiveteam
colección).Se proporcionan instrucciones. Básicamente, puede ejecutar un dispositivo VirtualBox / VMWare llamado ArchiveTeam Warrior , pero decidí usar los scripts de Linux.
fuente