¿Cómo wget las páginas del foro de IMDb?

1

Dado que IMDb planea eliminar todos los tableros de mensajes en 2 semanas, me gustaría buscar algunas páginas, sin embargo, wgetno lo hace.

Esto es lo que hice:

  1. Registrado como usuario en la página http://www.imdb.com/boards/ .
  2. Exportó cookies a un cookies.txtarchivo usando la extensión de cookies.txt Chrome .
  3. Ejecute wgetcomo a continuación (como se sugiere en el cookies.txtarchivo):

    $ wget -x --load-cookies cookies.txt --keep-session-cookies -e robots=off -A Mozilla http://www.imdb.com/boards/
    --2017-02-09 15:19:45--  http://www.imdb.com/boards/
    Resolving www.imdb.com... 54.239.23.73
    Connecting to www.imdb.com|54.239.23.73|:80... connected.
    HTTP request sent, awaiting response... 503 Service Temporarily Unavailable
    2017-02-09 15:19:46 ERROR 503: Service Temporarily Unavailable.
    

    Esto incluso debería funcionar sin él cookies.txt, ya que la página es accesible para el público.

¿Qué me estoy perdiendo?

kenorb
fuente
Recibí el mismo error ... Encontré un comentario en otro sitio que decía "no les gusta el wget useragent"
Manachi

Respuestas:

1

Parece que hay algunas configuraciones adicionales que debe agregar, incluido el agente de usuario. Agregué lo siguiente a mi ~/.wgetrcarchivo y parece hacer el trabajo. Aunque ocasionalmente obtengo un error 500 o 503. Me pregunto si eso podría ser un mecanismo de estrangulamiento / seguridad.

header = Accept-Language: en-us,en;q=0.5
header = Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
header = Connection: keep-alive
user_agent = Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:53.0) Gecko/20100101 Firefox/53.0
referer = /
robots = off

Obtuve la base para esta respuesta de Stack Overflow .

Manachi
fuente
1

No es una respuesta directa a su pregunta, pero existe una iniciativa común para respaldar IMDB por parte del ArchiveTeam: todos los interesados ​​pueden ayudar a descargar en un archivo común que finalmente termina en archive.org (vea la archiveteamcolección).

Se proporcionan instrucciones. Básicamente, puede ejecutar un dispositivo VirtualBox / VMWare llamado ArchiveTeam Warrior , pero decidí usar los scripts de Linux.

foudfou
fuente