Algunas partes de wikipedia aparecen de manera diferente cuando inicias sesión. Me gustaría activar las páginas de usuario para que aparezcan como si hubiera iniciado sesión.
¿Hay alguna manera de que pueda recordar páginas de usuario como esta?
http://en.wikipedia.org/wiki/User:A
esta es la página de inicio de sesión:
http://en.wikipedia.org/w/index.php?title=Special:UserLogin&returnto=Login&campaign=ACP3
Respuestas:
La manera fácil: inicie sesión con su navegador y dele las cookies a wget
Método más fácil: en general, debe proporcionar wget o curl con las cookies (iniciadas) de un sitio web en particular para que puedan buscar páginas como si hubiera iniciado sesión .
Si está utilizando Firefox, es fácil hacerlo a través del complemento Exportar cookies . Instale el complemento y:
cookies.txt
archivo (puede cambiar el nombre de archivo / destino).Abra una terminal y úsela
wget
con la--load-cookies=FILENAME
opción, p. Ej.curl --cookie cookies.txt ...
(Intentaré actualizar esta respuesta para los usuarios de Chrome / Chromium)
La manera difícil: use curl (preferiblemente) o wget para administrar toda la sesión
--cookie-jar
o wget con las--save-cookies --keep-session-cookies
opciones, junto con el método HTTP / S PUT para iniciar sesión en un sitio, guardar las cookies de inicio de sesión y luego usarlas para simular un navegadorfuente
grep mydomain cookies.txt > mydomain-cookies.txt
Otra solución fácil que funcionó para mí sin instalar nada adicional:
Esto le dará un comando que puede pegar directamente en su shell, que tiene todas sus credenciales de cookies, por ejemplo
Luego puede modificar la URL en el comando para obtener lo que desee.
fuente
Con cURL es realmente fácil manejar las cookies en ambos sentidos.
curl www.target-url.com -c cookie.txt
luego guardará un archivo llamado cookie.txt. Pero tienes que entrar en el, por lo que es necesario utilizar --Hojas con argumentos como:curl -X --data "var1=1&var2=2" www.target-url.com/login.php -c cookie.txt
. Una vez que obtenga la cookie loggued, puede enviarla con:curl www.target-url.com/?user-page.php -b cookie.txt
Simplemente use -c (--cookie) o -b (--cookie-jar) para guardar y enviar.
Nota 1: Usar cURL CLI es mucho más fácil que PHP y quizás más rápido;)
Para guardar el contenido final, puede agregarlo fácilmente
> filename.html
a su comando cURL y luego guardar el código html completo.Nota 2 sobre "completo": no puede procesar javascript con cURL, solo obtenga el código fuente.
fuente
-X
El parámetro significa "hacer publicación", pero el uso--data=xxx
-X
es implícito, por lo que puede eliminarlo con seguridad.-b
esread cookie
Para aquellos que todavía están interesados en estas preguntas, hay una extensión de Chrome muy útil llamada CurlWGet que le permite generar una solicitud
wget
/curl
con medidas de autenticación, etc. con un solo clic. Para instalar esta extensión, siga los pasos a continuación:¡Disfrutar!
fuente
La publicación de blog Wget with Firefox Cookies muestra cómo acceder al archivo de datos sqlite en el que Firefox almacena sus cookies. De esa forma, no es necesario exportar manualmente las cookies para usarlas con wget. Un comentario sugiere que no funciona con cookies de sesión, pero funcionó bien para los sitios con los que lo probé.
fuente
Echa un vistazo a Cliget para Firefox.
Cuando esté a punto de descargar, en el cuadro de diálogo de descarga final tendrá la opción de copiar la descarga como línea de comando curl en el portapapeles.
fuente
¿Has probado esto?
fuente
Intenta algo como:
Vea también este enlace:
¿Cómo descargar esta página web con wget?
fuente
> filename.html
para guardar la salida en el directorio actual o poner una ruta de archivo completa. Esto se aplica a los sistemas Linux y Windows.Para inicios de sesión basados en sitios web más complicados, también debe considerar usar un script Python y algún módulo que imite un navegador, como http://wwwsearch.sourceforge.net/mechanize/ en lugar de
curl
owget
.De esta forma, las cookies de sesión se manejan automáticamente, puede seguir los enlaces y completar los formularios de inicio de sesión, y así "guiarse" usted mismo a través del proceso de inicio de sesión como si estuviera usando su navegador web.
fuente