¿Cómo extraigo todos los enlaces externos de una página web y los guardo en un archivo?

11

¿Cómo extraigo todos los enlaces externos de una página web y los guardo en un archivo?

Si tiene alguna herramienta de línea de comandos, sería genial.

RogerioO
fuente

Respuestas:

18

Necesitarás 2 herramientas, lynx y awk , prueba esto:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

Si necesita líneas de numeración, use el comando nl , intente esto:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt
Ielton
fuente
No creo que esto funcione para las URL relativas
Sridhar Sarnobat
8

Aquí hay una mejora en la respuesta de lelton: no necesita awk para nada porque Lynx tiene algunas opciones útiles.

lynx -listonly -nonumbers -dump http://www.google.com.br

si quieres números

lynx -listonly -dump http://www.google.com.br
Max
fuente
0
  1. Use Beautiful Soup para recuperar las páginas web en cuestión.
  2. Use awk para encontrar todas las URL que no apuntan a su dominio

Recomendaría Beautiful Soup sobre las técnicas de raspado de pantalla.

Wesley
fuente