Web spider para Ubuntu

11

Estoy buscando una araña web para Ubuntu como esta Webripper - Calluna Software . Puede descargar un sitio completo como puede hacerlo con

wget -r -m example.com

pero la característica que estoy buscando es que puede ingresar un término de búsqueda como "Linux" y busca en la Web y los descarga. ¿Hay algún programa en Ubuntu como este?

Zeitue
fuente

Respuestas:

4

Puede usar las Alertas de Google para crear una especie de página de búsqueda entregada a un feed y luego usar un lector RSS o Thunderbird para leerlas.

Yo uso Thunderbird para RSS. No sé si hay lectores de RSS que puedan exportar el feed a html simple.

Que hacer
fuente
3

Puedes probar http ripper .

Aquí hay algunas características publicadas en el sitio web:

Free Software (GPL 3)
Generic (works with almost every website)
Runs on GNU/Linux and Windows
Nearly undetectable / blockable by servers
Built with python and pygtk

http://29a.ch/httpripper/screenshots/2.png Captura de pantalla

Mire un tutorial, del desarrollador del propio httpripper:

Enlace de descarga:

Funcionó para mí en Ubuntu 11.10 x64

cuchilla19899
fuente
-1

Hay módulos adecuados en el CPAN de Perl. Solo necesitas un poco de scripts de Perl.

En particular, eche un vistazo al módulo WWW: Mechanize en el módulo WWW: Mechanize .

Chris
fuente