¿Existe un motor de indexación de texto completo que pueda consultarse desde la línea de comandos y que idealmente no requiera el uso de una interfaz gráfica de usuario?
Estoy especialmente interesado en indexar mis libros electrónicos y documentos, por lo que es una mezcla de pdf, epub y algunos djvu. (Abierto) Los documentos de Office serían buenos, pero mucho más bajos en mi lista.
command-line
search
julien
fuente
fuente
Respuestas:
¿Has mirado a Lucene o Sphinx? Si bien necesitará analizar inicialmente los documentos que desea indexar, una vez hecho esto, cualquiera puede buscar desde el cli.
Para Lucene, hay información sobre cómo hacer esto disponible .
Sphinx, es un poco más vago, pero también hay documentación disponible . Puede pasar datos XML estructurados de su elección a sphinx a través de la fuente de datos xmlpipe2.
Lucene se basa en Java, mientras que Sphinx está construido en C ++ sin dependencias externas necesarias.
Cualquiera de las dos requerirá un poco de trabajo para hacer lo que desea, pero parece una solución totalmente viable.
fuente
echa un vistazo a xapian . Tiene una interfaz de línea de comando y puede indexar muchos formatos.
fuente
Recoll se puede construir sin GUI y buscará sus tipos de documentos desde la línea de comandos.
Utiliza Xapian debajo del capó.
fuente
El rastreador se puede invocar desde la línea de comandos y gtk + no es una dependencia difícil para un proyecto (pero puede ser para paquetes).
fuente
Esta respuesta recomienda utilizar la búsqueda de código de Google ,
Los superusuarios en Debian / derivados pueden probar:
sudo apt-get install codesearch
fuente
Actualmente hay dos flujos de Tracker, estable (0.8) e inestable (0.9). Es probable que su sistema operativo tenga la versión 0.8, por lo que si puede permitírselo (tiene algunas dependencias de software de vanguardia ), vaya a buscar el último tarfile (0.9.x). Tiene muchas mejoras por encima de 0.8, y actualmente se está estabilizando aún más para ser 0.10 (los números pares representan estabilidad). Si elige seguir esta ruta, use este comando para configurar:
Es probable que no tenga instaladas las dependencias, por lo que debería ser más sencillo simplemente instalar 0.8 desde su distribución y simplemente evitar los bits de la GUI. En Debian Squeeze, Ubuntu 10.10 y Ubuntu 11.04, estos están muy bien divididos. Entonces ( como root ) ejecuta:
La herramienta CLI para esto es
tracker-search
, así que ejecútelo con la--help
opción para ver cómo aprovecharlo :-)notas :
tracker-applet
ytracker-preferences
. Sin embargo, tienen un paquete separado paratracker-search-tool
la interfaz de búsqueda GUI.fuente
Trabajé en escribir una herramienta de búsqueda de texto completo (una nueva propuesta) para indexar y buscar páginas de manual para NetBSD este verano usando Sqlite3. Se compone de dos herramientas de línea de comandos:
Puede escribir fácilmente una herramienta similar para usted, para los archivos PDF necesitará una biblioteca para analizar documentos PDF y, de manera similar, una utilidad para analizar los documentos de oficina abierta.
Puedes leer más sobre el proyecto aquí
El codigo esta aqui
fuente