Necesito una forma de extraer el texto de todos los tipos de documentos de MS Office (Word, Excel, Powerpoint), en Linux. Imagino que podría haber varios enfoques diferentes para lograr esto, como un script Bash o Python, o convertirlos a PDF y luego extraer el texto usando una herramienta como pdftotext.
Esto parece ser un requisito común. ¿Existe un procedimiento o herramienta establecida para lograr esto fácilmente?
Finalmente encontré la herramienta perfecta para el análisis de documentos de secuencias de comandos, es apache-tika, ¡puede analizar millones de formatos que no son de texto en texto, lo cual es muy bueno!
Obtenga Apache Tika aquí:
http://tika.apache.org/
(Usuarios de Mac: Homebrew
brew install tika
)La interfaz de línea de comandos funciona así:
tika --text something.docx > something.txt
fuente
Abiword puede convertir desde la línea de comandos entre cualquier formato de archivo que conozca.
Convierte de Word a texto sin formato:
abiword --to=txt myfile.doc
Hacer un pdf desde un archivo de Word:
abiword --to=pdf myfile.doc
Y así. Los resultados en estos casos serían myfile.txt o myfile.pdf. Si desea especificar el nombre de salida, también puede hacerlo:
abiword --to=txt --to-name=output.txt myfile.doc
Convertir ODT a Word:
abiword --to=doc myfile.odt
Convierta Word a ODT:
abiword --to=odt myfile.doc
Para ser justos con otras respuestas, debe tenerse en cuenta que AbiWord usa wvWare para manejar documentos de Word, pero incluso la página de inicio de wvWare recomienda usar AbiWord en su lugar para la mayoría de las conversiones.
Odio los procesadores de texto. Esta es la razón principal por la que tengo instalado AbiWord.
También podría estar interesado en unoconv , que es una herramienta similar que admite formatos que OpenOffice conoce (que incluiría hojas de cálculo y similares), pero no tengo experiencia con eso personalmente.
fuente
Con LibreOffice puedes hacer:
fuente
Puede usar CUPS (impresora virtual) y usando ld.
fuente
wv es una opción y se puede decir a IIRC OpenOffice desde la línea de comandos que exporte como pdf y salga.
fuente
Si desea utilizar Apache Tika en un proyecto de Python, consulte esta publicación de blog .
fuente
1.doc catdoc o antiword para convertir archivos doc, puede usar el siguiente comando catdoc file.doc> file o antiword file.doc> file
docx docx2txt
pdf emacs file.pdf ctrl-x ctrl-s archivo
fuente
Docsplit es la herramienta perfecta para extraer el texto de pdf. Es una joya de rubí. Por lo tanto, debe instalar ruby y gem en su sistema Linux antes de usar el comando docsplit.
Si su sistema no tenía el rubí y la gema, siga las instrucciones.
Debe ser root para instalar el software (suponiendo que desea que esté disponible para todos los usuarios).
Instale ruby en linux: yum install ruby
Instale la gema, descargue el último paquete de gemas, luego siga las instrucciones
tar xzf rubygems-xxxx.tgz
cd rubygems-xxxx
ruby setup.rb
Ahora que RubyGems está instalado, debe tener el comando gem (gem es el comando utilizado para interactuar con el sistema de paquetes RubyGems). Pruébelo ejecutando:
lista de gemas
Ahora, avance al siguiente paso, para instalar la gema docsplit, vaya al siguiente sitio. http://documentcloud.github.com/docsplit/
fuente