Grep en Microsoft Word?
Me gustaría extraer todas las líneas con una cadena dada de un documento de Word. En el mundo de Unix ... grep hace esto sin fallas. Windows es menos que obvio para mí.
microsoft-word
grep
fretje
fuente
fuente
catdoc
violaciones de segmento en cada.doc
/.docx
archivo se lo doy, yantiword
simplemente me dice mi documento "no es un documento de Word". ¿Conoces alguna otra opción?docx2txt
existe en los repositorios de Debian, podría funcionar. También buscaría en la utilidad de conversión de formato de línea de comandos OpenOffice / LibreOffice (unoconv), que podría usarse para el mismo propósito.Sé que esto suena primitivo, pero lo que te impide guardar el archivo como .txt y luego romperlo a tu gusto.
fuente
¿Qué significa "línea" en un contexto de Word? La línea que se muestra, ¿qué cambia si le haces algo al formato de página? ¿El párrafo? ¿Algo más?
Puede hacer un montón de cosas con las funciones de buscar y reemplazar de Word, incluido el cambio de formato y otras cosas no obvias, pero todas ellas solo actuarán en el texto de buscar qué, no en el texto circundante.
fuente
Hay soporte para documentos MS - Word, PowerPoint, Excel - en CRGREP que he desarrollado como una herramienta gratuita de código abierto. También engloba otras cosas difíciles de buscar, como tablas de bases de datos, imágenes, audio, archivos, PDF y combinaciones de estos. Que te diviertas.
fuente
PowerGREP hará exactamente eso por usted y rápido, pero no de forma gratuita. Sin embargo, vale la pena cada centavo, en mi opinión. Además, hay una prueba gratuita de 30 días.
fuente
No tengo suficiente representante para comentar, pero puedo ver este tema de doc vs docx discutido, por lo que cualquiera que persiga el hilo (como yo) puede encontrar esto útil.
No necesita una herramienta especial para archivos docx. docx son archivos XML comprimidos.
Para extraer y eliminar el XML intente algo basado en
desde la línea de comando fu
fuente
Solución rápida, gratuita, de código abierto y multiplataforma: https://github.com/phiresky/ripgrep-all
fuente