Gracias por todas las respuestas, a todos. Con su ayuda pude compilar una lista de comandos que pueden extraer el recuento de páginas de casi todos los documentos de Office relevantes:
DOCX / PPTX
unzip -p 'sample.docx' docProps/app.xml | grep -oP '(?<=\<Pages\>).*(?=\</Pages\>)'
unzip -p 'sample.pptx' docProps/app.xml | grep -oP '(?<=\<Slides\>).*(?=\</Slides\>)'
Nota : unzip
se puede instalar con sudo apt-get install unzip
.
DOC / PPT
wvSummary sample.doc | grep -oP '(?<=of Pages = )[ A-Za-z0-9]*'
wvSummary sample.ppt | grep -oP '(?<=of Slides = )[ A-Za-z0-9]*'
Nota : wvSummary
(distingue entre mayúsculas y minúsculas) es parte del wv
paquete. Instalarlo con sudo apt-get install wv
.
ODT
unzip -p sample.odt meta.xml | grep -oP '(?<=page-count=")[ A-Za-z0-9]*'
PDF
pdfinfo sample.pdf | grep -oP '(?<=Pages: )[ A-Za-z0-9]*'
Nota: pdfinfo
es parte de poppler-utils
y debe venir preinstalado en Ubuntu.
DJVU
djvused -e "n" sample.djvu
Nota: djvused
es parte del djvulibre-bin
paquete y se puede instalar con sudo apt-get install djvulibre-bin
.
No encontré una manera de extraer
odt
la información del archivo como lopdfinfo
hace, pero puede crear un script rápido para usarpdfinfo
con losodt
archivos, convirtiendo cada archivo impar a PDF y luego eliminando el archivo convertido si no lo va a usar:Espero que esto te haya ayudado.
fuente