Estoy buscando una biblioteca PDF que me permita extraer el texto de un documento PDF. He examinado PyPDF y esto puede extraer muy bien el texto de un documento PDF. El problema con esto es que si hay tablas en el documento, el texto de las tablas se extrae en línea con el resto del texto del documento. Esto puede ser problemático porque genera secciones de texto que no son útiles y parecen distorsionadas (por ejemplo, muchos números mezclados).
Me gustaría extraer el texto de un documento PDF, excluyendo tablas y formatos especiales. ¿Hay alguna biblioteca que haga esto?
fuente
Ese es un problema difícil de resolver, ya que los PDF visualmente similares pueden tener una estructura muy diferente dependiendo de cómo se produjeron. En el peor de los casos, la biblioteca tendría que actuar básicamente como un OCR. Por otro lado, el PDF puede contener suficiente estructura y metadatos para eliminar fácilmente tablas y figuras, que la biblioteca se puede adaptar para aprovechar.
Estoy bastante seguro de que no hay herramientas de código abierto que resuelvan su problema para una amplia variedad de archivos PDF, pero recuerdo haber oído hablar de software comercial que afirma hacer exactamente lo que pide. Estoy seguro de que te encontrarás con ellos mientras buscas en Google.
fuente