Exportar: copiar texto desde pdf sin saltos de línea

12

Hay algunos PDF en la naturaleza donde cada línea de texto parece estar codificada, por lo que cuando copio un bloque de texto todo viene con él: saltos de línea e incluso separadores "-".

Mi pregunta es: ¿Cómo creo archivos PDF en InDesign donde este comportamiento no ocurre?

¿Alguien sabe más sobre esto?

KSPR
fuente
2
Solo me gustaría comentar que este es un problema enorme en muchos artículos académicos y no he encontrado ninguna razón / solución para este problema. Esperando buenas respuestas!
antes del
... así que podría ser la antigua funcionalidad de exportación en alguna práctica idiota de la era del precambio la culpable.
antes del

Respuestas:

3

Esto se debe a que los PDF se pueden generar de muchas maneras a partir de una serie de software y aplicaciones en línea. Cada uno de estos trata las líneas de texto de manera diferente, por lo que nunca puede saber cómo se incluye realmente el texto hasta que intente copiarlo y pegarlo desde PDF a InDesign.

Sin embargo, los PDF exportados por InDesign generalmente mantendrán los espacios al final de cada línea para que no tenga que preocuparse de que se inserte un retorno de párrafo después de cada línea. Para estar 100% seguro, marque la Create Tagged PDFcasilla de verificación cuando exporte un PDF desde InDesign. Personalmente, siempre marcaré esta casilla y la incluiré en cualquier preajuste que esté usando. Más detalles sobre esta opción aquí .

Si se encuentra con un PDF mal exportado y necesita limpiar los retornos del párrafo final después de cada línea de texto, la opción más rápida es Buscar / Reemplazar. Escriba ^pel Find whatcampo y ponga un espacio en blanco en el Change tocampo. Seleccione uno Storyo Selectionmenos según su situación y esto debería limpiar su texto.

cuadro de diálogo buscar cambio

Lucian
fuente
2

Una forma que funciona es exportar el PDF como HTML desde Acrobat Pro , abrir ese archivo en su navegador web y luego copiar el texto desde allí.

A diferencia de exportar como formato de texto, el html generalmente no rompe líneas.

Que yo sepa, no puede evitar esto desde InDesign, parece ser un comportamiento que proviene del software PDF o PDF. Es posible que cualquier software de publicación que use "cuadros / cuadros de texto" cree ese tipo de textos en un PDF.

go-junta
fuente
-2

Esto se debe a que así es como los archivos PDF reconocen el texto: cada línea se convierte en un párrafo (de ahí que se devuelva al final). No hay forma de evitarlo, debe cambiarlo globalmente en los documentos, después de copiar, utilizando la opción Buscar / Reemplazar y los caracteres ocultos.

Agnieszka Szuba
fuente
1
Pero hay archivos PDF que no tienen este comportamiento. PDF donde puede copiar todo sin problemas. Me pregunto cómo se podría lograr esto durante la exportación.
KSPR