¿Los motores de búsqueda rastrean archivos PDF? De ser así, ¿hay alguna regla que seguir al hacerlos?

22

El sitio web en el que estoy trabajando tiene algunos cientos de archivos PDF. No creo haber visto a ninguno de ellos volver en una búsqueda, pero están vinculados directamente desde nuestro sitio. También están llenas de palabras clave porque son documentos de productos.

¿Hay algo especial que debamos hacer para que Google u otros motores de búsqueda los rastreen?

¿Existe alguna regla estricta y rápida para crear archivos PDF que ayuden a Google a que les guste más? Por ejemplo, ¿debería ejecutarlos a través de ghostscript para limpiar las etiquetas PDF rotas que Adobe crea durante la generación?

Ben Hoffman
fuente
¿Agregar a su mapa del sitio xml para asegurarse de que estén al tanto de ellos?
artlung

Respuestas:

17

Google definitivamente indexa archivos PDF y puede buscar solo archivos PDF agregando filetype:pdfa su consulta de búsqueda ( ejemplo ).

Diría que las principales cosas que hacer para optimizar un PDF para que se indexe fácilmente serían:

  • Dale un nombre de archivo significativo
  • Complete todas las propiedades de metadatos del documento (título, autor, palabras clave, etc.)
  • Asegúrese de que su PDF esté compuesto de texto real y no de imágenes escaneadas
  • Asegúrese de tener un buen contenido con el uso correcto de los encabezados, tal como lo haría con un documento HTML

Para obtener más consejos, lea Optimización de documentos PDF y Once consejos para optimizar archivos PDF para motores de búsqueda

Dan Diplo
fuente
@Christofian Gracias - He actualizado el enlace. ¡Dejaré que el lector aprecie la ironía de una compañía de SEO que renombra sus enlaces sin tener ningún redireccionamiento 301!
Dan Diplo
@DanDiplo con respecto al SEO de los archivos PDF. Sugeriría agregar un enlace al contenido cuando corresponda.
Anagio
1

No estoy seguro acerca de otros motores de búsqueda, pero en lo que respecta a Google, la regla principal sería no excluirlos a través de robots.txt

Este fue su anuncio inicial de apoyar la búsqueda de PDF.

intlect
fuente
1

Al igual que hacer que un sitio web sea compatible no puede dañar con su SEO, hacer que su PDF sea accesible no puede dañar. El comprobador de accesibilidad incorporado de Adobe está lejos de ser perfecto, pero al menos arreglar esas áreas lo ayudará a comenzar.

Probablemente dedico 5 minutos a cada 4 o 5, principalmente PDF de texto que ponemos en línea. El tiempo aumenta de manera uniforme dependiendo del número de páginas y de lo complejas que sean esas páginas.

Suponiendo que tiene Adobe Acrobat Pro para hacer su edición:

  • Ejecute una verificación completa de accesibilidad. (La verificación rápida no tiene sentido para mí)
  • Actualice la metainformación en las propiedades del documento (palabras clave, asunto, idioma, etc.)
  • Asegúrese de agregar etiquetas
  • Asegúrese de que el texto esté etiquetado como texto, imágenes como imágenes, material de fondo como fondo
  • Etiquete pelusas inútiles (como decoración o diseño) como fondo
  • Agregue buen texto alternativo a las imágenes
  • Asegúrese de que en el orden de lectura, el texto esté ordenado correctamente
  • En la barra de herramientas de contenido, asegúrese de que el texto no esté duplicado o mal traducido
  • Use el escáner OCR en páginas escaneadas

Para una edición más avanzada, como tablas y errores de Adobe realmente extraños, utilizamos un complemento llamado CommonLook. CommonLook hace el trabajo, pero lo odio casi tanto como odio las herramientas de Adobe.

Familiarícese con la herramienta Retocar orden de lectura, la barra de herramientas Etiquetas, la barra de herramientas Orden de lectura y la barra de herramientas Contenido. Mi trabajo requiere documentos totalmente compatibles antes de salir a la web, pero cualquiera podría beneficiarse de algunas propiedades simples de etiquetado y documentos.

MrChrister
fuente
Nuestro sitio tenía más de 5,000 archivos PDF a los que tuvimos que regresar y lograr el cumplimiento total de 508. Tomó un tiempo aprender, el entrenador de Adobe sugirió que no era de ninguna ayuda, pero una vez que lo aprendes, realmente puedes cerrarlos.
MrChrister