¿Cómo puedo hacer que Google indexe mis documentos PDF?

14

Estamos teniendo problemas para que Google indexe los archivos PDF en nuestro sitio. Hay alrededor de 50 PDF y su tamaño varía de 20 KB a poco menos de dos megas. No están protegidos, se pueden leer de forma anónima y, dentro de PDF Reader, puede buscar el documento.

Se enumeran en SiteMap.xml. Incluso puedo mirar los registros de IIS y ver el robot de Google leyendo los archivos PDF, pero, excepto por cinco, nunca se incluyen en los resultados de búsqueda.

Si hago un filetye: pdf, solo aparecieron cinco PDF. Si busco texto que sé que está dentro de un PDF, los PDF nunca aparecen (excepto los cinco que están indexados).

¿Alguien tiene alguna idea de por qué los más de 45 documentos PDF no se incluyen en el índice, a pesar de que están en el mapa del sitio y Googlebot los está leyendo?

danlefree
fuente
¿Estás especificando el tipo de contenido para Google?
Chris Ballance

Respuestas:

4

¿están todos los archivos PDF ubicados en el mismo lugar? Una vez tuve el problema de que una de mis ubicaciones pdf estaba dentro de una carpeta que estaba excluida por el archivo robots.txt. Envíe su mapa del sitio directamente al sitio de herramientas de google-webmaster y puede obtener información valiosa sobre la razón por la cual los archivos PDF no aparecen. en mi caso, google me dijo 'hey, estos 54 documentos pdf están en su mapa del sitio pero debido a restricciones de robots.txt no podemos indexarlos'. Eso fue muy útil. pero tenga en cuenta lo que dice el comentarista, puede pasar un tiempo hasta que aparezca esta información.

Herramientas para webmasters de Google: https://www.google.com/webmasters/tools

Markus
fuente
Solo agregaré que Google Webmaster Tools no brinda toda la información en tiempo real. Sin embargo, sigue siendo un recurso vital.
Liam
No, los archivos PDF se encuentran en diferentes lugares del sitio. Lo he comprobado y ninguno de ellos está siendo bloqueado por robots.txt. He estado usando las Herramientas para webmasters y he enviado Sitemaps, y seguiré haciéndolo. Gracias por tus comentarios. Jim
1

Puede haber un gran retraso entre Google inicialmente leyendo su contenido y apareciendo en el índice. Recientemente relanzamos un sitio, enviamos mapas del sitio a Google en el lanzamiento, y las nuevas páginas tardaron aproximadamente 3 semanas en comenzar a aparecer en los resultados de búsqueda.

¿Hace cuánto tiempo envió estos archivos PDF a través de su mapa del sitio?

(excepto los cinco que están indexados)

Parece que sus archivos PDF están siendo indexados, pero está tomando algo de tiempo. Suponiendo que no haya diferencia en la forma en que se generaron los PDF no indexados, sospecho que el índice solo tarda un tiempo en actualizarse.

En una pequeña tangente, una herramienta útil para la que recomendaría registrarse es Google Webmaster : muestra la frecuencia de rastreo, los problemas con su sitio, los mapas del sitio y la indexación en aproximadamente un día después de que el robot de Google llegue a su sitio. Podría ahorrarle un poco de tiempo revisando sus registros de IIS.

ConroyP
fuente
Han pasado aproximadamente cuatro semanas desde que presentamos nuestro mapa del sitio. Acabo de notar que anoche indexaron cuatro más; así que tal vez solo necesito seguir esperando :)
Cuando relanzó el sitio, si las nuevas páginas tardaron 3 semanas en aparecer en los resultados de búsqueda, ¿eso no significaba que durante 3 semanas, la búsqueda arrojó resultados a páginas que ya no existían en su sitio? ¿No resultó esto en muchas condiciones de 'página no encontrada'?
En nuestra situación, el relanzamiento coincidió con el lanzamiento de una nueva sección, los enlaces antiguos todavía funcionaban: las 3 semanas fueron el momento para que la nueva sección comenzara a aparecer. ¡El tiempo de espera aleatorio puede ser un poco frustrante!
ConroyP
0

¿Se escanean sus archivos PDF con OCR para que el texto se pueda seleccionar y buscar? ¿O se están escaneando los archivos PDF sin OCR, en cuyo caso el texto se almacenará como una imagen grande? Si el PDF es todas las imágenes, no creo que Google pueda indexarlo (todavía). ¿O Google ha encontrado tus páginas ahora?


fuente