Estamos teniendo problemas para que Google indexe los archivos PDF en nuestro sitio. Hay alrededor de 50 PDF y su tamaño varía de 20 KB a poco menos de dos megas. No están protegidos, se pueden leer de forma anónima y, dentro de PDF Reader, puede buscar el documento.
Se enumeran en SiteMap.xml. Incluso puedo mirar los registros de IIS y ver el robot de Google leyendo los archivos PDF, pero, excepto por cinco, nunca se incluyen en los resultados de búsqueda.
Si hago un filetye: pdf, solo aparecieron cinco PDF. Si busco texto que sé que está dentro de un PDF, los PDF nunca aparecen (excepto los cinco que están indexados).
¿Alguien tiene alguna idea de por qué los más de 45 documentos PDF no se incluyen en el índice, a pesar de que están en el mapa del sitio y Googlebot los está leyendo?
fuente
Respuestas:
¿están todos los archivos PDF ubicados en el mismo lugar? Una vez tuve el problema de que una de mis ubicaciones pdf estaba dentro de una carpeta que estaba excluida por el archivo robots.txt. Envíe su mapa del sitio directamente al sitio de herramientas de google-webmaster y puede obtener información valiosa sobre la razón por la cual los archivos PDF no aparecen. en mi caso, google me dijo 'hey, estos 54 documentos pdf están en su mapa del sitio pero debido a restricciones de robots.txt no podemos indexarlos'. Eso fue muy útil. pero tenga en cuenta lo que dice el comentarista, puede pasar un tiempo hasta que aparezca esta información.
Herramientas para webmasters de Google: https://www.google.com/webmasters/tools
fuente
Puede haber un gran retraso entre Google inicialmente leyendo su contenido y apareciendo en el índice. Recientemente relanzamos un sitio, enviamos mapas del sitio a Google en el lanzamiento, y las nuevas páginas tardaron aproximadamente 3 semanas en comenzar a aparecer en los resultados de búsqueda.
¿Hace cuánto tiempo envió estos archivos PDF a través de su mapa del sitio?
Parece que sus archivos PDF están siendo indexados, pero está tomando algo de tiempo. Suponiendo que no haya diferencia en la forma en que se generaron los PDF no indexados, sospecho que el índice solo tarda un tiempo en actualizarse.
En una pequeña tangente, una herramienta útil para la que recomendaría registrarse es Google Webmaster : muestra la frecuencia de rastreo, los problemas con su sitio, los mapas del sitio y la indexación en aproximadamente un día después de que el robot de Google llegue a su sitio. Podría ahorrarle un poco de tiempo revisando sus registros de IIS.
fuente
¿Se escanean sus archivos PDF con OCR para que el texto se pueda seleccionar y buscar? ¿O se están escaneando los archivos PDF sin OCR, en cuyo caso el texto se almacenará como una imagen grande? Si el PDF es todas las imágenes, no creo que Google pueda indexarlo (todavía). ¿O Google ha encontrado tus páginas ahora?
fuente
Puede enviarlo manualmente a Google , esto ocasionalmente acelera el proceso.
fuente