¿Por qué Google dejó de indexar páginas de nuestro sitemap.xml?

18

Estamos viendo algunas páginas que existen en nuestro sitemap.xmlpero que inexplicablemente faltan en el índice de búsqueda pública de Google.

No puede descargar /superuser//sitemap.xml , protegemos este archivo porque ha habido problemas con él en el pasado, pero googlebot sí. Verificamos a través de las Herramientas para webmasters de Google que el sitemap.xmlarchivo se eliminó hoy y está calificado como OK sin errores (marca de verificación verde).

texto alternativo

El sitemap.xmlcontiene una lista de los últimos 50.000 preguntas en nuestro sitio que se les pidió. Por ejemplo, esta pregunta ...

/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links

... existe en el sitemap.xml...

<url>
<loc>/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links</loc>
<lastmod>2010-10-20</lastmod>
<changefreq>daily</changefreq>
<priority>0.2</priority>
</url>

La búsqueda de "Cómo ver el final de una larga cadena de enlaces simbólicos" le da un solo resultado a questionhub.com que está raspando nuestros datos (un problema completamente diferente).

Puede incrementar el número de conteo de preguntas y hacer una búsqueda exacta del título de la pregunta y verá que este patrón persiste.

Estas URL están en sitemap.xml pero no se muestran en el índice de Google, y sin embargo, se muestran en sitios que raspan nuestros datos comunes creativos. ¿Por qué sería eso?

Michael Pryor
fuente
55
Siempre puedes preguntar en los foros centrales de google webmaster. google.com/support/forum/p/Webmasters?hl=es
Alex Black el
Algo definitivamente está mal. ESTA pregunta ya está indexada en Google, pero la pregunta vinculada sobre el superusuario TODAVÍA no aparece en el índice.
Michael Pryor
Jeff podría pensar en preguntarle a Matt Cutts. Los he visto hablar unas cuantas veces en Twitter. Suele estar dispuesto a ayudar.
Virtuosi Media
3
FWIW Actualmente estamos viendo algunos problemas con la indexación de contenido nuevo en algunos sitios. Hay un hilo en nuestros foros de ayuda en google.com/support/forum/p/Webmasters/… sobre esto. La URL que mencionó parece estar afectada. Me imagino que esto se resolverá en breve, pero no tengo un marco temporal disponible. Gracias por su paciencia.
John Mueller
1
Parece que esto se resuelve ahora :-). Intenté algunas de las nuevas preguntas del sitio y todas estaban indexadas. Woot!
John Mueller

Respuestas:

10

Parece que Google tuvo algunos problemas técnicos de rastreo esta semana, que suenan notablemente a lo que estábamos experimentando:

http://searchengineland.com/is-google-broken-sites-big-small-seeing-indexing-problems-53701

Nadie parece ser inmune a un problema de indexación de Google que desconcierta a muchos propietarios de sitios. Los blogs y sitios web, grandes y pequeños, no se indexan tan rápido como normalmente, si es que se indexan.

...

John de Google respondió al hilo en los foros de webmasters diciendo:

Para ser claros, los problemas de este hilo, que he revisado en detalle, no se deben a cambios en nuestras políticas o cambios en nuestros algoritmos; se deben a un problema técnico de nuestra parte que se resolverá visiblemente lo antes posible (aunque puede demorar algunos días en estar visible para todos los sitios)

Jeff Atwood
fuente
7

Google no hace ninguna oferta ni garantiza que las páginas de un mapa del sitio se indexarán.

Mi experiencia ha sido que una página debe estar vinculada (desde una página de alguna autoridad) para que aparezca. ¿Esa página / pregunta está vinculada directa / indirectamente desde una página con alguna autoridad?

Por ejemplo, si la página de inicio de superuser.com (que presumiblemente tiene muchos enlaces entrantes) está vinculada directamente a esta pregunta, o indirectamente a través de otras páginas, puede esperar que se indexe.

De Google:

Google no garantiza que rastreemos o indexemos todas sus URL. Sin embargo, utilizamos los datos en su Sitemap para conocer la estructura de su sitio, lo que nos permitirá mejorar nuestro cronograma de rastreadores y hacer un mejor trabajo rastreando su sitio en el futuro. En la mayoría de los casos, los webmasters se beneficiarán de la presentación de Sitemap, y en ningún caso será penalizado por ello.

http://www.google.com/support/webmasters/bin/answer.py?hl=es&answer=156184

Alex Black
fuente
44
El superusuario debe tener suficientes enlaces y relaciones públicas para indexar esas páginas con o sin un mapa del sitio. Y las páginas menores se enumeran todo el tiempo. De hecho, constituyen la mayoría del índice. Sospecho que algo más es el culpable.
John Conde
De acuerdo, el sitio tiene muchas relaciones públicas y enlaces. Pero, ¿existe la posibilidad de que la página en cuestión no tenga enlaces? Si superuser.com (por casualidad) no se vincula a la página, ¿qué le dice eso a google? dice que la página no es importante.
Alex Black
2
La página definitivamente estaba vinculada desde la página principal, y continúa vinculada desde otras páginas. Los sitios de SE tienen muchos enlaces cruzados.
Kevin Montrose
1
en un momento de ayer, uno de mis resultados para una pregunta de prueba fue la página de inicio de superuser.com, ¡con la URL de destino visible, incluso en el caché de Google! Y sin embargo, la pregunta en sí no fue indexada. Muy raro.
Jeff Atwood
2
absolutamente: haga clic en la pestaña CALIENTE en la página de inicio, o en la pestaña SEMANAL o MENSUAL. Justo ahí ..
Jeff Atwood
3

Creo que Google podría estar teniendo dificultades para indexar sus páginas web, 50,000 es mucho. Entonces, mi sugerencia sería desglosar su mapa del sitio en pedazos así

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>

Si se descompone, tendrá una mejor suerte de tener esas 50,000 URL indexadas.

Sitemaps.org explicación del problema

Puede proporcionar varios archivos de Sitemap, pero cada archivo de Sitemap que proporcione no debe tener más de 50,000 URL y no debe tener más de 10 MB (10,485,760 bytes). Si lo desea, puede comprimir sus archivos de Sitemap usando gzip para reducir su requisito de ancho de banda; sin embargo, el archivo del mapa del sitio una vez descomprimido no debe ser mayor de 10 MB. Si desea enumerar más de 50,000 URL, debe crear varios archivos de Sitemap.

Si proporciona varios Sitemaps, debe enumerar cada archivo de Sitemap en un archivo de índice de Sitemap. Los archivos de índice de Sitemap no pueden incluir más de 50,000 Sitemaps y no deben tener más de 10 MB (10,485,760 bytes) y pueden comprimirse. Puede tener más de un archivo de índice de Sitemap. El formato XML de un archivo de índice de Sitemap es muy similar al formato XML de un archivo de Sitemap.

http://sitemaps.org/protocol.php

Sevki
fuente
2
Los sitemaps con 50,000 páginas son muy comunes. De hecho, alguien publicó recientemente una captura de pantalla de su cuenta de webmaster que muestra que Google indexó casi todas las 50,000 de esas páginas. Y sospecho que el superusuario es más popular (por ejemplo, tiene mejor popularidad de enlaces) que ese otro sitio.
John Conde
1
"Tiene más de 50,000 URL para enumerar. Eso es lo máximo que puede incluir un Sitemap". sitemaps.blogspot.com/2005/08/using-sitemap-index-files.html
Jeff Atwood
1
Si tiene un mapa del sitio para cada día, estos nunca cambian después de que termine el día, para que el mapa del sitio no tenga que ser accedido nuevamente, pueden rastrear los enlaces que ya indexaron para los cambios, por lo que Google no tiene que pasar por 50,000 urls cada día para ver cuáles son viejas y cuáles son nuevas.
Sevki
@sevki, la pregunta 50.001 más antigua por FECHA DE ACTIVIDAD (nuevas respuestas, ediciones, etc., esta fecha) no estará en el mapa del sitio. Tenga en cuenta que el superusuario solo tiene 55k preguntas en total.
Jeff Atwood
@Jeff pero SO.com tiene 1.014.782 y 964.782 no está en un mapa del sitio, por lo que Google o Bing no saben cuándo se modificaron por última vez ... eso no aumenta sus rastreos. de todos modos no quiero ser molesto solo tratando de ayudar, te envié un correo electrónico con algunos detalles más.
Sevki
2

Parece que Google afirma que 46.514 enlaces enviados están en el índice. ¿Podría ser un problema con (odio decirlo) pero el ranking de la página? Los sitios de raspado pueden estar haciendo un mejor trabajo de reticulación, etc. y estar clasificados más alto. Solo un pensamiento.

Este sitio de búsqueda : superuser.com Cómo ver el final de una larga cadena de enlaces simbólicos también parece estar obteniendo su sitemap.xml correctamente, aunque no devuelve los resultados esperados.

Dustin Senos
fuente
Ese sitio de raspado atribuye a superuser.com como autor original (aunque podrían ser más explícitos al respecto), por lo que Google debe saber que es el autor original del contenido y darles prioridad sobre los sitios de raspado.
John Conde
@john correcto, requerimos atribución con seguimiento, como se documenta en blog.stackoverflow.com/2010/08/defending-attribution-required
Jeff Atwood
ese mapa del sitio en caché es "como apareció el 17 de octubre de 2010 05:40:35 GMT", hace 4 días a partir del momento en que escribo esto, por lo que no tiene mucho. Descubrí algunas URL en ese sitemap.xml almacenado en caché y también existen como páginas de preguntas en Google.
Jeff Atwood
@john, ¿puedes dar un ejemplo de cómo dan la atribución? Thx
Greg B
@ Greg, solo busca el logotipo del superusuario
John Conde
2

Con este tipo de cosas hay muchas posibles respuestas.

Empezaría preguntando cuántas páginas tienes realmente. (enviaste 50,000 URL en un sitio rápido: superuser.com muestra 125,000 indexadas ¿crees que solo tienes 50K URL y las estás enviando todas pero Google está encontrando 2-3 copias de cada página? o tal vez tienes 1Mil URL y solo 12.5 % se están indexando) obtener el panorama general ayuda a dirigir dónde buscar problemas.

Si nada parece estar mal con el primer paso, pasaría al contenido, parece que QH tiene mucho más contenido en su página y enlaza muchos otros "recursos" a pesar del hecho de que todo su contenido está descartado, es posible que Google considere su página más útil ya que proporcionan más recursos / información para el usuario. Si se consideran la autoridad y todo su contenido es el mismo que el de ellos, es posible que Google no indexe el suyo aunque usted sea el original.

Si está convencido de que ese no es el problema, cree algunos enlaces de alta calidad, publique esta pregunta en algunos blogs populares para empleados o pida a algunos amigos que escriban en el blog, tal vez si tiene amigos SEO que ejecutan blogs populares, escribirían un estudio de caso al respecto, etc.

Si obtienes muchos enlaces fuertes y todavía no se indexa, busca razones por las que podría ser penalizado (en la mayoría de los casos, este no será el problema, pero nunca está de más comprobarlo).

Si nada de esto funciona, entonces 9 de cada 10 veces es un problema técnico simple que se ha pasado por alto (exclusión de robots o algo similar).

Si aún no tiene respuesta después de pasar por esto, pregunte a Google y espere que le den una respuesta.

Joshak
fuente
0

La pregunta se acaba de hacer ayer: dale una oportunidad al googlebot, no eres el único sitio en Internet que tiene que rastrear, ya sabes :)

Si las preguntas se indexan normalmente dentro de un día más o menos, y pasa una semana y esa todavía no está indexada, entonces podría estar preocupado. Pero ciertamente no después de 1 día.

Eric Petroelje
fuente
1
Suelen aparecer dentro de una hora. Así que estoy de acuerdo, debería darle tiempo, pero en relación con su frecuencia habitual ... lo he hecho.
Michael Pryor
@michael, sin embargo, asegúrese de comparar manzanas con manzanas: Google parece indexar stackoverflow.com a una tasa MUCHO más alta que nuestros otros sitios.
Jeff Atwood