¿Cómo evito que los errores Soft 404 se acumulen para la página "Sin resultados"?

9

Recientemente, noté que tengo una lista creciente de errores Soft 404 en las Herramientas para webmasters de Google. Todos son para páginas de resultados de búsqueda generadas dinámicamente que informan "No se encontraron coincidencias".

Yo no entiendo lo que significa que Google por Soft 404 y por qué se están informando que para estas páginas. Entonces agregué <meta name="robots" content="noindex">a estas páginas.

Sin embargo, Google aún informa nuevos errores de Soft 404 para páginas que usan la metaetiqueta noindex .

¿Por qué Google informa algún error en una página que les dije que no indexaran?

El problema es que con todos estos errores no deseados, no puedo ver si hay algún problema real que deba corregirse.

Algunos han dicho que estas páginas deberían devolver un código de estado 404. Pero eso solo cambia el problema a la pestaña de errores 404. Además, Google devuelve el código de estado 200 para su página sin resultados .

No quiero bloquear el acceso con robots.txt porque quiero que se sigan los enlaces en estas páginas y quiero que Google vea la metaetiqueta noindex . Además, no hay ningún patrón que pueda usar para bloquearlos.

Google encontró estas URL en primer lugar porque el contenido solía existir, pero desde entonces se ha eliminado. No puedo devolver un código de estado 410, porque mi código PHP no tiene forma de saber la razón por la que no se encontraron resultados.

¿Hay algo que pueda hacer para que sea más fácil ver los problemas reales?

toxalot
fuente
¿Cómo encuentra Google esas URL de búsqueda? ¿Los estás vinculando desde algún lado?
DisgruntledGoat
Consulte la pregunta de seguimiento: webmasters.stackexchange.com/q/55624/33777
toxalot el
@DisgruntledGoat, lo he visto en muchos de mis sitios web. Googlebot tiene la capacidad de hacer búsquedas. No estoy muy seguro de si ese fue realmente el problema. Pero nunca he podido encontrar otra fuente para sus extrañas búsquedas .
Alexis Wilke

Respuestas:

7

Debe evitar que Google rastree las páginas de búsqueda del sitio. Google no quiere rastrear la búsqueda de su sitio en absoluto . Aquí está la publicación del blog Matt Cutts de Google sobre el tema: resultados de búsqueda en los resultados de búsqueda de Matt Cutts el 10 de marzo de 2007 . Google ahora penaliza activamente los sitios que permiten rastrear los resultados de búsqueda de sus sitios y aparecer en los SERP de Google. Al permitir que Googlebot rastree sus páginas de resultados de búsqueda, está arriesgando todo su tráfico de referencia de Google. Un truco favorito de un crítico de Google es utilizar la búsqueda de su sitio para términos de spam como "Viagra". Cuando ven una página rastreable como resultado (incluso si dice "no se encontraron resultados para Viagra") aplicarán una penalización manual contra su sitio como sitio de spam.

Debe poner su búsqueda en el sitio robots.txt. Solo asegúrate de que Googlebot pueda rastrear tus páginas de contenido. Luego dejará de recibir nuevos errores 404 suaves informados.


Una gran cantidad de errores 404 (incluso errores 404 suaves) no perjudican la clasificación de su sitio. Google informa de errores en cualquier página que puedan encontrar y rastrear, ya sea que lo desee o no indexado, y si incluso lo vincula o no. Lo hacen porque los informes de errores son exclusivamente para su beneficio y sienten que debe estar completamente informado.

Esto es lo que John Mueller de Google tiene que decir al respecto :

  1. Los errores 404 en URL inválidas no dañan la indexación o clasificación de su sitio de ninguna manera. No importa si hay 100 o 10 millones, no dañarán el ranking de su sitio. http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
  2. En algunos casos, los errores de rastreo pueden provenir de un problema estructural legítimo dentro de su sitio web o CMS. Como lo dices Vuelva a verificar el origen del error de rastreo. Si hay un enlace roto en su sitio, en el HTML estático de su página, entonces siempre vale la pena arreglarlo. (gracias + Martino Mosna)
  3. ¿Qué pasa con las URL funky que están "claramente rotas"? Cuando a nuestros algoritmos les gusta su sitio, pueden intentar encontrar más contenido excelente en él, por ejemplo, tratando de descubrir nuevas URL en JavaScript. Si probamos esas "URL" y encontramos un 404, eso es genial y esperado. Simplemente no queremos perdernos nada importante (inserte un meme de Googlebot demasiado adjunto aquí). http://support.google.com/webmasters/bin/answer.py?answer=1154698
  4. No es necesario corregir los errores de rastreo en las Herramientas para webmasters de Google. La función "marcar como fijo" es solo para ayudarlo, si desea realizar un seguimiento de su progreso allí; no cambia nada en nuestro canal de búsqueda web, así que siéntete libre de ignorarlo si no lo necesitas. http://support.google.com/webmasters/bin/answer.py?answer=2467403
  5. Enumeramos los errores de rastreo en las Herramientas para webmasters de Google por prioridad, que se basa en varios factores. Si la primera página de errores de rastreo es claramente irrelevante, probablemente no encontrará errores importantes de rastreo en otras páginas. http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
  6. No es necesario "arreglar" los errores de rastreo en su sitio web. Encontrar 404 es normal y se espera de un sitio web saludable y bien configurado. Si tiene una nueva URL equivalente, entonces es una buena práctica redirigirla. De lo contrario, no debe crear contenido falso, no debe redirigir a su página de inicio, no debe robots.txt rechazar esas URL; todas estas cosas hacen que sea más difícil para nosotros reconocer la estructura de su sitio y procesarla correctamente. Llamamos a estos errores "soft 404". http://support.google.com/webmasters/bin/answer.py?answer=181708
  7. Obviamente, si estos errores de rastreo se muestran para las URL que le interesan, tal vez las URL en su archivo de Sitemap, entonces es algo que debe tomar medidas de inmediato. Si Googlebot no puede rastrear sus URL importantes, es posible que se eliminen de nuestros resultados de búsqueda y que los usuarios tampoco puedan acceder a ellas.
Stephen Ostermiller
fuente
No es un "truco" para evitar que las páginas de búsqueda inútiles sean indexadas. No hay nada más frustrante que buscar un término en Google y obtener una lista de búsquedas en lugar de cualquier resultado real. Entonces Google penaliza este comportamiento. Cuando lo piensa desde el punto de vista del usuario, resulta obvio que los resultados de búsqueda transitorios no deben indexarse, sino las páginas de contenido. Es por eso que debe usar algo como un mapa del sitio para indexadores, y usar páginas de búsqueda dinámica como acceso directo solo para usuarios.
JamesRyan
Entonces, ¿por qué Google indexa los resultados de la página amarilla y similares?
toxalot
No creo que Google quiera indexar la mayoría de los sitios de páginas amarillas, al menos no hacerlos prominentes en los resultados de búsqueda. superpages.com tiene su sede en la calle de mí. Hace unos años, Google lo clasificó prácticamente en todos los ámbitos. De repente estaba entrevistando a sus desarrolladores a quienes buscamos nuevos trabajos.
Stephen Ostermiller
2
@StephenOstermiller ¿Tiene una referencia de dónde Google dice que penalizan los sitios que permiten rastrear páginas de búsqueda? No puedo encontrar nada sobre esto.
alexp
1
En cuanto a Viagra, eso no es bueno para mí. Mi sitio rastrea los litigios y ha habido muchas disputas legales reales sobre las patentes relacionadas con Viagra. ¿Cómo evitan estos falsos positivos?
Speedplane