Google todavía rastrea e indexa mis páginas de prueba antiguas y ficticias que ahora no se encuentran 404

19

He configurado mi sitio con páginas y datos de muestra (lorem ipsum, etc.) y Google ha rastreado estas páginas. Eliminé todas estas páginas y de hecho agregué contenido real, pero en las herramientas para webmasters, sigo recibiendo muchos errores 404 que Google intenta rastrear estas páginas. Los configuré para "marcar como resueltos", pero algunas páginas todavía vuelven como 404.

Además, todavía tengo muchas de estas páginas de muestra en la lista cuando hago una búsqueda de mi sitio en Google. Cómo eliminarlos Creo que estas páginas irrelevantes están perjudicando mi calificación.

En realidad, quería borrar todas estas páginas y comenzar a indexar mi sitio como nuevo, pero leí que no es posible. (Envié un mapa del sitio y usé "Explorar como Google").

As
fuente

Respuestas:

17

Bueno. Lo primero es lo primero. No marque su 404 como fijo . En realidad estás prolongando el problema. Google intentará buscar una página que devuelva un 404 varias veces antes de darse por vencido. Esto se debe a que el error 404 indica una situación temporal en la que un error 410 indica que la página se ha ido . Por lo tanto, cada vez que marca un 404 como fijo , en realidad le está diciendo a Google que lo intente nuevamente, comenzando así el proceso de eliminación nuevamente.

Solo deje estas páginas 404 por un tiempo y Google dejará de buscarlas y las eliminará del índice. Tomará tiempo, pero a falta de un error 410, esta es la forma más fácil. Un error 410 aceleraría el proceso, pero es más difícil presentar un error 410 y un 404 es el valor predeterminado, lo que lo convierte en la solución más fácil y natural.

Sus páginas eliminadas desaparecerán en unos 30-60 días si puede esperar. Depende de la frecuencia con la que Google visita tus páginas. Puede llevar más tiempo, pero una vez que se encuentran los 404, a Google le gusta comprobar primero el sitio, luego, dependiendo de cuántos 404 haya, puede arañar su sitio de manera más agresiva.

El uso de un mapa del sitio en realidad generalmente no soluciona ningún problema con el índice. Solo hace la vida más simple para los motores de búsqueda. Nunca se toma como la lista completa de páginas que tiene cualquier sitio. Si un motor de búsqueda lee un mapa del sitio y aún encuentra páginas que no figuran en el mapa del sitio, continuará indexando esas páginas.

Una opción, si tiene sentido, es enumerar estas páginas en su archivo robots.txt. Si no hay demasiados (es decir, algo que puede hacer y su archivo robots.txt no sería demasiado largo), esa sería una solución más rápida. De lo contrario, solo esperaría y dejaría que los errores 404 expiren solos.

Una última palabra Vas a estar bien. De Verdad. Todo te saldrá muy bien si eres paciente.

closetnoc
fuente
1
Agregar 404 páginas a robots.txt suena como una mala práctica. Solo confundirá al rastreador y requiere una gran cantidad de tareas de limpieza completamente innecesarias.
Dorus
@ Dorus No, en absoluto. Uno no tiene nada que ver con el otro. Agregar cualquier página al archivo robots.txt eliminará la página del índice muy rápidamente. Además, el motor de búsqueda no intentará acceder al archivo y, por lo tanto, no 404.
closetnoc
1
Como usted dice, si lo agrega al archivo robots.txt, el motor de búsqueda no intentará acceder a la página, pero la página seguirá existiendo. Entonces, si algún día lo quitas de los robots, la indexación volverá. Es una mejor práctica dejar que el 404 o el 410 hagan el trabajo.
@closetnoc ¿Qué quisiste decir con it is harder to present a 410 error?
Evgeniy
@Evgeniy Un error 404 es lo que se da por defecto (Apache al menos y IIS anterior). Un error 410 tendría que ser intencional y requiere algo de trabajo para que suceda. Técnicamente, no es una tarea difícil, sin embargo, requiere cierta experiencia, aunque no mucha. ¡¡Salud!!
closetnoc
8

Una vez que publique una página, Google nunca la olvidará. Tengo sitios de los que eliminé páginas hace 15 años. Googlebot aún regresa y revisa esas páginas ocasionalmente.

Para evitar que las páginas aparezcan en el motor de búsqueda, sus errores 404 harán el trabajo. Google puede tardar un día en eliminar la página del índice después de que Googlebot la rastree a continuación. Si desea que se elimine más rápido, devuelva el estado "410 Gone". Google elimina 410 páginas inmediatamente después de rastrearlas en lugar de esperar un día. Google no elimina 404 páginas de inmediato para evitar que los webmasters se disparen en el pie como lo describe Matt Cutts :

Entonces, con los 404, junto con los 401 y quizás los 403, si vemos una página y obtenemos un 404, protegeremos esa página durante 24 horas en el sistema de rastreo, así que esperamos y decimos que tal vez fue un 404 transitorio, tal vez en realidad no estaba destinado a ser una página no encontrada.

Otro método que podría considerar es la redirección. 301 al redirigir una página anterior a una nueva, evitará que aparezca como un error en las Herramientas para webmasters de Google. Esto solo es posible si hay alguna página nueva para cada una de las páginas anteriores. Redirigir todas las páginas de prueba a su página de inicio no ayudará, porque Google considera que los redireccionamientos a la página de inicio son errores "404 suaves" que aún aparecerán en ese informe.

Tener 404 errores en las Herramientas para webmasters no te hará daño. Tener algunos errores 404 en su sitio puede incluso ayudarlo porque le muestra a Googlebot que su sitio está configurado correctamente. Esto es lo que John Mueller de Google (que trabaja en Herramientas para webmasters y Sitemaps) tiene que decir sobre los errores 404 que aparecen en las herramientas para webmasters :

¡AYUDA! ¡MI SITIO TIENE 939 ERRORES DE CANGREJO! 1

Veo este tipo de preguntas varias veces a la semana; no está solo: muchos sitios web tienen errores de rastreo.

  1. Los errores 404 en URL inválidas no dañan la indexación o clasificación de su sitio de ninguna manera. No importa si hay 100 o 10 millones, no dañarán el ranking de su sitio. http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
  2. En algunos casos, los errores de rastreo pueden provenir de un problema estructural legítimo dentro de su sitio web o CMS. Como lo dices Vuelva a verificar el origen del error de rastreo. Si hay un enlace roto en su sitio, en el HTML estático de su página, siempre vale la pena arreglarlo. (gracias + Martino Mosna )
  3. ¿Qué pasa con las URL funky que están "claramente rotas"? Cuando a nuestros algoritmos les gusta su sitio, pueden intentar encontrar más contenido excelente en él, por ejemplo, tratando de descubrir nuevas URL en JavaScript. Si probamos esas "URL" y encontramos un 404, eso es genial y esperado. Simplemente no queremos perdernos nada importante (inserte un meme de Googlebot demasiado adjunto aquí). http://support.google.com/webmasters/bin/answer.py?answer=1154698
  4. No es necesario corregir los errores de rastreo en las Herramientas para webmasters de Google. La función "marcar como fijo" es solo para ayudarlo, si desea realizar un seguimiento de su progreso allí; no cambia nada en nuestro canal de búsqueda web, así que siéntase libre de ignorarlo si no lo necesita. http://support.google.com/webmasters/bin/answer.py?answer=2467403
  5. Enumeramos los errores de rastreo en las Herramientas para webmasters de Google por prioridad, que se basa en varios factores. Si la primera página de errores de rastreo es claramente irrelevante, probablemente no encontrará errores importantes de rastreo en otras páginas. http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
  6. No es necesario "arreglar" los errores de rastreo en su sitio web. Encontrar 404 es normal y se espera de un sitio web saludable y bien configurado. Si tiene una nueva URL equivalente, entonces es una buena práctica redirigirla. De lo contrario, no debe crear contenido falso, no debe redirigir a su página de inicio, no debe robots.txt rechazar esas URL; todas estas cosas nos dificultan reconocer la estructura de su sitio y procesarla correctamente. Llamamos a estos errores "soft 404". http://support.google.com/webmasters/bin/answer.py?answer=181708
  7. Obviamente, si estos errores de rastreo se muestran para las URL que le interesan, tal vez las URL en su archivo de Sitemap, entonces es algo que debe tomar medidas de inmediato. Si Googlebot no puede rastrear sus URL importantes, es posible que se eliminen de nuestros resultados de búsqueda y que los usuarios tampoco puedan acceder a ellas.
Stephen Ostermiller
fuente
1
Esa no ha sido mi experiencia en absoluto. Google quiere un índice nuevo y elimina páginas con bastante rapidez. Lo que veo que parece similar a lo que describe, es donde otros sitios que usaron la API de Google en el pasado, no actualizan sus datos y citarán su trabajo anterior. Estos son a menudo sitios spam / basura y estas citas pueden aparecer / permanecer / desaparecer / reaparecer. La razón principal por la que veo esto es porque la API de Google solía ser bastante promiscua y ya no lo es, por lo tanto, los datos de spam son mucho más antiguos porque es muy difícil obtener datos más nuevos, especialmente si ha enviado spam en el pasado.
closetnoc
1
Googlebot tiene un modo de rastreo al que llamo "encontramos una caja de URL en el sótano". En este modo de rastreo, puede rastrear miles de URL de su sitio en una fila, ninguna de las cuales ha utilizado en años. Las URL generalmente no tienen enlaces entrantes, incluso desde sitios de scraper. Se rastrean en orden de longitud, las URL más cortas se rastrean primero.
Stephen Ostermiller
Eso puede ser cierto. Google es claramente un gran dato. Cualquier base de datos grande tiene ruido. Eso es inevitable. Eso puede ser lo que estás experimentando. Es posible que se estén reconciliando varias bases de datos. Eso tiene sentido. Pero también le advierto que los sitios basura pueden aparecer durante solo 2 horas con enlaces antiguos y citas antiguas. Veo esto a diario. Están en Rusia y Polonia principalmente. Estos sitios se usan para buscar motores de búsqueda locales, pero afectan el tráfico a cualquier sitio y Google puede recogerlos. Recibo alrededor de 12 de estos en mi base de datos todos los días. En general, solo queda 1 de cada 12 sitios por cualquier período.
closetnoc
¿Qué es un error 939?
Greg Nickoloff el
939 es el número de errores, no es un tipo de error.
Stephen Ostermiller
5

Es probable que Google continúe intentando rastrear estas páginas durante mucho tiempo. Los webmasters cometen errores o los sitios no están disponibles por cualquier razón, por lo que Google no eliminará el contenido a la primera señal de un 404.

Alternativamente, podría servir un 410 Gone en su lugar. Esta es una señal mucho más fuerte (es decir, deliberada) de que la página se ha "ido" literalmente y no volverá. Esto podría hacer que Google elimine la página de los SERP antes.

Los configuré para "marcar como resueltos", pero algunas páginas todavía vuelven como 404.

Solo se "resuelven" si ha vuelto a colocar la página. Si lo marca como resuelto y la página no existe, el error de rastreo simplemente se repetirá. Si la página no existe, simplemente déjela como está.

Los 404 genuinos no perjudican su clasificación de búsqueda. El informe 404 en GWT es principalmente para su beneficio para que pueda ver cuando las cosas salen mal ... ¡cuando no se pueden encontrar páginas que deberían encontrarse!

Estas páginas irrelevantes en los SERP son quizás una molestia menor para sus usuarios, sin embargo, ¿qué están buscando para encontrar su lorem ipsum ?

Señor White
fuente