Los robots denegados por dominio todavía figuran en los resultados de búsqueda

9

Entonces, en todos nuestros sitios que no están orientados a la búsqueda, hemos aplicado un archivo robots.txt (por ¿Cómo excluir un sitio web de los resultados de búsqueda de Google en tiempo real? O cualquier otra pregunta similar).

Sin embargo, si los términos de búsqueda son lo suficientemente específicos, el dominio en sí se puede encontrar a través de los resultados. Un ejemplo de esto se puede encontrar aquí . Como puede ver en el enlace, se puede encontrar el dominio en sí (el contenido no está en caché, pero el dominio está en la lista). Además, realizar una búsqueda con site:hyundaidigitalmarketing.com3 resultados. La comprobación de los vínculos de retroceso también proporciona algunos, pero obviamente no puedo evitarlos (los vínculos están permitidos en contexto) o controlar cómo se manejan (no puedo decirle al host que agregue nofollow, noindex).

Ahora, sé que este es un caso extremo grave, sin embargo, los clientes de mis empresas están haciendo exactamente esto. De hecho, nuestros dominios son bastante buenos, por lo que incluso las búsquedas aparentemente arbitrarias están arrojando resultados relevantes. Ahora, tengo que escribir un informe sobre cómo / por qué sucede esto.

Entonces, recurro a la maravillosa red de Stack Exchange para ayudarme a comprender lo que me falta o entender lo que está sucediendo. Los enlaces a artículos de la industria son extremadamente útiles, pero cualquier cosa que puedas dar es obviamente genial. Tengo la intención de ofrecer recompensas lo mejor que pueda para que esto sea una respuesta a la que recurrir en el futuro.

Editar: he abierto una recompensa por esta pregunta con la esperanza de obtener más respuestas al respecto. También proporcioné los resultados de mi propia investigación a continuación.

Kevin Peno
fuente

Respuestas:

5

Tendré que buscar la fuente de esta información, pero aparentemente robots.txt no necesariamente evitará que una página sea indexada. Pero el encabezado HTTP x-robots-tag aparentemente funciona.

Si está utilizando Apache, puede bloquear páginas en masa utilizando esta línea en un archivo .htaccess:

Header set x-robots-tag: noindex

Pruébelo y vea qué sucede.

Editar

(Encontré una fuente . No la que recuerdo pero funciona).

John Conde
fuente
Hola y gracias por la respuesta. ¿Cómo difiere esto de la metaetiqueta de robots ya implementada en la salida html del sitio utilizado como ejemplo anterior? Por lo que puedo decir, esto solo sirve como un reemplazo, por lo que no necesita colocarlo en cada página.
Kevin Peno
@ Kevin, deberían ser iguales en términos de efectividad. Esto sería más fácil de administrar como dijiste.
John Conde
4

Creo que Matt Cutts habló sobre esto. Si mi memoria es correcta, tenía que ver con la vinculación. Aquí hay más: http://www.google.com/support/forum/p/Webmasters/thread?tid=2720810fa226e9c8&hl=en

Puede eliminarlos con la herramienta de eliminación de Google.

Joe
fuente
Puede verlos todos con: sitio: gmpackageguide.com No hay muchas URL. Supongo que estaban en el índice antes de que los robots fueran rechazados. Simplemente los eliminaría.
Joe
En el futuro, les diría a las personas de diseño web que siempre incluyan sin índice, sin seguimiento en la sección de encabezado de la página web. Sospecho que el CMS que está utilizando puede hacer eso.
Joe
@Joe: de acuerdo, pero lo recomendaría noindex, followpara que cualquier PageRank se distribuya desde los vínculos de retroceso que puedan ocurrir.
Mike Hudson el
@ Joe & @ Mike, gracias por la información. Sin embargo, tome el sitio: hyundaidigitalmarketing.com. Lancé este sitio yo mismo hace un año. Incluye tanto un archivo robots.txt como el meta encabezado. Sin embargo, como puede ver en el formulario que realiza una búsqueda en Google con site:hyundaidigitalmarketing.como para los términos hyundai digital marketing, el dominio seguirá apareciendo como el primer y mejor resultado. Necesito evitar esto.
Kevin Peno
Además, una búsqueda de links:hyundaidigitalmarketing.commuestra enlaces de vuelta. Obviamente no puedo evitar o controlar los vínculos de retroceso de formato Y pueden ser válidos. Si el enlace al sitio causa esto, necesito entender cómo / por qué para poder explicar esto a mis superiores. Espero que esto explique mi pregunta un poco mejor.
Kevin Peno
3

Según mi investigación sobre el tema, descubrí que no existe una forma 100% garantizada para evitar la indexación y el almacenamiento en caché de datos, pero puede acercarse bastante (suponiendo que quiera lidiar con un mayor tráfico de bot). Así es como he interpretado la información.

Uno podría pensar que el archivo robots.txt se usa para definir información de robots en todo el sitio y las metaetiquetas se usan para detalles específicos de la página. Creo que el espíritu detrás de los 2 es exactamente esto, pero este no es el caso en la práctica.

No cree un archivo robots.txt

Esto funciona con todos los principales proveedores de búsqueda para evitar que el contenido aparezca en la SERP, pero hace no impiden la indexación. Esto también evita que los robots rastreen sus páginas, por lo que también se ignoran las metaetiquetas de robot (ver más abajo). Debido a esto, no puede usar los 2 juntos y es por eso que, si desea evitar la indexación, no debe usar un archivo robots.txt.

Nota al margen: Google admite el uso de Noindex: /robots.txt, pero no está documentado (quién sabe cuándo se romperá) y se desconoce si esto funciona para alguien más.

Use encabezados HTTP o etiquetas META HTML para evitar todo

A diferencia del archivo robots.txt, la metaetiqueta de robots (y el Encabezado HTTP) es ampliamente compatible y, sorprendentemente, rica en funciones. Está diseñado para configurarse en cada página, pero la adopción reciente del X-Robots-Tagencabezado facilita la configuración en todo el sitio. El único inconveniente de este método es que los bots rastrearán su sitio. Esto se puede limitar mediante el uso nofollow, pero no todos los bots realmente respetan nofollow.

Encontré un montón de información en esta publicación de blog obsoleta . Su lanzamiento original fue 2007 pero, debido a que gran parte de la información que contiene son características más recientes desde entonces, parece que se actualiza regularmente.

En resumen, debe enviar un encabezado HTTP de X-Robots-Tag: noindex,nofollow,noodp,noydir. Aquí está el desglose de por qué:

  • nofollowdebería limitar la cantidad de páginas rastreadas en su sitio, manteniendo el tráfico de bots bajo. * noindexle dice a los motores que no indexen la página.
  • Ahora, puede suponer que eso noindexpodría ser suficiente. Sin embargo, he descubierto que incluso si usted dice que noindexsu sitio podría estar indexado debido a otros sitios que lo vinculan. La mejor manera de evitar enlaces de sitios comunes de Y! Directorio ( noydir) y Directorio abierto ( noodp).
  • ¡Usar el encabezado HTTP también aplica los datos de los robots a archivos, imágenes y otros archivos que no sean HTML! ¡HURRA!

Esto funcionará en el 99% de los casos. Sin embargo, tenga en cuenta que todavía es posible que algunos proveedores lo indexen en algunos casos. Google afirma respetarlo por completo noindex, pero tengo mis sospechas.

Finalmente, si se indexa, o ya se ha indexado, la única forma de desindexar su información es seguir los diversos medios de cada proveedor para solicitar que se elimine el sitio / url. Obviamente, esto significa que probablemente querrá monitorear los sitios / páginas usando algo como Alertas de Google (gracias @ Joe).

Kevin Peno
fuente
3

Creo que su problema básico son los vínculos de retroceso al sitio, ya que estos le dan a los motores de búsqueda un punto de entrada al sitio y los hacen conscientes de ello. Entonces, aunque no mostrarán una descripción del sitio, pueden mostrar la URL si creen que es la mejor coincidencia para el resultado.

Lea este artículo vinculado desde el publicado por @joe: Matt Cutts mantiene Google fuera

El bit clave es:

Hay una razón bastante buena para eso: cuando comencé en Google en 2000, varios sitios web útiles (eBay, New York Times, California DMV) tenían archivos robots.txt que prohibían cualquier búsqueda de página. Ahora le pregunto, ¿qué se supone que debemos devolver como resultado de búsqueda cuando alguien hace la consulta [california dmv]? Nos veríamos muy tristes si no devolviéramos www.dmv.ca.gov como primer resultado. Pero recuerde: en ese momento no se nos permitió obtener páginas de www.dmv.ca.gov. La solución fue mostrar el enlace no rastreado cuando teníamos un alto nivel de confianza de que era el enlace correcto. A veces, incluso podríamos obtener una descripción del Open Directory Project, para poder dar mucha información a los usuarios incluso sin buscar la página.

La investigación que ha realizado también cubre cosas tranquilas y las respuestas de @john y @joe son relevantes. He incluido un enlace a continuación que proporciona más orientación sobre cómo bloquear motores de búsqueda. La única forma en que puedo pensar en bloquear completamente el sitio sería agregar algún tipo de protección con contraseña frente al sitio que deba completarse antes de que se muestre el contenido.

Consejos de SEOMoz para no aparecer en la búsqueda

Matthew Brookes
fuente
Gracias por agregar a la discusión. La protección con contraseña funciona bien para evitar el rastreo, pero no impide la indexación. Dado que el archivo robots.txt hace un buen trabajo al detener esto, la única ventaja de la protección con contraseña es que evitará que las miradas indiscretas lo encuentren. Desafortunadamente, la mayoría del contenido no es lo suficientemente sensible como para ser "protegido" y ciertamente no garantiza los problemas de usabilidad que crea. [cont ...]
Kevin Peno
Una analogía que encontré más útil en mi investigación fue la comparación con las guías telefónicas. Si los motores de búsqueda son guías telefónicas, y usted pide no ser incluido en la lista, entonces puede solicitar que no se lo incluya nunca, y deberían respetarlo. Desafortunadamente, los motores de búsqueda están actuando de manera más similar a las compañías a las que otras compañías venden contactos, lo que a su vez se entrega a cualquiera que esté dispuesto a pagarlo / pedirlo.
Kevin Peno
@Kevin, entiendo lo que estás diciendo, desafortunadamente, no creo que sea posible eliminarlo por completo con la forma en que funcionan los motores de búsqueda en la actualidad, lo mejor que puedes esperar es solo una lista de URL en ese caso.
Matthew Brookes el
Oh, entiendo eso ahora (post-investigación). Además, por favor, no tome mi comentario a su respuesta de manera negativa. Aprecio su adición al tema, simplemente estaba respondiendo para agregar los inconvenientes de implementar tal solución, además de agregar un poco de bromas fuera del tema, supongo. : P
Kevin Peno