Entonces, en todos nuestros sitios que no están orientados a la búsqueda, hemos aplicado un archivo robots.txt (por ¿Cómo excluir un sitio web de los resultados de búsqueda de Google en tiempo real? O cualquier otra pregunta similar).
Sin embargo, si los términos de búsqueda son lo suficientemente específicos, el dominio en sí se puede encontrar a través de los resultados. Un ejemplo de esto se puede encontrar aquí . Como puede ver en el enlace, se puede encontrar el dominio en sí (el contenido no está en caché, pero el dominio está en la lista). Además, realizar una búsqueda con site:hyundaidigitalmarketing.com
3 resultados. La comprobación de los vínculos de retroceso también proporciona algunos, pero obviamente no puedo evitarlos (los vínculos están permitidos en contexto) o controlar cómo se manejan (no puedo decirle al host que agregue nofollow, noindex).
Ahora, sé que este es un caso extremo grave, sin embargo, los clientes de mis empresas están haciendo exactamente esto. De hecho, nuestros dominios son bastante buenos, por lo que incluso las búsquedas aparentemente arbitrarias están arrojando resultados relevantes. Ahora, tengo que escribir un informe sobre cómo / por qué sucede esto.
Entonces, recurro a la maravillosa red de Stack Exchange para ayudarme a comprender lo que me falta o entender lo que está sucediendo. Los enlaces a artículos de la industria son extremadamente útiles, pero cualquier cosa que puedas dar es obviamente genial. Tengo la intención de ofrecer recompensas lo mejor que pueda para que esto sea una respuesta a la que recurrir en el futuro.
Editar: he abierto una recompensa por esta pregunta con la esperanza de obtener más respuestas al respecto. También proporcioné los resultados de mi propia investigación a continuación.
fuente
Creo que Matt Cutts habló sobre esto. Si mi memoria es correcta, tenía que ver con la vinculación. Aquí hay más: http://www.google.com/support/forum/p/Webmasters/thread?tid=2720810fa226e9c8&hl=en
Puede eliminarlos con la herramienta de eliminación de Google.
fuente
noindex, follow
para que cualquier PageRank se distribuya desde los vínculos de retroceso que puedan ocurrir.site:hyundaidigitalmarketing.com
o para los términoshyundai digital marketing
, el dominio seguirá apareciendo como el primer y mejor resultado. Necesito evitar esto.links:hyundaidigitalmarketing.com
muestra enlaces de vuelta. Obviamente no puedo evitar o controlar los vínculos de retroceso de formato Y pueden ser válidos. Si el enlace al sitio causa esto, necesito entender cómo / por qué para poder explicar esto a mis superiores. Espero que esto explique mi pregunta un poco mejor.Según mi investigación sobre el tema, descubrí que no existe una forma 100% garantizada para evitar la indexación y el almacenamiento en caché de datos, pero puede acercarse bastante (suponiendo que quiera lidiar con un mayor tráfico de bot). Así es como he interpretado la información.
Uno podría pensar que el archivo robots.txt se usa para definir información de robots en todo el sitio y las metaetiquetas se usan para detalles específicos de la página. Creo que el espíritu detrás de los 2 es exactamente esto, pero este no es el caso en la práctica.
No cree un archivo robots.txt
Esto funciona con todos los principales proveedores de búsqueda para evitar que el contenido aparezca en la SERP, pero hace no impiden la indexación. Esto también evita que los robots rastreen sus páginas, por lo que también se ignoran las metaetiquetas de robot (ver más abajo). Debido a esto, no puede usar los 2 juntos y es por eso que, si desea evitar la indexación, no debe usar un archivo robots.txt.
Nota al margen: Google admite el uso de
Noindex: /
robots.txt, pero no está documentado (quién sabe cuándo se romperá) y se desconoce si esto funciona para alguien más.Use encabezados HTTP o etiquetas META HTML para evitar todo
A diferencia del archivo robots.txt, la metaetiqueta de robots (y el Encabezado HTTP) es ampliamente compatible y, sorprendentemente, rica en funciones. Está diseñado para configurarse en cada página, pero la adopción reciente del
X-Robots-Tag
encabezado facilita la configuración en todo el sitio. El único inconveniente de este método es que los bots rastrearán su sitio. Esto se puede limitar mediante el usonofollow
, pero no todos los bots realmente respetannofollow
.Encontré un montón de información en esta publicación de blog obsoleta . Su lanzamiento original fue 2007 pero, debido a que gran parte de la información que contiene son características más recientes desde entonces, parece que se actualiza regularmente.
En resumen, debe enviar un encabezado HTTP de
X-Robots-Tag: noindex,nofollow,noodp,noydir
. Aquí está el desglose de por qué:nofollow
debería limitar la cantidad de páginas rastreadas en su sitio, manteniendo el tráfico de bots bajo. *noindex
le dice a los motores que no indexen la página.noindex
podría ser suficiente. Sin embargo, he descubierto que incluso si usted dice quenoindex
su sitio podría estar indexado debido a otros sitios que lo vinculan. La mejor manera de evitar enlaces de sitios comunes de Y! Directorio (noydir
) y Directorio abierto (noodp
).Esto funcionará en el 99% de los casos. Sin embargo, tenga en cuenta que todavía es posible que algunos proveedores lo indexen en algunos casos. Google afirma respetarlo por completo
noindex
, pero tengo mis sospechas.Finalmente, si se indexa, o ya se ha indexado, la única forma de desindexar su información es seguir los diversos medios de cada proveedor para solicitar que se elimine el sitio / url. Obviamente, esto significa que probablemente querrá monitorear los sitios / páginas usando algo como Alertas de Google (gracias @ Joe).
fuente
Creo que su problema básico son los vínculos de retroceso al sitio, ya que estos le dan a los motores de búsqueda un punto de entrada al sitio y los hacen conscientes de ello. Entonces, aunque no mostrarán una descripción del sitio, pueden mostrar la URL si creen que es la mejor coincidencia para el resultado.
Lea este artículo vinculado desde el publicado por @joe: Matt Cutts mantiene Google fuera
El bit clave es:
La investigación que ha realizado también cubre cosas tranquilas y las respuestas de @john y @joe son relevantes. He incluido un enlace a continuación que proporciona más orientación sobre cómo bloquear motores de búsqueda. La única forma en que puedo pensar en bloquear completamente el sitio sería agregar algún tipo de protección con contraseña frente al sitio que deba completarse antes de que se muestre el contenido.
Consejos de SEOMoz para no aparecer en la búsqueda
fuente