Tengo algunas páginas en mi sitio que quiero mantener alejados de los motores de búsqueda, así que no las permití en mi robots.txt
archivo de esta manera:
User-Agent: *
Disallow: /email
Sin embargo, recientemente me di cuenta de que Google todavía a veces devuelve enlaces a esas páginas en sus resultados de búsqueda. ¿Por qué sucede esto y cómo puedo detenerlo?
Antecedentes:
Hace varios años, hice un sitio web simple para un club en el que estaba involucrado un pariente mío. Querían tener enlaces de correo electrónico en sus páginas, así que, para tratar de evitar que esas direcciones de correo electrónico terminen en demasiados listas de spam, en lugar de usar mailto:
enlaces directos , hice que esos enlaces apuntaran a un script simple de redirector / capturador de direcciones que se ejecuta en mi propio sitio. Este script devolvería una redirección 301 a la mailto:
URL real o, si detectaba un patrón de acceso sospechoso, una página que contenía muchas direcciones de correo electrónico falsas aleatorias y enlaces a más de esas páginas. Para mantener los bots de búsqueda legítimos lejos de la trampa, configuré la robots.txt
regla que se muestra arriba, rechazando todo el espacio de los enlaces de redireccionador legítimos y las páginas de trampa.
Sin embargo, recientemente, una de las personas en el club buscó en Google su propio nombre y se sorprendió bastante cuando uno de los resultados en la primera página fue un enlace al guión del redirector, con un título que consistía en su dirección de correo electrónico seguida por mi nombre Por supuesto, inmediatamente me enviaron un correo electrónico y querían saber cómo sacar su dirección del índice de Google. También me sorprendió bastante, ya que no tenía idea de que Google indexaría tales URL en absoluto, aparentemente en violación de mi robots.txt
regla.
Me las arreglé para enviar una solicitud de eliminación a Google, y parece haber funcionado, pero me gustaría saber por qué y cómo Google está eludiendo mi robots.txt
estilo y cómo asegurarme de que ninguna de las páginas rechazadas se muestre en su Resultados de la búsqueda.
PD. De hecho, descubrí una posible explicación y solución, que publicaré a continuación, mientras preparo esta pregunta, pero pensé en preguntarla de todos modos en caso de que alguien más pudiera tener el mismo problema. Por favor, siéntase libre de publicar sus propias respuestas. También me interesaría saber si otros motores de búsqueda también hacen esto, y si las mismas soluciones funcionan para ellos también.
fuente
robots.txt
archivo es como un pequeño cartel de "Prohibido el paso" al lado del camino de entrada de alguien. No es mágico, y (a menos que un visitante lo busque explícitamente) pueden deambular por su propiedad sin verse afectados por su existencia. Hay equivalentes en Internet de proyectores y cercas de alambre de púas, pero si eso es lo que quieres,robots.txt
¿no?Respuestas:
Parece que Google incluye deliberadamente las URL no permitidas en
robots.txt
su índice si hay enlaces a esas URL desde otras páginas que han rastreado. Para citar sus páginas de ayuda de Herramientas para webmasters de Google :Aparentemente, Google interpreta una
Disallow
directivarobots.txt
como una prohibición contra el rastreo de la página, no contra la indexación . Supongo que técnicamente es una interpretación válida, incluso si me suena a reglas legales.En este artículo de la entrevista , Matt Cutts de Google brinda un poco más de antecedentes y proporciona una explicación razonable de por qué hacen esto:
La solución recomendada en ambas páginas es agregar una
noindex
metaetiqueta a las páginas que no desea indexar. (ElX-Robots-Tag
encabezado HTTP también debería funcionar para páginas que no sean HTML. Sin embargo, no estoy seguro de si funciona en redirecciones). Paradójicamente, esto significa que debe permitir que Googlebot rastree esas páginas (ya sea eliminándolas porrobots.txt
completo o agregando un conjunto de reglas separado y más permisivo para Googlebot), ya que de lo contrario no puede ver la metaetiqueta en primer lugar.Edité mi script de redirección / trampa de araña para enviar tanto la metaetiqueta como el
X-Robots-Tag
encabezado con el valornoindex,nofollow
y permití que Googlebot rastree la URL del script en mirobots.txt
. Veremos si funciona una vez que Google vuelva a indexar mi sitio.fuente
Es cierto que si bien esto debería evitar que Google (y los buenos bots) rastreen estas páginas y lean su contenido, aún pueden mostrar un enlace de solo URL en los SERP si están vinculados, de la forma:
Como puede ver, no hay título o descripción, es literalmente solo la URL. Naturalmente, este tipo de resultados generalmente se omiten de los SERP, a menos que los busque explícitamente.
Y como mencionas en tu respuesta, si no quieres que la URL aparezca en absoluto en los SERPs, entonces debes permitir robots, pero incluir una metaetiqueta noindex.
fuente