Hay 2 formas principales de evitar que los motores de búsqueda indexen páginas específicas :
- Un archivo Robots.txt para su dominio.
- La etiqueta Meta Robots en cada página.
Robots.txt debería ser su primera parada para los patrones de URL que coinciden con varios archivos. Puede ver la sintaxis aquí y más detallada aquí . El archivo robots.txt debe colocarse en la carpeta raíz de su dominio, es decir http://www.yourdomain.com/robots.txt
, en , y contendría algo como:
User-agent: *
Disallow: /path/with-trailing-slash/
(El color de texto anterior lo realiza el software Stackexchange y debe ignorarse).
La etiqueta Meta Robots es más flexible y capaz , pero debe insertarse en cada página que desee afectar.
Nuevamente, Google tiene una descripción general de cómo usar Meta Robots y cómo eliminar las páginas de su índice a través de las Herramientas para webmasters. Wikipedia tiene una documentación más completa sobre Meta Robots , incluidas las derivaciones específicas del motor de búsqueda.
Si desea prohibir que Google, The Web Archive y otros motores de búsqueda conserven una copia de su página web, entonces desea la siguiente etiqueta (que se muestra en formato HTML4):
<meta name="robots" content="noarchive">
Para evitar la indexación y conservar una copia :
<meta name="robots" content="noindex, noarchive">
Y para evitar todo lo anterior , así como el uso de enlaces en la página para encontrar más páginas para indexar:
<meta name="robots" content="noindex, nofollow, noarchive">
Nota 1: Las 3 metaetiquetas anteriores son solo para motores de búsqueda; no afectan a los proxies o navegadores HTTP.
Nota 2: si ya tiene páginas indexadas y archivadas, y bloquea las páginas a través de robots.txt y al mismo tiempo agrega la metaetiqueta a las mismas páginas, entonces el robots.txt evitará que los motores de búsqueda vean la metaetiqueta actualizada.
En realidad, hay una tercera forma de evitar que Google y otros motores de búsqueda indexen las URL. Es el
X-Robots-Tag
encabezado de respuesta HTTP . Esto es mejor que las metaetiquetas porque funciona para todos los documentos y puede tener más de una etiqueta.fuente
Sí, eso solucionará el problema. Para evitar que el contenido aparezca en los índices de Google, puede usar robots.txt o la metaetiqueta html
La próxima vez que indexe su sitio, esto hará que su contenido salga del índice de Google.
También puede obtener el
noarchive
valor: esto bloqueará el almacenamiento en caché de su página. Esto es específico de Google:Puede usar la 'herramienta de eliminación' en las Herramientas para webmasters de Google para solicitar una eliminación muy urgente de su contenido. Tenga en cuenta que primero debe bloquear la indexación de su contenido (utilizando robots.txt o la etiqueta de meta robots).
Más información:
fuente
Si su objetivo es que estas páginas no sean vistas por el público, es mejor poner una contraseña en este conjunto de páginas. Y / o tener alguna configuración que solo permita direcciones específicas en la lista blanca que puedan acceder al sitio (esto se puede hacer a nivel del servidor, probablemente a través de su host o administrador del servidor).
Si su objetivo es que estas páginas existan, simplemente no indexadas por Google u otros motores de búsqueda, como han mencionado otros, tiene algunas opciones, pero creo que es importante distinguir entre las dos funciones principales de Búsqueda de Google en este sentido: rastreo e indexación.
Rastreo versus indexación
Google rastrea su sitio, Google indexa su sitio. Los rastreadores encuentran páginas de su sitio, la indexación organiza las páginas de su sitio. Más información sobre esto un poco aquí .
Esta distinción es importante cuando se intenta bloquear o eliminar páginas del "Índice" de Google. Muchas personas prefieren simplemente bloquear a través de robots.txt, que es una directiva que le dice a Google qué (o qué no) rastrear. A menudo se supone que si Google no rastrea su sitio, es poco probable que lo indexe. Sin embargo, es extremadamente común ver páginas bloqueadas por robots.txt, indexadas en Google.
Directivas para Google y motores de búsqueda
Este tipo de "directivas" son meras recomendaciones a Google sobre qué parte de su sitio rastrear e indexar. No están obligados a seguirlos. Esto es importante saberlo. He visto a muchos desarrolladores a lo largo de los años pensar que pueden bloquear el sitio a través de robots.txt, y de repente el sitio está siendo indexado en Google unas semanas más tarde. Si alguien más enlaza con el sitio, o si uno de los rastreadores de Google de alguna manera lo controla, aún puede indexarse .
Recientemente, con el tablero actualizado de GSC (Google Search Console), tienen este informe llamado "Informe de cobertura de índice". Aquí hay nuevos datos disponibles para los webmasters que antes no estaban disponibles directamente, detalles específicos sobre cómo Google maneja un determinado conjunto de páginas. He visto y oído hablar de muchos sitios web que reciben "Advertencias", etiquetadas como "Indexadas, pero bloqueadas por Robots.txt".
La última documentación de Google menciona que si desea que las páginas salgan del índice, agregue etiquetas noindex nofollow.
Herramienta Eliminar URL
Solo para construir sobre lo que otros han mencionado sobre "Eliminar la herramienta de URL" ...
Si las páginas ya están indexadas y es urgente sacarlas, la "Herramienta para eliminar URLs" de Google le permitirá bloquear "temporalmente" las páginas de los resultados de búsqueda. La solicitud dura 90 días, pero la he usado para que las páginas se eliminen más rápido de Google que usar noindex, nofollow, algo así como una capa adicional.
Usando la herramienta "Eliminar URL", Google aún rastreará la página y posiblemente la almacenará en caché, pero mientras usa esta función, puede agregar las etiquetas noindex nofollow, para que las vea, y para cuando los 90 días sean arriba, es de esperar que ya no indexes tu página.
IMPORTANTE: el uso de las etiquetas robots.txt y noindex nofollow son señales algo conflictivas para Google.
La razón es que si le dice a google que no rastree una página, y luego no tiene nindex nofollow en esa página, es posible que no rastree para ver la etiqueta ninol nofollow. Luego puede indexarse a través de algún otro método (ya sea un enlace o no). Los detalles sobre por qué sucede esto son bastante vagos, pero lo he visto suceder.
En resumen, en mi opinión, la mejor manera de evitar que se indexen URL específicas es agregar una etiqueta noindex nofollow a esas páginas. Con eso, asegúrese de que no está bloqueando esas URL también con robots.txt, ya que eso podría evitar que Google vea correctamente esas etiquetas. Puede aprovechar la herramienta Eliminar URL de Google para ocultarlas temporalmente de los resultados de búsqueda mientras Google procesa su noindex nofollow.
fuente