Cómo evitar que ciertas URL se indexen

8

Cuando escribo site:example.com(usando mi dominio obviamente), recibo varios errores de enlace que aparecen en la lista. Por lo general, son de la forma:/some/fixed/path/admin/unblockUser/11

Estoy pensando en agregar la siguiente línea a mi robots.txtarchivo:

Disallow: /some/fixed/path/admin/*
Simon Hayter
fuente

Respuestas:

18

Hay 2 formas principales de evitar que los motores de búsqueda indexen páginas específicas :

  1. Un archivo Robots.txt para su dominio.
  2. La etiqueta Meta Robots en cada página.

Robots.txt debería ser su primera parada para los patrones de URL que coinciden con varios archivos. Puede ver la sintaxis aquí y más detallada aquí . El archivo robots.txt debe colocarse en la carpeta raíz de su dominio, es decir http://www.yourdomain.com/robots.txt, en , y contendría algo como:

User-agent: *
Disallow: /path/with-trailing-slash/

(El color de texto anterior lo realiza el software Stackexchange y debe ignorarse).

La etiqueta Meta Robots es más flexible y capaz , pero debe insertarse en cada página que desee afectar.

Nuevamente, Google tiene una descripción general de cómo usar Meta Robots y cómo eliminar las páginas de su índice a través de las Herramientas para webmasters. Wikipedia tiene una documentación más completa sobre Meta Robots , incluidas las derivaciones específicas del motor de búsqueda.

Si desea prohibir que Google, The Web Archive y otros motores de búsqueda conserven una copia de su página web, entonces desea la siguiente etiqueta (que se muestra en formato HTML4):

<meta name="robots" content="noarchive">

Para evitar la indexación y conservar una copia :

<meta name="robots" content="noindex, noarchive">

Y para evitar todo lo anterior , así como el uso de enlaces en la página para encontrar más páginas para indexar:

<meta name="robots" content="noindex, nofollow, noarchive">

Nota 1: Las 3 metaetiquetas anteriores son solo para motores de búsqueda; no afectan a los proxies o navegadores HTTP.

Nota 2: si ya tiene páginas indexadas y archivadas, y bloquea las páginas a través de robots.txt y al mismo tiempo agrega la metaetiqueta a las mismas páginas, entonces el robots.txt evitará que los motores de búsqueda vean la metaetiqueta actualizada.

Jesper M
fuente
1
¿Votado abajo? ¿Por qué demonios fue esto menospreciado? Deje un comentario si rechaza el voto para que se pueda mejorar la respuesta.
Jesper M
@Jesper Mortensen Su respuesta inicial no abordó la pregunta de almacenamiento en caché en absoluto. Su edición solucionó esto e hizo que la información de noindex fuera mucho mejor. +1 ahora ;-)
mawtex
1
Una cosa a tener en cuenta es que una directiva de rechazo de robots.txt no impide la indexación de una URL ni tampoco elimina esa URL del índice. Los motores de búsqueda pueden indexar URL e las indexarán sin haberlas rastreado (si no están permitidas), por lo que si detener la indexación de las URL es crítico (y no solo evitar que el contenido se indexe), debe usar la metaetiqueta de los robots o la x -robots-tag HTTP header y asegúrese de que no se permita el rastreo de las URL.
John Mueller
1
Además, aunque no es necesariamente incorrecto, una metaetiqueta de robots con "noindex, noarchive" es equivalente a "noindex" (cuando una URL no está indexada, tampoco está archivada / en caché).
John Mueller
1
Finalmente (perdón por agregar tantos comentarios :-)), en este caso particular (páginas de administración), solo me aseguraría de que las URL devuelvan 403 cuando no inicien sesión. Eso también evita que los motores de búsqueda lo indexen y es teóricamente más claro que hacer que una página devuelva más de 200 utilizando una metaetiqueta de robots noindex. El resultado final es el mismo en los resultados de búsqueda, pero el uso del código de resultado HTTP adecuado puede ayudarlo a reconocer los accesos de administrador no autorizados en sus registros más fácilmente.
John Mueller
5

En realidad, hay una tercera forma de evitar que Google y otros motores de búsqueda indexen las URL. Es el X-Robots-Tagencabezado de respuesta HTTP . Esto es mejor que las metaetiquetas porque funciona para todos los documentos y puede tener más de una etiqueta.

Las etiquetas REP META le dan un control útil sobre cómo se indexa cada página web en su sitio. Pero solo funciona para páginas HTML. ¿Cómo puede controlar el acceso a otros tipos de documentos, como archivos Adobe PDF, archivos de video y audio y otros tipos? Bueno, ahora la misma flexibilidad para especificar etiquetas por URL está disponible para todos los demás tipos de archivos.

Hemos ampliado nuestra compatibilidad con las etiquetas META para que ahora puedan asociarse con cualquier archivo. Simplemente agregue cualquier etiqueta META compatible a una nueva directiva X-Robots-Tag en el Encabezado HTTP utilizado para servir el archivo. Estos son algunos ejemplos ilustrativos: No muestre un enlace o fragmento de caché para este elemento en los resultados de búsqueda de Google: X-Robots-Tag: noarchive, nosnippet No incluya este documento en los resultados de búsqueda de Google: X-Robots-Tag : noindex Indíquenos que un documento no estará disponible después del 7 de julio de 2007, 4:30 pm GMT: X-Robots-Tag: unavailable_after: 7 de julio de 2007 16:30:00 GMT

Puede combinar varias directivas en el mismo documento. Por ejemplo: no muestre un enlace en caché para este documento y elimínelo del índice después del 23 de julio de 2007, 3 p.m. PST: X-Robots-Tag: noarchive X-Robots-Tag: unavailable_after: 23 de julio de 2007 15:00:00 PST

John Conde
fuente
El enlace 'X-Robots_tag header' está roto.
mawtex
Gracias por el aviso. Chrome parece tener problemas con la barra de herramientas de formato y agregó texto adicional al enlace.
John Conde
1

Sí, eso solucionará el problema. Para evitar que el contenido aparezca en los índices de Google, puede usar robots.txt o la metaetiqueta html

<meta name="robots" content="noindex, nofollow" />

La próxima vez que indexe su sitio, esto hará que su contenido salga del índice de Google.

También puede obtener el noarchivevalor: esto bloqueará el almacenamiento en caché de su página. Esto es específico de Google:

<meta name="robots" content="noarchive" />

Puede usar la 'herramienta de eliminación' en las Herramientas para webmasters de Google para solicitar una eliminación muy urgente de su contenido. Tenga en cuenta que primero debe bloquear la indexación de su contenido (utilizando robots.txt o la etiqueta de meta robots).

Más información:

mawtex
fuente
1

Si su objetivo es que estas páginas no sean vistas por el público, es mejor poner una contraseña en este conjunto de páginas. Y / o tener alguna configuración que solo permita direcciones específicas en la lista blanca que puedan acceder al sitio (esto se puede hacer a nivel del servidor, probablemente a través de su host o administrador del servidor).

Si su objetivo es que estas páginas existan, simplemente no indexadas por Google u otros motores de búsqueda, como han mencionado otros, tiene algunas opciones, pero creo que es importante distinguir entre las dos funciones principales de Búsqueda de Google en este sentido: rastreo e indexación.

Rastreo versus indexación

Google rastrea su sitio, Google indexa su sitio. Los rastreadores encuentran páginas de su sitio, la indexación organiza las páginas de su sitio. Más información sobre esto un poco aquí .

Esta distinción es importante cuando se intenta bloquear o eliminar páginas del "Índice" de Google. Muchas personas prefieren simplemente bloquear a través de robots.txt, que es una directiva que le dice a Google qué (o qué no) rastrear. A menudo se supone que si Google no rastrea su sitio, es poco probable que lo indexe. Sin embargo, es extremadamente común ver páginas bloqueadas por robots.txt, indexadas en Google.


Directivas para Google y motores de búsqueda

Este tipo de "directivas" son meras recomendaciones a Google sobre qué parte de su sitio rastrear e indexar. No están obligados a seguirlos. Esto es importante saberlo. He visto a muchos desarrolladores a lo largo de los años pensar que pueden bloquear el sitio a través de robots.txt, y de repente el sitio está siendo indexado en Google unas semanas más tarde. Si alguien más enlaza con el sitio, o si uno de los rastreadores de Google de alguna manera lo controla, aún puede indexarse .

Recientemente, con el tablero actualizado de GSC (Google Search Console), tienen este informe llamado "Informe de cobertura de índice". Aquí hay nuevos datos disponibles para los webmasters que antes no estaban disponibles directamente, detalles específicos sobre cómo Google maneja un determinado conjunto de páginas. He visto y oído hablar de muchos sitios web que reciben "Advertencias", etiquetadas como "Indexadas, pero bloqueadas por Robots.txt".

La última documentación de Google menciona que si desea que las páginas salgan del índice, agregue etiquetas noindex nofollow.


Herramienta Eliminar URL

Solo para construir sobre lo que otros han mencionado sobre "Eliminar la herramienta de URL" ...

Si las páginas ya están indexadas y es urgente sacarlas, la "Herramienta para eliminar URLs" de Google le permitirá bloquear "temporalmente" las páginas de los resultados de búsqueda. La solicitud dura 90 días, pero la he usado para que las páginas se eliminen más rápido de Google que usar noindex, nofollow, algo así como una capa adicional.

Usando la herramienta "Eliminar URL", Google aún rastreará la página y posiblemente la almacenará en caché, pero mientras usa esta función, puede agregar las etiquetas noindex nofollow, para que las vea, y para cuando los 90 días sean arriba, es de esperar que ya no indexes tu página.


IMPORTANTE: el uso de las etiquetas robots.txt y noindex nofollow son señales algo conflictivas para Google.

La razón es que si le dice a google que no rastree una página, y luego no tiene nindex nofollow en esa página, es posible que no rastree para ver la etiqueta ninol nofollow. Luego puede indexarse ​​a través de algún otro método (ya sea un enlace o no). Los detalles sobre por qué sucede esto son bastante vagos, pero lo he visto suceder.


En resumen, en mi opinión, la mejor manera de evitar que se indexen URL específicas es agregar una etiqueta noindex nofollow a esas páginas. Con eso, asegúrese de que no está bloqueando esas URL también con robots.txt, ya que eso podría evitar que Google vea correctamente esas etiquetas. Puede aprovechar la herramienta Eliminar URL de Google para ocultarlas temporalmente de los resultados de búsqueda mientras Google procesa su noindex nofollow.

despertó zombie
fuente