¿Podemos usar expresiones regulares en el archivo robots.txt para bloquear las URL?

23

Tengo algunas URL dinámicas generadas.

¿Puedo usar regex para bloquear estas URL en un archivo robots.txt?

Sudheera Njs
fuente
También valdría la pena establecer metaetiquetas de robots en las páginas que no desea rastrear / indexar.
Andrew Lott
@AndrewLott En mi caso tengo más de 500 páginas, así que pensé que el uso de expresiones regulares en robots.txt ..
Sudheera njs
Entonces, una regla en el código de su sitio probablemente sea más útil.
Andrew Lott

Respuestas:

27

Las expresiones regulares no son válidas en robots.txt, pero Google, Bing y algunos otros robots reconocen alguna coincidencia de patrones.

Indique si desea bloquear todas las URL que tienen un examplelugar en la URL, puede usar una entrada comodín *

User-agent: *
Disallow: /*example

También puede usar el signo de dólar $ para especificar que las URL deben terminar de esa manera. Entonces, si desea bloquear todas las URL que terminan con example, pero no las URL que tenían una exampleURL en otra parte, podría usar:

User-agent: *
Disallow: /*example$

Puede encontrar más información detallada sobre Google aquí: Especificaciones de Robots.txt , Bing aquí: Cómo crear un archivo Robots.txt y hay una guía interactiva sobre Moz aquí

Max
fuente
Perfecto, * está funcionando bien, Probado en la herramienta web master .. Gracias Max ... :)
Sudheera Njs
Advierto que no use directivas demasiado elegantes en su archivo robots.txt; Estos son muy, muy difíciles de depurar más adelante. Intenta mantener las cosas lo más simples posible. También recuerde que robots.txt distingue entre mayúsculas y minúsculas, por lo que es posible que deba agregar versiones alternativas de las directivas según su sitio.
John Mueller
sería bueno si regex fuera compatible
SuperUberDuper