Estoy usando el siguiente archivo robots.txt para un sitio: El objetivo es permitir que googlebot y bingbot accedan al sitio excepto la página /bedven/bedrijf/*
y bloqueen el rastreo de todos los demás bots.
User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: *
Disallow: /
¿La última regla User-agent: * Disallow: /
no permite que todos los robots rastreen todas las páginas del sitio?
web-crawlers
robots.txt
Konsole
fuente
fuente
robots.txt
todos modosrobots.txt
, o al menos laDisallow: /
regla. Si su sitio web personal se está hundiendo porque un programador de bots nunca consideró que el servidor podría ser una Raspberry Pi en el extremo incorrecto de una conexión de 256 kbit, una exclusión general como esta es útil.Respuestas:
El último registro (iniciado por
User-agent: *
) será seguido por todos los bots educados que no se identifiquen como "googlebot", "google", "bingbot" o "bing".Y sí, significa que no se les permite gatear nada.
Es posible que desee omitir el
*
en/bedven/bedrijf/*
.En la especificación original de robots.txt,
*
no tiene un significado especial, es solo un personaje como cualquier otro. Por lo tanto, solo permitiría el rastreo de páginas que literalmente tienen el carácter*
en su URL.Si bien Google no sigue la especificación de robots.txt en ese sentido, debido a que se usa
*
como comodín para "cualquier secuencia de caracteres", no es necesario para ellos en este caso:/bedven/bedrijf/*
y/bedven/bedrijf/
significaría exactamente lo mismo: bloquear todas las URL cuya ruta comienza con/bedven/bedrijf/
.Y finalmente, podría reducir su robots.txt a dos registros, porque un registro puede tener varias
User-agent
líneas :fuente
Los bots, especialmente los malos, pueden ignorar el archivo robots.txt. Entonces, no importa lo que esté escrito allí, algunos robots pueden rastrear su sitio.
fuente