Si no quiero establecer ningún comportamiento especial, ¿está bien si no me molesto en tener un archivo robots.txt?

29

Si no quiero establecer ningún comportamiento especial, ¿está bien si no me molesto en tener un archivo robots.txt?

¿O puede la falta de uno ser perjudicial?

Dan Dumitru
fuente

Respuestas:

30

La falta de un archivo robots.txt no será perjudicial. Desde el sitio web robotstxt.org :

Para permitir que todos los robots tengan acceso completo

Usuario-agente: *
No permitir:

(o simplemente cree un archivo "/robots.txt" vacío, o no use ninguno)

Sin embargo, incluso si no está especificando nada en su archivo robots.txt, es una buena manera de informar a los motores de búsqueda de la ubicación de su XML Sitemap . Puede hacer esto agregando una línea en la parte superior de su archivo robots.txt que se parece a:

Mapa del sitio: http://www.example.com/sitemap-host1.xml

También debe tener en cuenta que no tenerlo creará una gran cantidad de 404 entradas en sus registros web.

JasonBirch
fuente
+1: buen resumen, aunque realmente enfatizaría lo que Kinopiko ya ha subrayado correctamente : solo cree el más básico o incluso uno vacío para evitar esos 404 y (dependiendo del manejo de la página 404 de su sitio) potencialmente bastante tráfico / ancho de banda , ya que los motores de búsqueda aplicarán el control de caché HTTP adecuado para omitir la descarga del archivo nuevamente si no se modifica, esté vacío o no.
Steffen Opel
Marcado como wiki, edítelo como mejor le parezca.
JasonBirch
21

Si no tiene un "robots.txt", su registro de errores obtendrá un montón de 404 en el archivo, lo que podría ser una molestia, similar a si no tiene un favicon.


fuente
1
un excelente punto ..
Jeff Atwood
1
+1: Me gustaría agregar que no solo se salva de archivos de registro más grandes y ruidosos, sino que puede (dependiendo del manejo de la página 404 de su sitio) evitar potencialmente bastante tráfico / ancho de banda también debido a que la mayoría de las páginas 404 están más grande que un robots.txtarchivo simple , que además se descargará con menos frecuencia debido a que los motores de búsqueda aplican el control de caché HTTP adecuado .
Steffen Opel
6

Creo que sería tiene que estar bien, de lo contrario los grandes sectores de la web serían no-indexable por las arañas web.

No robots.txtes lo mismo que "permitir la indexación de todos" robots.txtcasi por definición.

Jeff Atwood
fuente
2

La falta de un archivo robots.txt le deja al rastreador decidir qué puede y qué no puede hacer. Dado que solo lleva unos segundos evitar cualquier tipo de ambigüedad, ¿por qué no hacer una que permita a todos los agentes acceder a todo?

Tim Post
fuente
0

Bueno, dado que robots.txtcontiene la dirección de su mapa del sitio , no tener uno es potencialmente dañino.

Thomas Bonini
fuente
los mapas de sitio solo son útiles para ciertos tipos de sitios web, IMO
Jeff Atwood
También he visto rastreadores (google en particular) buscar /sitemap.xml o /sitemap.gz en ausencia de robots.txt
Tim Post
No necesita tener su mapa del sitio en su archivo robots.txt, de todos modos puede enviarlo a Google / Yahoo / Bing. Definitivamente no es "potencialmente dañino".
DisgruntledGoat
0

Dependiendo de su contenido, no debería haber problemas al no tener un archivo de robots, siempre y cuando tenga la esperanza de que todas las páginas de su sitio sean indexadas por los motores de búsqueda.

Seanl
fuente