Preguntas etiquetadas con robots.txt

Robots.txt es un archivo de texto utilizado por los propietarios de sitios web para dar instrucciones sobre su sitio a los robots web. Básicamente le dice a los robots qué partes del sitio están abiertas y qué partes están cerradas. Esto se llama Protocolo de exclusión de robots.

19
¿Cómo rechazo un directorio completo con robots.txt?

Tengo dos sitios en los que estoy trabajando actualmente, que es un carrito de compras y otro comprador. Ambos están bajo el mismo nombre de dominio, por ejemplo http://example.com/first_url http://example.com/second_url Ambas URL tienen toneladas de páginas debajo de ellas....

14
¿Qué es un archivo robots.txt mínimo válido?

No me gusta, veo muchos errores 404 en el archivo access.log de mi servidor web. Recibo esos errores porque los rastreadores intentan abrir un archivo robots.txt , pero no pueden encontrar ninguno. Por lo tanto, quiero colocar un archivo robots.txt simple que evitará que aparezcan los errores 404...

12
Robots.txt - CSS permite o no permite

¿Se permiten CSS y plantillas en robots.txt ? ¿Debería causar algún problema? En Joomla, CSS y plantillas no están permitidos en el archivo robots.txt . Por favor, ayúdenme a encontrar una solución a si poner o no en los robots para CSS, plantillas, etc. para mis próximos sitios...

11
¿Google Preview obedece a Robots.txt?

Porque seguro que se ve así. Para mis sitios, no permitimos el directorio de imágenes y las vistas previas son imágenes que faltan, lo que hace que el sitio se vea inestable. ¿Es este el caso y hay una manera de permitir que solo el bot de vista previa acceda a las imágenes usando...

10
Combina agentes de usuario en robots.txt

¿Pueden los agentes de usuario aparecer juntos, seguidos de sus reglas comunes como en un robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask...