Preguntas etiquetadas con robots.txt

36

Archivos que debería tener en cada sitio web

Me gustaría tener una lista de archivos que deberían existir en cada sitio web. La idea es complacer a la mayoría de los navegadores y bots y obtener la cantidad de mensajes 404 en los registros. Hasta ahora tengo los siguientes

29

Si no quiero establecer ningún comportamiento especial, ¿está bien si no me molesto en tener un archivo robots.txt?

Si no quiero establecer ningún comportamiento especial, ¿está bien si no me molesto en tener un archivo robots.txt? ¿O puede la falta de uno ser

robots.txt

28

¿Hay alguna diferencia entre un archivo robots.txt vacío y ningún archivo robots.txt?

En un servidor web ahora tengo que administrar, noté que el archivo robots.txt está vacío. Me preguntaba si hay una diferencia entre un archivo robots.txt vacío y ningún archivo. ¿Los rastreadores se comportan de manera diferente en estos dos casos? Entonces, ¿es seguro eliminar un archivo...

web-crawlers robots.txt webserver

23

¿Podemos usar expresiones regulares en el archivo robots.txt para bloquear las URL?

Tengo algunas URL dinámicas generadas. ¿Puedo usar regex para bloquear estas URL en un archivo

robots.txt regular-expression

19

¿Cómo rechazo un directorio completo con robots.txt?

Tengo dos sitios en los que estoy trabajando actualmente, que es un carrito de compras y otro comprador. Ambos están bajo el mismo nombre de dominio, por ejemplo http://example.com/first_url http://example.com/second_url Ambas URL tienen toneladas de páginas debajo de ellas....

seo robots.txt

18

¿Por qué los resultados de búsqueda de Google incluyen páginas no permitidas en robots.txt?

Tengo algunas páginas en mi sitio que quiero mantener alejados de los motores de búsqueda, así que no las permití en mi robots.txtarchivo de esta manera: User-Agent: * Disallow: /email Sin embargo, recientemente me di cuenta de que Google todavía a veces devuelve enlaces a esas páginas en sus...

google-search robots.txt

17

¿Google almacena en caché el archivo robots.txt?

Agregué un archivo robots.txt a uno de mis sitios hace una semana, lo que debería haber evitado que Googlebot intente obtener ciertas URL. Sin embargo, este fin de semana puedo ver Googlebot cargando esas URL exactas. ¿Google almacena en caché el archivo robots.txt y, de ser así,...

googlebot robots.txt google-cache

16

¿Puede robots.txt estar en el subdirectorio de un servidor?

Tengo un subdirectorio que me gustaría ocultar de los rastreadores web del motor de búsqueda. Una forma de hacerlo es usar a robots.txten el directorio raíz del servidor (la forma estándar). Sin embargo, cualquier persona que conozca la URL del sitio web y tenga algún conocimiento básico de la web...

web-crawlers robots.txt

15

El sitio fue pirateado, ¿necesita eliminar todas las URL que comienzan con + de Google, usar robots.txt?

¿Podría decirme cómo bloquear dichas URL robots.txtpara que Googlebots deje de indexar? http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q Mi sitio web fue pirateado, que ahora se recuperó, pero el pirata informático indexó 5000 URL en Google y ahora recibo el error 404 en enlaces generados...

google-search robots.txt url-removal

14

¿Qué es un archivo robots.txt mínimo válido?

No me gusta, veo muchos errores 404 en el archivo access.log de mi servidor web. Recibo esos errores porque los rastreadores intentan abrir un archivo robots.txt , pero no pueden encontrar ninguno. Por lo tanto, quiero colocar un archivo robots.txt simple que evitará que aparezcan los errores 404...

robots.txt

12

Robots.txt: ¿necesito no permitir una página que no esté vinculada a ningún lado?

Hay algunas páginas en mi sitio web que deseo que el usuario pueda visitar solo si le doy la URL. Si no autorizo las páginas individuales robots.txt, serán visibles para cualquiera que las vea. Mi pregunta es: si no los vinculo desde ninguna parte, o al menos desde cualquier página indexada,...

robots.txt

12

Robots.txt - CSS permite o no permite

¿Se permiten CSS y plantillas en robots.txt ? ¿Debería causar algún problema? En Joomla, CSS y plantillas no están permitidos en el archivo robots.txt . Por favor, ayúdenme a encontrar una solución a si poner o no en los robots para CSS, plantillas, etc. para mis próximos sitios...

css robots.txt

11

¿Puede un índice de mapa de sitio contener otros índices de mapa de sitio?

Tengo un sitio web bilingüe con un índice de mapa del sitio para cada idioma que enlaza con varios mapas de sitio diferentes (uno para videos, uno para contenido estático y otro para artículos). Me gustaría presentar otro mapa del sitio que vincule los índices del mapa del sitio, para poder...

google sitemap robots.txt

11

¿Google Preview obedece a Robots.txt?

Porque seguro que se ve así. Para mis sitios, no permitimos el directorio de imágenes y las vistas previas son imágenes que faltan, lo que hace que el sitio se vea inestable. ¿Es este el caso y hay una manera de permitir que solo el bot de vista previa acceda a las imágenes usando...

google robots.txt

11

¿Puedo invocar a Google para verificar mi archivo robots.txt?

Leí las respuestas en esta pregunta, pero todavía dejan mi pregunta abierta: ¿Google almacena el caché robots.txt? No encontré una manera en las Herramientas para webmasters de Google para invocar una descarga de mi robots.txt . Por algún error, mi robots.txt fue reemplazado por: User-agent:...

google google-search-console robots.txt

11

Las Herramientas para webmasters de Google me dicen que los robots están bloqueando el acceso al mapa del sitio

Este es mi robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Pero las Herramientas para webmasters de Google me dicen que los robots están bloqueando el acceso al mapa del sitio: Encontramos un error al intentar acceder a...

google-search-console robots.txt web-crawlers

11

¿Ocultar un subdominio de Google / Search Engine SEO Result?

Tengo un subdominio que no quiero que aparezca en ningún resultado del motor de búsqueda. Digamos que tengo: http://www.example.com http://child.example.com ¿Cómo puedo ocultar todas las URL de child.example.comdominio que se muestran actualmente en los resultados del motor de...

search-engines url robots.txt search noindex

11

¿Qué bots realmente vale la pena dejar en un sitio?

Después de haber escrito una serie de bots, y visto las enormes cantidades de bots aleatorios que rastrean un sitio, me pregunto como webmaster, ¿qué bots realmente vale la pena dejar en un sitio? Mi primer pensamiento es que permitir que los bots ingresen al sitio puede atraer tráfico real. ¿Hay...

seo web-crawlers robots.txt googlebot bingbot

10

¿Cómo funciona "Noindex:" en robots.txt?

Me encontré con este artículo en mis noticias de SEO hoy. Parece implicar que puede usar Noindex:directivas además de las Disallow:directivas estándar en robots.txt . Disallow: /page-one.html Noindex: /page-two.html Parece que evitaría que los motores de búsqueda rastreen la página uno y que no...

web-crawlers robots.txt googlebot noindex

10

Combina agentes de usuario en robots.txt

¿Pueden los agentes de usuario aparecer juntos, seguidos de sus reglas comunes como en un robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask...

web-crawlers robots.txt user-agent