Me gustaría tener una lista de archivos que deberían existir en cada sitio web. La idea es complacer a la mayoría de los navegadores y bots y obtener la cantidad de mensajes 404 en los registros. Hasta ahora tengo los siguientes
Robots.txt es un archivo de texto utilizado por los propietarios de sitios web para dar instrucciones sobre su sitio a los robots web. Básicamente le dice a los robots qué partes del sitio están abiertas y qué partes están cerradas. Esto se llama Protocolo de exclusión de robots.
Me gustaría tener una lista de archivos que deberían existir en cada sitio web. La idea es complacer a la mayoría de los navegadores y bots y obtener la cantidad de mensajes 404 en los registros. Hasta ahora tengo los siguientes
Si no quiero establecer ningún comportamiento especial, ¿está bien si no me molesto en tener un archivo robots.txt? ¿O puede la falta de uno ser
En un servidor web ahora tengo que administrar, noté que el archivo robots.txt está vacío. Me preguntaba si hay una diferencia entre un archivo robots.txt vacío y ningún archivo. ¿Los rastreadores se comportan de manera diferente en estos dos casos? Entonces, ¿es seguro eliminar un archivo...
Tengo algunas URL dinámicas generadas. ¿Puedo usar regex para bloquear estas URL en un archivo
Tengo dos sitios en los que estoy trabajando actualmente, que es un carrito de compras y otro comprador. Ambos están bajo el mismo nombre de dominio, por ejemplo http://example.com/first_url http://example.com/second_url Ambas URL tienen toneladas de páginas debajo de ellas....
Tengo algunas páginas en mi sitio que quiero mantener alejados de los motores de búsqueda, así que no las permití en mi robots.txtarchivo de esta manera: User-Agent: * Disallow: /email Sin embargo, recientemente me di cuenta de que Google todavía a veces devuelve enlaces a esas páginas en sus...
Agregué un archivo robots.txt a uno de mis sitios hace una semana, lo que debería haber evitado que Googlebot intente obtener ciertas URL. Sin embargo, este fin de semana puedo ver Googlebot cargando esas URL exactas. ¿Google almacena en caché el archivo robots.txt y, de ser así,...
Tengo un subdirectorio que me gustaría ocultar de los rastreadores web del motor de búsqueda. Una forma de hacerlo es usar a robots.txten el directorio raíz del servidor (la forma estándar). Sin embargo, cualquier persona que conozca la URL del sitio web y tenga algún conocimiento básico de la web...
¿Podría decirme cómo bloquear dichas URL robots.txtpara que Googlebots deje de indexar? http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q Mi sitio web fue pirateado, que ahora se recuperó, pero el pirata informático indexó 5000 URL en Google y ahora recibo el error 404 en enlaces generados...
No me gusta, veo muchos errores 404 en el archivo access.log de mi servidor web. Recibo esos errores porque los rastreadores intentan abrir un archivo robots.txt , pero no pueden encontrar ninguno. Por lo tanto, quiero colocar un archivo robots.txt simple que evitará que aparezcan los errores 404...
Hay algunas páginas en mi sitio web que deseo que el usuario pueda visitar solo si le doy la URL. Si no autorizo las páginas individuales robots.txt, serán visibles para cualquiera que las vea. Mi pregunta es: si no los vinculo desde ninguna parte, o al menos desde cualquier página indexada,...
¿Se permiten CSS y plantillas en robots.txt ? ¿Debería causar algún problema? En Joomla, CSS y plantillas no están permitidos en el archivo robots.txt . Por favor, ayúdenme a encontrar una solución a si poner o no en los robots para CSS, plantillas, etc. para mis próximos sitios...
Tengo un sitio web bilingüe con un índice de mapa del sitio para cada idioma que enlaza con varios mapas de sitio diferentes (uno para videos, uno para contenido estático y otro para artículos). Me gustaría presentar otro mapa del sitio que vincule los índices del mapa del sitio, para poder...
Porque seguro que se ve así. Para mis sitios, no permitimos el directorio de imágenes y las vistas previas son imágenes que faltan, lo que hace que el sitio se vea inestable. ¿Es este el caso y hay una manera de permitir que solo el bot de vista previa acceda a las imágenes usando...
Leí las respuestas en esta pregunta, pero todavía dejan mi pregunta abierta: ¿Google almacena el caché robots.txt? No encontré una manera en las Herramientas para webmasters de Google para invocar una descarga de mi robots.txt . Por algún error, mi robots.txt fue reemplazado por: User-agent:...
Este es mi robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Pero las Herramientas para webmasters de Google me dicen que los robots están bloqueando el acceso al mapa del sitio: Encontramos un error al intentar acceder a...
Tengo un subdominio que no quiero que aparezca en ningún resultado del motor de búsqueda. Digamos que tengo: http://www.example.com http://child.example.com ¿Cómo puedo ocultar todas las URL de child.example.comdominio que se muestran actualmente en los resultados del motor de...
Después de haber escrito una serie de bots, y visto las enormes cantidades de bots aleatorios que rastrean un sitio, me pregunto como webmaster, ¿qué bots realmente vale la pena dejar en un sitio? Mi primer pensamiento es que permitir que los bots ingresen al sitio puede atraer tráfico real. ¿Hay...
Me encontré con este artículo en mis noticias de SEO hoy. Parece implicar que puede usar Noindex:directivas además de las Disallow:directivas estándar en robots.txt . Disallow: /page-one.html Noindex: /page-two.html Parece que evitaría que los motores de búsqueda rastreen la página uno y que no...
¿Pueden los agentes de usuario aparecer juntos, seguidos de sus reglas comunes como en un robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask...