Robots.txt - CSS permite o no permite

12

¿Se permiten CSS y plantillas en robots.txt ?

¿Debería causar algún problema?

En Joomla, CSS y plantillas no están permitidos en el archivo robots.txt . Por favor, ayúdenme a encontrar una solución a si poner o no en los robots para CSS, plantillas, etc. para mis próximos sitios web.

Manju George
fuente
No creo que Joomla bloquee estos archivos por defecto, si eso es lo que estás implicando.
MrWhite

Respuestas:

23

Google ha actualizado recientemente sus directrices para declarar oficialmente que no debe bloquear el acceso a archivos CSS o JS en robots.txt . Esto garantiza que cuando Google rastrea el sitio, puede representarlo exactamente como lo haría un navegador.

Si bloquea archivos CSS o JS, podría dañar el rendimiento de su sitio web en las clasificaciones.

Más información aquí: Actualizando nuestras Pautas técnicas para webmasters y aquí: Pautas para webmasters

Como esta es una recomendación reciente, muchos sitios web y CMS (como Joomla) a menudo tendrán dichos archivos bloqueados en robots.txt . El razonamiento detrás de esto generalmente era que los motores de búsqueda no necesitaban rastrear o indexar estos archivos, por lo que para evitar que los archivos y directorios innecesarios se indexen y guardar el 'presupuesto de rastreo', estos a menudo se bloquearían en robots.txt .

Max
fuente
2
En realidad, Google ha estado diciendo durante mucho tiempo que no debe bloquear JS y CSS (video de Matt Cutts de marzo de 2012) ya que podría dañar la capacidad de G para rastrear su sitio, es solo que lo han hecho "más oficial" recientemente.
MrWhite
2
Se ha recomendado no bloquear CSS y JS durante más de una década. Sé que el renderizado por motores de búsqueda parece nuevo, pero no lo es y algunas formas de renderizado, incluido JS simple, han existido durante mucho tiempo.
closetnoc
1
Nota adicional (algo relacionado, ya que a menudo se usa con JS): en lo que respecta a los controladores que hacen que una ruta sea accesible a través de theme / view / JSON / URi, debe bloquearlos o puede enfrentar áreas no temáticas que se indexan en lugar de la página que usa dicho faceta de datos. Esta es un área de "vista" que es válida para bloquear, especialmente cosas que JS usa como JSON. A menudo, G ejecutará el JS, verá el enlace JSON y lo visitará. Causa errores o, si aparece como tema, un índice medio construido. Eso es un nuevo can-o-worms, pero ten en cuenta.
dhaupin
1
Me sentí obligado a expresar mi fuerte desacuerdo con la actitud de culto a la carga que cualquier cosa que Google diga, debemos hacer. Google también dice que su sitio tendrá una clasificación más alta si les permite rastrear imágenes, usar HTTPS, etc. Al cumplir con todo lo que Google dice, simplemente les está dando más poder para hacer mayores demandas. Al final del día, ¿estás construyendo tu sitio web para humanos o robots?
Desbordamiento de preguntas el
1
¿Supongo que depende de cuánto confíes en las buenas clasificaciones en Google? Aunque como la mayoría de las cosas, es solo un pequeño indicador en una gran cantidad de factores que tienen. Como mencionó, recientemente dijeron que HTTPs es un factor de clasificación pequeño, sin embargo, no he cambiado ninguno de los cientos de sitios en los que trabajo a HTTPs, y su clasificación está bien.
Max
3

La estrategia para su archivo robots.txt siempre debe ser respondida por la pregunta: qué secciones de mi web no deben ser rastreadas por un robot y qué secciones pueden ser rastreadas por un robot.

Los robots implementan su propia lógica y tienen múltiples propósitos (no solo Google tiene un rastreador ...) así que si estás asumiendo que un robot se distrae de alguna manera con tus archivos CSS y JS, abres la caja negra del robot y asumes qué La implementación actual y la intención actual del robot es. Esta no es una estrategia útil a largo plazo.

En lugar de pensar en el dominio del robot, intente pensar en el dominio de contenido de su web.

Quiero señalar que un archivo robots.txt no es un mecanismo de seguridad.

saintedlama
fuente
1

Las plantillas son utilizadas por la aplicación de software de administración de contenido o blogs (CMS) y no deben ser accesibles externamente cuando el navegador y los motores de búsqueda leen CSS, y deben leerse. Dicho esto, no bloquearía ninguno de los dos, pero tampoco cambiaría ninguno de los que están en el CMS. Los motores de búsqueda y los robots no se preocupan por sus plantillas. Simplemente bloquee el acceso a su sitio por URL / URI que no desea indexar o leer, pero no piensa en robots.txt como una herramienta de seguridad. No está diseñado para eso.

closetnoc
fuente