He encontrado un anuncio de Google: http://googlewebmastercentral.blogspot.in/2014/10/updating-our-technical-webmaster.html
Afirma:
Para una representación e indexación óptimas, nuestra nueva directriz especifica que debe permitir que Googlebot acceda a JavaScript, CSS y archivos de imagen que usan sus páginas. Esto le proporciona una representación e indexación óptimas para su sitio. No permitir el rastreo de archivos Javascript o CSS en el archivo robots.txt de su sitio perjudica directamente qué tan bien nuestros algoritmos procesan e indexan su contenido y pueden dar lugar a clasificaciones subóptimas.
Por defecto, el archivo robots.txt de Joomla viene con no permitir:
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Por favor avise, ¿eliminaremos los siguientes elementos del archivo robots.txt según el anuncio de Google?
Disallow: /components/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
¿Es esto lo que se recomienda según el anuncio para los sitios basados en Joomla?
fuente
robots.txt
ya que nadie (ni siquiera los motores de búsqueda ahora que Google está exigiendo lo que no debe rechazar) lo va a seguir de todos modos?Respuestas:
Honestamente, es mejor que elimines todo de tu robots.txt. Hasta donde puedo ver, todos los archivos PHP en Joomla contienen la línea
Lo que significa que si carga un archivo PHP directamente en el navegador, todo lo que obtiene es un archivo en blanco, que los motores de búsqueda ignorarán. (De todos modos, nunca deberían encontrarse con estos a menos que los vincules directamente).
El problema de dejar bloqueados algunos de estos directorios es que algunos componentes y módulos mantienen sus archivos CSS / JS dentro de esos directorios respectivos y no en las carpetas preferidas de medios o imágenes.
Por lo tanto, no hay ninguna razón para bloquear ningún archivo de Joomla de Google.
fuente
Además del uso general / falta de ella,
robots.txt
en un sitio Joomla bien administrado, con extensiones de terceros "buenas", los únicos lugares que deberían contener CSS, JS o imágenes son:y, por supuesto, sus subdirectorios .
Entonces, podrías eliminarlos de
robots.txt
.fuente
En Joomla 3.3, estas líneas se han eliminado del archivo robots.txt:
Más información aquí: http://www.energizethemes.com/blog/joomla/have-you-updated-the-joomla-robots-txt-file.html
fuente
Si ve sus páginas sin errores al buscar como Google en WMT, entonces probablemente esté bien. Pero, en el futuro, puede actualizar algún contenido en su sitio web, lo que exigirá algunos scripts / css de algunas de las carpetas bloqueadas. Por lo tanto, creo que podría ser mejor si permite que los motores de búsqueda rastreen todas estas carpetas que contienen CSS / JavaScript.
fuente
Las versiones más recientes de Joomla ya no bloquean las carpetas
/media/
y/templates/
:No todas las extensiones se adhieren a las pautas de dónde colocar los archivos CSS y JS, etc., por lo que una buena solución es permitir que Google acceda a estos archivos independientemente de dónde se encuentren.
Puede lograr esto insertando algunas líneas al inicio de su
robots.txt
archivo de esta manera:EDITAR:
¡Gracias @ w3dk y @Stephen Ostermiller por los comentarios! Estás en lo cierto. Es mejor hacer algo como esto:
Desafortunadamente, esto no parece funcionar según lo previsto porque las reglas más largas (más específicas) anulan las reglas más cortas y se ignoran las líneas permitidas. No parece hacer ninguna diferencia si las líneas de permiso siguen las líneas de no permitir o viceversa.
La única forma en que puedo evitar esto es haciendo algo como esto que parece funcionar cuando lo pruebo en las Herramientas para webmasters:
EDIT 2 - MEJOR SOLUCIÓN:
Bien, investigué un poco más y encontré la respuesta en https://stackoverflow.com/a/30362942/1983389
Al parecer, la solución más correcta y más apoyado en todos los rastreadores web es algo así como lo siguiente (lo que permite el acceso a
*.css
y*.js
archivos en los/bin
,/cache
,/installation
,/language
,/logs
, y/tmp
carpetas y, posiblemente, algunas de las otras carpetas no tiene mucho sentido):fuente
Disallow:
en elUser-agent: Googlebot
grupo, lo que sería más legible.)/logs/
mientras evita que otros bots lo hagan.