Robots.txt vs Sitemap - Quién gana en un conflicto

8

Si bloqueo el directorio / foo en robots.txt, pero mi mapa del sitio xml contiene URL con / foo, ¿Google y otros motores de búsqueda recogerán las URL del mapa del sitio? En otras palabras, ¿el mapa del sitio triunfa sobre robots.txt? Creo que sí, pero no estoy seguro.

Nathan
fuente

Respuestas:

12

El motor de búsqueda que no cumple con el Protocolo de exclusión de robots puede rastrear cualquier URL no permitida en robots.txt, sin importar en qué otro lugar pueda aparecer.

Sin embargo, Google no necesariamente tiene que rastrear sus URL para indexarlas. Si creen que tienen evidencia suficiente de que en realidad hay una página en esa URL (y es muy probable que una lista de mapa del sitio cuente como tal evidencia), entonces simplemente pueden decidir agregar la URL a su índice sin ningún contenido. Para citar las páginas de ayuda de las Herramientas para webmasters de Google :

"Si bien Google no rastreará ni indexará el contenido de las páginas bloqueadas por robots.txt, aún podemos indexar las URL si las encontramos en otras páginas de la web. Como resultado, la URL de la página y, potencialmente, otras La información disponible públicamente, como el texto de anclaje en los enlaces al sitio, o el título del Open Directory Project (www.dmoz.org), puede aparecer en los resultados de búsqueda de Google ".

Dichas páginas pueden aparecer como resultados de búsqueda, por ejemplo, para palabras incluidas en la propia URL, o para palabras utilizadas en enlaces que apuntan a la página.

Por lo tanto, si ambos lista de una página en un mapa y no permitir que en robots.txt, es probable que Google voluntad índice de la URL de esa página - pero no su contenido.

Ilmari Karonen
fuente
Entonces esa sería su respuesta Sí en lugar de No, ¿no? :) Porque recoge las URL a pesar de que el directorio está bloqueado en robots.txt, y parece estar de acuerdo con eso.
Henrik Erlandsson
3

Robots.txt define qué bots conformes están permitidos o no solicitar. Incluso si un enlace particular está presente en un mapa del sitio, un bot no puede solicitarlo si el robots.txt no lo permite.

Recuerde que los mapas de sitio no son necesarios e incluso si se proporciona uno, los rastreadores pueden ignorar las URL y rastrear las que no están allí. Si puede ver esto en las Herramientas para webmasters de Google, que muestra que no todas las URL en un mapa del sitio se rastrean y si algunas URL están robotizadas .

Itai
fuente
3

La respuesta de Itai es correcta, así que no hay mucho más importante que agregar a eso, pero en respuesta a su pregunta específica ...

Un mapa del sitio no puede superar un archivo robots.txt, un mapa del sitio no proporciona instrucciones / directivas para los rastreadores en un sitio web. Ni siquiera son comparables. Si le has ordenado a los robots que no visiten / sigan, /fooentonces cualquier bot que obedezca las directivas de tu robot simplemente no visitará ese directorio sin importar qué camino tomaron para llegar allí (mapa del sitio o de otra manera).

zigojacko
fuente
Erm ... Esto es lo que Google dice en su documentación sobre cómo manejan el rastreo. [absoluteURL] apunta a un Sitemap, un archivo de índice de Sitemap o una URL equivalente. La URL no tiene que estar en el mismo host que el archivo robots.txt. Pueden existir múltiples entradas del mapa del sitio. Como registros que no son miembros del grupo, estos no están vinculados a ningún agente de usuario específico y pueden ser seguidos por todos los rastreadores, siempre que no esté prohibido .
zigojacko
3
Cuando Google puede procesar correctamente un archivo robots.txt, una URL mencionada en un archivo de Sitemap nunca prevalecerá sobre una directiva de rechazo válida en el archivo robots.txt. Googlebot no debe rastrear una URL que no se pueda rastrear.
John Mueller
0

En el webmaster de Google: muestra un error en su mapa del sitio XML que dice "Ha puesto un enlace que no puede rastrear en su archivo robots.txt. Google prefiere el archivo robots.txt en lugar del Sitemap.

Asif Faridi
fuente