¿Qué etiqueta meta "robots" tiene preferencia?

Mi esposa trabaja en una escuela secundaria en Alemania. Hace poco noté que es extremadamente difícil encontrar la página de inicio de esa escuela usando Google. Miré el código fuente de la página y creo que he encontrado la razón: hay dos <meta name="robots">etiquetas; uno es

<meta name="robots" content="all">

y el segundo, más abajo en la página, es

<meta name="robots" content="noindex, follow">

Supongo que el segundo triunfa sobre el primero y evita que Google indexe el sitio. Estoy en lo cierto? No quisiera decirle al webmaster que he encontrado el problema y hacerme un idiota (porque realmente no sé nada sobre cómo construir una página web adecuada, y mucho menos hacer SEO).

Por cierto, si encuentras otras tonterías en el sitio, me alegraría que pudieras denunciarlas. Mi próximo candidato sería la falta total de metaetiquetas relevantes que transmitan información sobre el contenido de la página.

seo web-crawlers meta-robots Tim Pietzcker
fuente

La Wikipedia alemana afirma que <meta name="robots" content="all"> es semánticamente igual a <meta name="robots" content="index, follow">, por lo que las dos metaetiquetas son contradictorias de alguna manera. Me gustaría notificar al webmaster. También supongo que Google elegirá la política más estricta y, por lo tanto, no indexará la página para evitar problemas de derechos de autor.

Matthias Ronge

También vi que al final de la página se envían dos solicitudes a servidores de terceros ( ajax.googleapis.comy ssl.google-analytics.com). Este puede ser un problema legal contra el privilegio de la autodeterminación informativa en Alemania. Yo recomendaría evitar eso.

Matthias Ronge

También hay dos titleelementos. ¡Y lo mismo se repite en otras páginas, no solo en la página de inicio! De hecho, ¿no parece haber ninguna página indexada, aparte de un puñado de archivos PDF? ¿Módulos en conflicto en el CMS tal vez? Problema secundario ... Como se indicó en las respuestas, los motores de búsqueda aplicarán la regla más restrictiva, no necesariamente la regla posterior. Sin embargo, una función como PHP get_meta_tags()solo devolverá la regla posterior, por lo que existe un problema inmediato (potencial) con tener múltiples metaetiquetas para los mismos datos.

MrWhite

@ w3d: ¡Gracias por las ideas! Esto es muy útil.

Tim Pietzcker

Respuestas:

Si bien la Wikipedia en alemán afirma que alles un valor válido, no tengo idea de dónde proviene esa información, y la Wikipedia en alemán no cita ninguna fuente. AFAIK está mal, y en mi humilde opinión, es un buen ejemplo de por qué no se debe confiar en Wikipedia para este tipo de información.

Si desea utilizar la metaetiqueta del robot para dirigir googlebot , la mejor información sobre valores válidos es Google webmasters central . En él se enumeran los siguientes seis valores como válido: noindex, nofollow, noarchive, nosnippet, noodp, none.

En otras palabras, para googlebot :

meta name="robots" content="all">

es un error de sintaxis y se ignorará, mientras que:

<meta name="robots" content="noindex, follow">

es una sintaxis válida y se obedecerá (por lo que esto explica por qué es extremadamente difícil encontrar la página de inicio de esa escuela usando Google).

Para responder a su segunda pregunta, ¿qué sucede si dos metaetiquetas de robot válidas entran en conflicto? Google dice (la misma página que la vinculada anteriormente):

Si los valores de contenido entran en conflicto, usaremos los más restrictivos.

En cuanto a las metaetiquetas, aquí hay una descripción general de las metaetiquetas reconocidas por Google .

Svartepjotr
fuente

Gracias por el enlace a la central de webmasters de Google. Se lo daré al webmaster de la escuela.

Tim Pietzcker

Las metaetiquetas de los robots están documentadas en detalle en developers.google.com/webmasters/control-crawl-index/docs/… - la forma más sencilla de recordarlo es que las "positivas" (todas, indexadas, seguidas) no tienen efecto en absoluto.

John Mueller

El comportamiento de dos metaetiquetas en conflicto no está definido, por lo que sé, pero lo más probable es que gane la regla más restrictiva.

Esto sucede en el caso similar del archivo robots.txt frente a la etiqueta meta robots. Si el archivo robots.txt impide la indexación de una página y los meta-robots no lo hacen, la página no se indexará. Y si robots.txt permite una página pero los meta-robots la bloquean, todavía no se indexará.

Entonces, la lógica dictaría que si hay dos metaetiquetas en conflicto, si una bloquea la indexación, anulará a la otra (independientemente de sus ubicaciones respectivas en la página).

Debe preguntarle al webmaster si está bloqueando los motores de búsqueda por alguna razón en particular. De lo contrario, elimine ambas metaetiquetas (el valor predeterminado es permitir que los motores de búsqueda no tengan ninguna razón para tener la etiqueta).

En cuanto a la otra parte de su pregunta, las revisiones del sitio están fuera del alcance de Pro Webmasters. Pero agregaré que la etiqueta de meta descripción es probablemente la única que le resultará útil. La etiqueta de palabras clave meta no es utilizada por ningún motor de búsqueda.

Cabra descontento
fuente