¿Por qué está indexando Google las páginas con la cadena de consulta utm_campaign?

9

Recientemente, noté que Google está indexando URL que contienen argumentos de cadena de consulta utm_campaign, utm_source y utm_medium. En los resultados, Google muestra las URL con estas cadenas de consulta en lugar de la URL canónica:

utm_campaign agregado a la URL

Entiendo que esto podría ser un problema de "contenido duplicado", pero he estado usando la link rel=canonicaletiqueta en todo mi sitio web. Como un ejemplo:

[snip]
<meta name="description" content="App store optimization helps discovery and rank on Google Play and the App Store. Publishers can use ASO by following these simple steps."/>
<meta name="robots" content="noodp"/>
<link rel="canonical" href="https://sweetpricing.com/blog/2016/11/app-store-optimization/" />
<meta property="og:locale" content="en_US" />
[snip]

Captura de pantalla de la etiqueta canónica

Mi expectativa es que Google debería usar la URL canónica para la indexación. ¿Qué estoy haciendo mal?

Brendon
fuente
2
Incluso sin la etiqueta canónica, Googlebot generalmente ignora los parámetros UTM porque sabe que solo se usan para el seguimiento. Nunca los he visto indexados antes, especialmente no con un canónico.
Stephen Ostermiller
44
FWIW site:stackexchange.com inurl:utm_campaigntambién devuelve resultados similares (en una escala ligeramente mayor). También tenga en cuenta que las site:búsquedas a menudo devuelven URL no canónicas en los resultados, que normalmente no se devuelven en búsquedas "normales". Sin embargo, las URL anteriores también parecen ser devueltas en búsquedas "normales" también.
MrWhite

Respuestas:

3

Al revisar su sitio web tal como está ahora, no estoy muy seguro de si esto ya es un problema / actualmente.

El problema no es el enlace interno en su sitio web con la inclusión de parámetros UTM (como sugiere otra pregunta).

Parece más bien que algún proceso que tiene para compartir el contenido de su sitio web en las redes sociales es dejar los parámetros UTM en las URL y compartir esas URL que, en algún momento, ha llevado a que se indexen.

Es raro que esto suceda, pero ha sucedido en muchos otros sitios antes. El hecho de que solo tengan tres páginas indexadas con estos parámetros es indicativo de que no se trata de un problema grave ni de todo el sitio.

Estos son los pasos que puede seguir para ayudar a erradicar esto: -

1. Especifique una URL canónica en sus páginas

Ya está haciendo esto y la implementación es correcta. Esto asegurará que solo la URL canónica especificada tenga peso en los motores de búsqueda. Presumiblemente, esto siempre ha estado en su lugar, pero si no, esto podría explicar por qué hay algunas instancias antiguas de páginas todavía indexadas con parámetros UTM.

Implementación correcta de URL canónicas

2. Indique a Google que no indexe los parámetros UTM en Search Console

En el caso de que algunas URL se indexen con los parámetros UTM (como su caso), el parámetro URL debe aparecer como detectado desde la sección 'Rastrear> Parámetros URL' de Google Search Console para su dominio (ver más abajo).

Parámetros de URL de Google Search Console UTM

Incluso si los parámetros UTM no aparecen, puede 'Agregar parámetro' para crearlos.

Simplemente seleccione No: Doesn't affect page content (ex: tracks usage)(conocido como 'Parámetros pasivos') y Google generalmente solo rastreará solo una URL con un valor de parámetro específico .

3 No permita los parámetros de URL en su robots.txt

Esto impedirá que Google indexe el contenido de estas URL, pero no las URL reales en sí mismas (aún podrían aparecer en los resultados de búsqueda, pero simplemente omitirán la descripción como se muestra a continuación).

Página indexada no permitida en robots.txt

Simplemente agregar algo como lo siguiente manejaría esto desde robots.txt: -

Disallow: /*?utm=*

Conclusión

Los pasos n. ° 1 y n. ° 2 deben llevarse a cabo como medida de precaución y "mejor práctica" de todos modos y el paso n. ° 3, además de los pasos n. ° 1 y n. ° 2 tal vez (ya que no será efectivo por sí solo).

Dentro de Google Search Console, también existe la posibilidad de eliminar (temporalmente) las URL. Esto es particularmente útil si todavía hay algunas páginas obstinadas indexadas, pero sabe que la fuente raíz del problema se ha resuelto y esta función debería ser suficiente para eliminarlas de una vez por todas de los resultados de búsqueda.

No he incluido esto como un paso anterior ya que, a pesar de haber investigado esto antes, no puedo recordar si admitirá URL con parámetros [cita requerida]. Una vez supe la respuesta, pero mi memoria me falla en esta ocasión en particular.

Más información sobre la eliminación de URL de Google .

zigojacko
fuente
1
Pero si bloquea estas URL para que no se rastreen usando robots.txt(# 3), ¿no bloqueará también el seguimiento de estas campañas ? ... ¿Y también evita que se lea la etiqueta canónica in-page (# 1)?
MrWhite
Estoy de acuerdo con lo que dice w3dk sobre robots.txt. Si algo usa noindex: /*?utm=*en robots.txt.
Stephen Ostermiller
2

Parece que está utilizando estos enlaces dentro del contenido de su sitio web para unir páginas.

Para asegurarse de que Google no indexe, puede agregar rel="nofollow"a estos enlaces dentro de su sitio web y bloquear estos parámetros del archivo robots.txt:

Disallow : /*utm_campaign
Nadeem Haddadeen
fuente
Buena captura de que se utilizan para enlaces internos. Eso explicaría la diferencia de la mayoría de los sitios donde generalmente solo se usan en enlaces entrantes.
Stephen Ostermiller
En realidad, Buffer.com agrega las URL de utm_campaign, por ejemplo, se ven como "utm_source = plus.google.com & utm_campaign = buffer". No creo que esté usando estos enlaces en ninguna parte del sitio web.
Brendon
1

¿Has comprobado que tu URL canónica ha sido indexada o no? Si la URL canónica ha sido indexada, entonces no hay nada de qué preocuparse.

Puede probar las Herramientas para webmasters de Google y cambiar cómo Google maneja los parámetros de URL aquí .

Muhammad Usman
fuente
1
Para algunas URL, solo se indexa la URL utm_campaign. Para otras páginas, ambas URL aparecieron en el índice. Ayer, utilicé la herramienta Explorar como Google para rastrear una URL (con la cadena de consulta utm_campaign): esa URL ahora parece haber desaparecido y la URL canónica ahora está indexada.
Brendon
Además, las estadísticas de rastreo ( captura de pantalla ) parecen mostrar que las páginas tardan mucho en rastrearse (un promedio de 2.3s). No estoy seguro de si este es un problema generalizado, pero quizás Google está teniendo algunos problemas para rastrear el sitio.
Brendon
También puede hacer una pequeña limpieza una vez que un visitante llega a su sitio web. Uso enlace guión fresco URL para eliminar de forma dinámica los parámetros UTM de la URL después de obtener beneficio de ella. En segundo lugar, agregue parámetros de URL ...
muhammad usman