¿De dónde viene el parámetro URL "? Chocaid = 397"?

9

En las Herramientas para webmasters de Google, noté que mi página principal se indexó dos veces:

  • example.com/
  • example.com/?chocaid=397

Sé que podría solucionar esto con el uso del tipo de enlace canonical, pero me pregunto: ¿de dónde viene este parámetro?

Hay varios sitios que tienen páginas indexadas con este mismo parámetro / valor: https://duckduckgo.com/?q=chocaid%3D397 .

Busqué similitudes entre estos sitios. pero no pudo encontrar una concluyente: a menudo es la portada, pero no en todos los casos. Algunos son NSFW, pero no todos. Cuando la URL de un dominio tiene este parámetro, a menudo otros subdominios del mismo dominio también lo tienen.

Ejemplos

Entrada de Wikipedia

ingrese la descripción de la imagen aquí

Microsoft Codeplex

ingrese la descripción de la imagen aquí

unor
fuente
En las Herramientas para webmasters de Google (o en sus registros de referencia), ¿hay alguna indicación de qué página podría estar vinculada a esta URL?
MrWhite
@ w3d: no tengo acceso a ningún registro. En GWT, figuraba en " Mejoras HTML " → "títulos de página repetidos". Así que me temo que no puedo obtener ninguna información de referencia.
hasta el
Me preguntaba si había algo en Tráfico> Enlaces a su sitio> Su contenido más vinculado> Más (para obtener todas las páginas vinculadas). ¿Para ?chocaid=397indexarse, entonces, presumiblemente, algo se está vinculando a él para que Google encuentre el enlace en primer lugar?
MrWhite
@ w3d: Ah, ya veo. Desafortunadamente, todavía faltan datos para este informe (probablemente porque estoy usando GWT solo durante unos días todavía).
hasta el
No estoy seguro si esto ayuda, pero el número 397 tiene algo que ver con los hashes (ver aquí y aquí ). No estoy seguro de si esto tiene algo que ver con esta pregunta, pero ?chocaid=397podría ser algún tipo de intento de meterse con hashes (no sé mucho sobre esto, así que no estoy seguro de esto). Además, esta es una gran pregunta.

Respuestas:

1

¿Qué tan nuevo es tu dominio? Es muy posible que se tratara de una consulta popular en el dominio anterior y, por lo tanto, todavía está recibiendo "visitantes". ¿Se correlaciona con una página válida o un 404? Si está recibiendo muchos éxitos allí y es un 404, entonces lo reasignaría (use un .htaccess) a su página de inicio o algo así.

Kyros
fuente
1
No noté ningún visitante todavía; Vi la página indexada por Google. Se asigna a la misma portada (como si se omitiera el parámetro). Sé que podría redirigirlo o usarlo canonical, pero esta pregunta es más sobre el origen de este parámetro.
hasta el
2
Pero esto no explica por qué aparece el mismo parámetro de URL en los resultados de búsqueda para muchos otros dominios.
MrWhite
1

Puede ser Googlebot intentando acceder a jQuery / Javascript y rastrear todo lo que pueda. Hubo una publicación reciente aquí de alguien pidiendo ayuda porque Googlebot estaba rastreando URL no válidas en su sitio. John M respondió sobre cómo Googlebot puede estar buscando más URL para rastrear desde los scripts en su sitio. Trabaja para Google Webmaster Tools. Prácticamente respondiste tu propia pregunta configurando la etiqueta canónica.

Anagio
fuente
1

Si bien no tengo una respuesta definitiva, hay algunas cosas que he encontrado al investigar esto que pueden ayudar a reducirlo:

  • Los enlaces también aparecen en Bing y Yahoo, por lo que no tiene nada que ver con Google.
  • Aparecen en wikis, blogs de Tumblr, blogs de Wordpress y otros sitios, por lo que no se agregarán a través de un exploit en ningún software en particular.
  • Aparecen en algunos sitios de Tumblr de muy baja calidad, por lo que es poco probable que estos hayan tenido alguna publicidad dirigida a ellos. Del mismo modo, es poco probable que los artículos de Wikipedia se promocionen a través de anuncios.

Mi mejor conjetura sería que hay / hubo algún sitio de scraper que agrega esta URL a todos los enlaces que encuentra. Ciertamente, los enlaces externos parecen la explicación más probable de dónde provienen, y los directorios son poco probables debido al hecho de que se agrega a páginas bastante aleatorias.

RichardB
fuente
0

Esto podría ser de un proveedor de anuncios que pueda tener, tengo el mismo problema y el único lugar posible de donde proviene es de un proveedor de anuncios que inyecta malware a través de los códigos de JavaScript.

Raymund
fuente
¿Tienes una fuente / prueba para esto? Significaría que Wikipedia está infectada por esto, ya que hay algunas paginación de Wikipedia indexadas con este parámetro.
hasta el
Sí, porque tengo un blog que Google bloqueó debido a esto y después de eliminar los anuncios culpables comenzaron a eliminar el bloqueo
Raymund