En las Herramientas para webmasters de Google, noté que mi página principal se indexó dos veces:
example.com/
example.com/?chocaid=397
Sé que podría solucionar esto con el uso del tipo de enlace canonical
, pero me pregunto: ¿de dónde viene este parámetro?
Hay varios sitios que tienen páginas indexadas con este mismo parámetro / valor: https://duckduckgo.com/?q=chocaid%3D397 .
Busqué similitudes entre estos sitios. pero no pudo encontrar una concluyente: a menudo es la portada, pero no en todos los casos. Algunos son NSFW, pero no todos. Cuando la URL de un dominio tiene este parámetro, a menudo otros subdominios del mismo dominio también lo tienen.
Ejemplos
Entrada de Wikipedia
Microsoft Codeplex
url
url-parameters
unor
fuente
fuente
?chocaid=397
indexarse, entonces, presumiblemente, algo se está vinculando a él para que Google encuentre el enlace en primer lugar??chocaid=397
podría ser algún tipo de intento de meterse con hashes (no sé mucho sobre esto, así que no estoy seguro de esto). Además, esta es una gran pregunta.Respuestas:
¿Qué tan nuevo es tu dominio? Es muy posible que se tratara de una consulta popular en el dominio anterior y, por lo tanto, todavía está recibiendo "visitantes". ¿Se correlaciona con una página válida o un 404? Si está recibiendo muchos éxitos allí y es un 404, entonces lo reasignaría (use un .htaccess) a su página de inicio o algo así.
fuente
canonical
, pero esta pregunta es más sobre el origen de este parámetro.Puede ser Googlebot intentando acceder a jQuery / Javascript y rastrear todo lo que pueda. Hubo una publicación reciente aquí de alguien pidiendo ayuda porque Googlebot estaba rastreando URL no válidas en su sitio. John M respondió sobre cómo Googlebot puede estar buscando más URL para rastrear desde los scripts en su sitio. Trabaja para Google Webmaster Tools. Prácticamente respondiste tu propia pregunta configurando la etiqueta canónica.
fuente
Si bien no tengo una respuesta definitiva, hay algunas cosas que he encontrado al investigar esto que pueden ayudar a reducirlo:
Mi mejor conjetura sería que hay / hubo algún sitio de scraper que agrega esta URL a todos los enlaces que encuentra. Ciertamente, los enlaces externos parecen la explicación más probable de dónde provienen, y los directorios son poco probables debido al hecho de que se agrega a páginas bastante aleatorias.
fuente
Esto podría ser de un proveedor de anuncios que pueda tener, tengo el mismo problema y el único lugar posible de donde proviene es de un proveedor de anuncios que inyecta malware a través de los códigos de JavaScript.
fuente