Aquí hay una consulta reciente de correlación de Google:
http://www.google.com/trends/correlate/search?e=internet+usage&t=weekly#
Como puede ver en el cuadro de búsqueda en ese enlace, ingresé "uso de internet" y Google hizo el resto. Muestra un valor de 0.9298 como la "correlación" con la consulta "minería de datos". Sin embargo, cuando leo la página 2 del documento técnico de Google [PDF] , dice:
The objective of Google Correlate is to surface the queries in the database whose spatial or temporal pattern is most highly correlated with a target pattern. Google Correlate employs a novel approximate nearest neighbor (ANN) algorithm over millions of candidate queries in an online search tree to produce results similar to the batch-based approach employed by Google Flu Trends but in a fraction of a second. For additional details, please see the Methods section below....
Entonces, mi pregunta es:
¿Google está usando una correlación normal de Pearson o Spearman para encontrar estas cosas o están usando otra cosa? Si es así, ¿puedes explicar la técnica general?
==================
Además, observe en la trama que la búsqueda de "uso de internet" (y "minería de datos") cae durante los meses de verano y realmente se sumerge en Navidad. Supongo que los niños y su tarea tienen algo que ver con esto.
fuente
Respuestas:
Como señala chl, el tutorial de Google Correlate establece que Google Correlate utiliza el coeficiente de correlación de momento de producto de Pearson .
No mencionan en qué idioma se implementa esto, aunque Google usa R para algunas aplicaciones, por lo que supongo que eso.
fuente