¿Es aceptable agrupar datos, calcular la media de los contenedores y luego derivar el coeficiente de correlación de Pearson sobre la base de estos medios? Me parece un procedimiento un tanto sospechoso porque (si considera los datos como una muestra de población) la dispersión de estas medias será el error estándar de la media y, por lo tanto, muy estrecha sies largo. Por lo tanto, probablemente obtendrá un coeficiente de correlación mucho mejor que el de los datos primarios, y eso parece incorrecto. Por otro lado, las personas a menudo promedian mediciones repetidas antes de un cálculo de correlación que no es muy diferente.
correlation
binning
James
fuente
fuente
Respuestas:
No es exactamente lo mismo que su pregunta, pero en una nota relacionada, recuerdo haber leído un artículo hace un tiempo (ya sea The American Statistician o la revista Chance, en algún momento entre 2000 y 2003) que mostró que para cualquier conjunto de datos de 2 variables donde son bastante mucho sin correlación puede encontrar una manera de agrupar la variable "predictor", luego tomar el promedio de la variable de respuesta dentro de cada bin y dependiendo de cómo haga el binning mostrar una relación positiva o negativa en una tabla o gráfico simple.
fuente
Consideremos dos variables (Xi , Yi ) Cuando dices bin los datos, y "bin" enXi , ¿quieres decir repetir la medición exactamente igual? Xi para obtener el correspondiente Y′i ¿valor? Si repite la medición de esta manera, el error en el promedio disminuirá conn−−√ , y creo que eres libre de hacer lo que quieras con él. Solo asegúrese de utilizar un coeficiente de correlación ponderado si considera los puntos de datos con barras de error muy diferentes.
Ahora déjenos decir que no está repitiendo la medición deXi , pero considerando Xi±δ y el correspondiente Yi±δ′ y binning en δ y obtener valores agrupados en δ . Creo que en esta situación la solución dependerá de la relación entre el tamaño del contenedor, el error en la medición y la pendiente de la correlación. Espero que si ambosδ y son pequeños, la situación será similar a la del párrafo anterior. De lo contrario, podría ser ventajoso bin o no; cambiará los resultados porque el cov ( , ) será diferente del de los valores no enlazados, pero creo que todavía es válido hacerlo. Creo que no estás rompiendo ninguna suposición; Solo me aseguraría de que sea ventajoso hacerlo, y probaría su importancia a través de una prueba de permutación (para evitar hacer una suposición sobre la distribución del coeficiente).δ´ Xi,bin Yi,bin
fuente
La razón principal para agrupar datos es permitir la posibilidad de una relación no lineal entre las variables. La correlación de Pearson mide la fuerza de la asociación lineal , por lo que no funciona bien cuando la relación no es lineal.
Obviamente, hay formas mucho mejores de manejar este problema que binning. Por ejemplo, puede ajustar un modelo de regresión no lineal o local y correlacionar los valores de respuesta pronosticados y reales (aunque esto supone que un enfoque predictor-respuesta es válido, mientras que la correlación es simétrica). Binning es solo una forma de resolver el problema de no linealidad que las personas sin antecedentes estadísticos o herramientas estadísticas podrían usar.
fuente