Promedio de valores de correlación

20

Digamos que pruebo cómo la variable Ydepende de la variable Xen diferentes condiciones experimentales y obtengo el siguiente gráfico:

ingrese la descripción de la imagen aquí

Las líneas discontinuas en el gráfico anterior representan una regresión lineal para cada serie de datos (configuración experimental) y los números en la leyenda denotan la correlación de Pearson de cada serie de datos.

Me gustaría calcular la "correlación promedio" (o "correlación media") entre Xy Y. ¿Puedo simplemente promediar los rvalores? ¿Qué pasa con el "criterio de determinación promedio", ? ¿Debería calcular el promedio y luego tomar el cuadrado de ese valor o debería calcular el promedio de 's individuales ?R 2R2rR2

Boris Gorelik
fuente

Respuestas:

15

La manera simple es agregar una variable categórica para identificar las diferentes condiciones experimentales e incluirla en su modelo junto con una "interacción" con ; es decir, . Esto lleva a cabo las cinco regresiones a la vez. Su es lo que quieres.x y z + x # z R 2zxyz+x#zR2

Para ver por qué promediar valores individuales puede ser incorrecto, suponga que la dirección de la pendiente se invierte en algunas de las condiciones experimentales. Promediaría un grupo de 1 y -1 a alrededor de 0, lo que no reflejaría la calidad de ninguno de los ajustes. Para ver por qué promediar (o cualquier transformación fija de los mismos) no es correcto, suponga que en la mayoría de las condiciones experimentales solo tenía dos observaciones, de modo que sus eran iguales a , pero en un experimento tenía cien observaciones con . El promedio de casi 1 no reflejaría correctamente la situación.R 2 R 2 1 R 2 = 0 R 2RR2R21R2=0R2

whuber
fuente
1
perdone mi ignorancia, pero ¿qué significa el signo # en su respuesta?
Boris Gorelik
1
Creo que su respuesta es muy buena para la definición implícita de correlación utilizada. ¿Qué pasa si lo decían como pendiente media estandarizada (tal vez implícita en la figura)? En ese caso, desea cancelar los aspectos negativos y positivos. Estás muerto sobre el problema del tamaño de la muestra. Además, considere mover su comentario a su respuesta.
John
¿Quieres el o el ajustado ? R 2R2R2
russellpierce
@whuber en su comentario inicial allí, quiere decir que la correlación podría ser ; el en cada caso es . (Sé que esto es sólo una cuestión de escribir o editar; no cambia su punto, pero puede inducir a error.)R 2 1±1R21
Glen_b -Reinstate Mónica
@rpierce En el segundo párrafo no hay diferencia para las ideas si usas ajustado simplemente imagina conjuntos de tres , en lugar de dos puntos, que son casi colineales. Su ajustado puede ser arbitrariamente cercano a . R 2 1R2R21
whuber
24

Para los coeficientes de correlación de Pearson, generalmente es apropiado transformar los valores de r usando una transformación de Fisher z . Luego promedie los valores z y convierta el promedio nuevamente en un valor r .

Me imagino que también estaría bien para un coeficiente de Spearman.

Aquí hay un artículo y la entrada de wikipedia .

Amyunimus
fuente
1
+1; Esta respuesta parece más apropiada y general que la respuesta aceptada, sin embargo, en el caso de uso particular, ¿no se desmoronaría para r valores de 1? ¿Es razonable algo así como un logit emperical aquí donde uno simplemente "agregaría" un punto de datos que carece de la correlación? Si es así, ¿dónde lo agregaría uno? ¿Tendría que llevar a cabo un sim de Monte Carlo graficando dos variables aleatorias de las distribuciones fuente? Alternativamente, ¿se podría ajustar r a un valor ligeramente inferior a 1? ¿Hasta qué punto se debe ajustar?
russellpierce
3

La correlación promedio puede ser significativa. Considere también la distribución de correlaciones (por ejemplo, trazar un histograma).

Pero, según tengo entendido, para cada individuo tiene una clasificación de elementos más clasificaciones predichas de esos elementos para ese individuo, y está observando la correlación entre las clasificaciones de un individuo y las predichas.n

En este caso, puede ser que la correlación no sea la mejor medida de qué tan bien el algoritmo está haciendo predicciones. Por ejemplo, imagine que el algoritmo obtiene los primeros 100 elementos a la perfección y los siguientes 200 elementos están totalmente en mal estado, frente a lo contrario. Podría ser que solo te preocupes por la calidad de los mejores rankings. En este caso, puede observar la suma de las diferencias absolutas entre la clasificación del individuo y la clasificación pronosticada, pero solo entre los principales elementos del individuo .m

Karl
fuente
1

¿Qué pasa con el uso de error medio de predicción al cuadrado (MSPE) para el rendimiento del algoritmo? Este es un enfoque estándar de lo que está tratando de hacer, si está tratando de comparar el rendimiento predictivo entre un conjunto de algoritmos.

EstadísticasEstudiante
fuente
No estoy seguro de por qué esta publicación stats.stackexchange.com/questions/17129/… se fusionó con esta. En realidad, en mi opinión, están haciendo dos preguntas diferentes: hay dos objetivos diferentes.
StatsStudent
1
Tienes razón: son preguntas diferentes. He votado para volver a abrir la otra publicación (aunque no está claro qué efecto podría tener). Pido disculpas por no ver tu comentario: si hubieras marcado esa publicación, ¡habría llamado nuestra atención varios años antes!
whuber