El coeficiente de correlación de Pearson de xey es el mismo, ya sea que calcule pearson (x, y) o pearson (y, x). Esto sugiere que hacer una regresión lineal de y dado x o x dado y debería ser lo mismo, pero no creo que ese sea el caso.
¿Alguien puede arrojar luz cuando la relación no es simétrica y cómo se relaciona con el coeficiente de correlación de Pearson (que siempre pienso que resume la mejor línea de ajuste)?
regression
correlation
linear-model
pearson-r
usuario9097
fuente
fuente
Respuestas:
La mejor manera de pensar en esto es imaginar un diagrama de puntos de dispersión con en el eje vertical yx representada por el eje horizontal. Dado este marco, verá una nube de puntos, que puede ser vagamente circular, o puede alargarse en una elipse. Lo que intenta hacer en la regresión es encontrar lo que podría llamarse la "línea de mejor ajuste". Sin embargo, si bien esto parece sencillo, tenemos que descubrir qué entendemos por "mejor", y eso significa que debemos definir qué sería para una línea ser buena, o para que una línea sea mejor que otra, etc. Específicamente , debemos estipular una función de pérdiday X . Una función de pérdida nos da una manera de decir cuán "malo" es algo y, por lo tanto, cuando minimizamos eso, hacemos que nuestra línea sea lo más "buena" posible, o encontramos la línea "mejor".
Tradicionalmente, cuando realizamos un análisis de regresión, encontramos estimaciones de la pendiente e intercepción para minimizar la suma de los errores al cuadrado . Estos se definen como sigue:
En términos de nuestro diagrama de dispersión, esto significa que estamos minimizando las distancias verticales (suma del cuadrado) entre los puntos de datos observados y la línea.
Por otro lado, es perfectamente razonable hacer retroceder sobre y , pero en ese caso, pondríamos x en el eje vertical, y así sucesivamente. Si mantenemos nuestra gráfica tal como está (con x en el eje horizontal), retroceder x sobre y (nuevamente, usando una versión ligeramente adaptada de la ecuación anterior con x e y conmutadas) significa que estaríamos minimizando la suma de las distancias horizontalesx y x x x y x y entre los puntos de datos observados y la línea. Esto suena muy similar, pero no es exactamente lo mismo. (La forma de reconocer esto es hacerlo en ambos sentidos, y luego convertir algebraicamente un conjunto de estimaciones de parámetros en los términos del otro. Comparando el primer modelo con la versión reorganizada del segundo modelo, es fácil ver que son no es el mísmo.)
Tenga en cuenta que de ninguna manera produciría la misma línea que trazaríamos intuitivamente si alguien nos entregara un trozo de papel cuadriculado con puntos trazados en él. En ese caso, dibujaríamos una línea recta a través del centro, pero al minimizar la distancia vertical se obtiene una línea que es ligeramente más plana (es decir, con una pendiente menos profunda), mientras que al minimizar la distancia horizontal se obtiene una línea que es ligeramente más empinada .
Una correlación es simétrica; está tan correlacionado con y como y está con x . Sin embargo, la correlación producto-momento de Pearson puede entenderse dentro de un contexto de regresión. El coeficiente de correlación, r , es la pendiente de la línea de regresión cuando ambas variables se han estandarizado primero. Es decir, primero restaste la media de cada observación y luego dividiste las diferencias por la desviación estándar. La nube de puntos de datos ahora estará centrada en el origen, y la pendiente sería la misma si retrocediera y en x , o x en yx y y x r y x x y (pero tenga en cuenta el comentario de @DilipSarwate a continuación).
Ahora, ¿por qué importa esto? Usando nuestra función de pérdida tradicional, estamos diciendo que todo el error está en solo una de las variables (a saber, ). Es decir, estamos diciendo que x se mide sin error y constituye el conjunto de valores que nos interesan, pero que y tiene un error de muestreoy x y . Esto es muy diferente de decir lo contrario. Esto fue importante en un episodio histórico interesante: a fines de los años 70 y principios de los 80 en los EE. UU., Se hizo el caso de que había discriminación contra las mujeres en el lugar de trabajo, y esto fue respaldado con análisis de regresión que mostraban que las mujeres con los mismos antecedentes (p. Ej. , calificaciones, experiencia, etc.) se pagaron, en promedio, menos que los hombres. Los críticos (o simplemente las personas que fueron muy minuciosas) razonaron que si esto fuera cierto, las mujeres a las que se les pagaba por igual con los hombres tendrían que estar más calificadas, pero cuando se verificó esto, se descubrió que, aunque los resultados fueron "significativos" cuando evaluados de una manera, no fueron 'significativos' cuando se verificaron de la otra manera, lo que hizo que todos los involucrados se pusieran nerviosos. Ver aquí para un famoso artículo que trató de aclarar el problema.
(Actualizado mucho más tarde) Aquí hay otra forma de pensar sobre esto que aborda el tema a través de las fórmulas en lugar de visualmente:
La fórmula para la pendiente de una línea de regresión simple es una consecuencia de la función de pérdida que se ha adoptado. Si está utilizando la función estándar de pérdida de mínimos cuadrados ordinarios (mencionada anteriormente), puede derivar la fórmula para la pendiente que ve en cada libro de texto de introducción. Esta fórmula se puede presentar en varias formas; una de las cuales llamo la fórmula 'intuitiva' para la pendiente. Considere esta forma, tanto para la situación en la que está en regresión en x , y en el que están retrocediendo x en y : y en x ⏞ ß 1 = Cov ( x , y )y x x y
Ahora, espero que sea obvio que no serían lo mismo a menos queVar(x) seaigual aVar(y). Si las variacionessoniguales (p. Ej., Porque estandarizó las variables primero), también lo son las desviaciones estándar y, por lo tanto, las variaciones también serían iguales aSD(x)SD(y). En este caso,β1sería igual de Pearsonr, que es la misma de cualquier manera, en virtuddel principio de conmutatividad:
correlacionar
fuente
Voy a ilustrar la respuesta con algo de
R
código y salida.Primero, construimos una distribución normal aleatoria
y
, con una media de 5 y una DE de 1:A continuación, creo a propósito una segunda distribución normal aleatoria
x
, que es simplemente 5 veces el valor dey
cada unoy
:Por diseño, tenemos una correlación perfecta de
x
yy
:Sin embargo, cuando hacemos una regresión, estamos buscando una función que se relacione
x
y,y
por lo tanto, los resultados de los coeficientes de regresión dependen de cuál usamos como variable dependiente y cuál usamos como variable independiente. En este caso, no encajamos una intersección porque hicimosx
una función dey
sin variación aleatoria:Entonces las regresiones nos dicen eso
y=0.2x
y aquellox=5y
, que por supuesto son equivalentes. El coeficiente de correlación simplemente nos muestra que hay una coincidencia exacta en los niveles de cambio de unidad entrex
yy
, de modo que (por ejemplo) un aumento de 1 unidady
siempre produce un aumento de 0.2 unidadesx
.fuente
La idea de que, dado que la correlación de Pearson es la misma si hacemos una regresión de x contra y, o y contra x es buena, deberíamos obtener la misma regresión lineal es buena. Es solo un poco incorrecto, y podemos usarlo para comprender lo que realmente está ocurriendo.
Esta es la ecuación para una línea, que es lo que estamos tratando de obtener de nuestra regresión.
La ecuación para la pendiente de esa línea está impulsada por la correlación de Pearson
Esta es la ecuación para la correlación de Pearson. Es lo mismo si retrocedemos x contra y o y contra x
Sin embargo, cuando miramos hacia atrás en nuestra segunda ecuación para pendiente, vemos que la correlación de Pearson no es el único término en esa ecuación. Si estamos calculando y contra x, también tenemos la desviación estándar de muestra de y dividida por la desviación estándar de muestra de x. Si tuviéramos que calcular la regresión de x contra y tendríamos que invertir esos dos términos.
fuente
En preguntas como esta, es fácil quedar atrapado en los problemas técnicos, por lo que me gustaría centrarme específicamente en la pregunta en el título del hilo que pregunta: ¿Cuál es la diferencia entre la regresión lineal en y con x y x con y ?
Estoy seguro de que puede pensar en más ejemplos como este (fuera del ámbito de la economía también), pero como puede ver, la interpretación del modelo puede cambiar de manera bastante significativa cuando cambiamos de retroceder y en x a x en y.
Entonces, para responder a la pregunta: ¿Cuál es la diferencia entre la regresión lineal en y con x y x con y? , podemos decir que la interpretación de la ecuación de regresión cambia cuando regresamos x en y en lugar de y en x. No debemos pasar por alto este punto porque un modelo que tiene una interpretación sólida puede convertirse rápidamente en uno que tenga poco o ningún sentido.
fuente
Hay un fenómeno muy interesante sobre este tema. Después de intercambiar x e y, aunque el coeficiente de regresión cambia, pero el estadístico t / estadístico F y el nivel de significación para el coeficiente no cambian. Esto también es cierto incluso en regresión múltiple, donde intercambiamos y con una de las variables independientes.
Se debe a una delicada relación entre el estadístico F y el coeficiente de correlación (parcial). Esa relación realmente toca el núcleo de la teoría del modelo lineal. Hay más detalles sobre esta conclusión en mi cuaderno: ¿Por qué intercambiar y y x no tiene ningún efecto sobre p?
fuente
Ampliando la excelente respuesta de @gung:
fuente
También es importante tener en cuenta que dos problemas de aspecto diferente pueden tener la misma solución.
fuente
Bueno, es cierto que para una regresión bivariada simple, el coeficiente de correlación lineal y el cuadrado R serán los mismos para ambas ecuaciones. Pero las pendientes serán r Sy / Sx o r Sx / Sy, que no son recíprocas entre sí, a menos que r = 1.
fuente
La idea básica de regresión puede ser la 'causa y efecto' o 'independiente y dependiente'. La práctica normal de colocar una variable independiente en el eje X y una variable dependiente en el eje Y, está representada por Y = mX + c. Si la pendiente se llamará como m (X en Y) o (Y en X) y la regresión como: (X en Y) o (Y en X). Se maneja en ambos sentidos, lo que no es bueno y debe aclararse. Los modeladores usan con frecuencia Gráficos de dispersión para juzgar si la Serie simulada coincide con la Serie observada; y el uso de la línea de regresión es inevitable. Aquí no hay una cláusula causal. Siguiendo esta necesidad, la pregunta muda planteada por el hilo se mantiene. O simplemente, aclare cómo llamar al análisis de regresión normal: X en Y; o Y en X ?, yendo más allá de la respuesta causal. No es una respuesta al hilo principal; pero una pregunta paralela
fuente