X e Y no están correlacionados, pero X es un predictor significativo de Y en regresión múltiple. Qué significa eso?

34

X e Y no están correlacionados (-.01); sin embargo, cuando coloco X en una regresión múltiple que predice Y, junto con otras tres (A, B, C) otras variables (relacionadas), X y otras dos variables (A, B) son predictores significativos de Y. Tenga en cuenta que las otras dos ( A, B) las variables están significativamente correlacionadas con Y fuera de la regresión.

¿Cómo debo interpretar estos hallazgos? X predice una varianza única en Y, pero como no están correlacionadas (Pearson), de alguna manera es difícil de interpretar.

Sé de casos opuestos (es decir, dos variables están correlacionadas pero la regresión no es significativa) y esas son relativamente más fáciles de entender desde una perspectiva teórica y estadística. Tenga en cuenta que algunos de los predictores están bastante correlacionados (p. Ej., .70) pero no en la medida en que esperaría una multicolinealidad sustancial. Tal vez estoy equivocado, sin embargo.

NOTA: Hice esta pregunta anteriormente y estaba cerrada. Lo racional fue que esta pregunta es redundante con la pregunta " ¿Cómo puede una regresión ser significativa pero todos los predictores no son significativos?". Quizás no entiendo la otra pregunta, pero creo que estas son preguntas completamente separadas, tanto matemática como teóricamente. Mi pregunta es completamente independiente de si" una regresión es significativa ". Además, varios predictores son significativos, mientras que la otra pregunta implica que las variables no son significativas, por lo que no veo la superposición. Si estas preguntas son redundantes por razones que no entiendo, inserte un comentario antes de cerrar esta pregunta. Además, esperaba enviarle un mensaje al moderador que cerró la otra pregunta para evitar preguntas idénticas, pero no pude encontrar una opción para hacerlo.

Behacad
fuente
2
Creo que esto es muy similar a la pregunta anterior. Si X e Y no están esencialmente correlacionados, entonces, en una regresión lineal simple, el coeficiente de pendiente para X no será significativo. Después de todo, la estimación de la pendiente es proporcional a la correlación de la muestra. La regresión múltiple de tuercas puede ser una historia diferente porque X y Z juntos pueden explicar mucha de la variabilidad en Y. Dado que mi respuesta suena similar a las respuestas a la pregunta anterior, tal vez eso indique una clara similitud.
Michael R. Chernick
2
Gracias por su respuesta y respuesta muy detallada en el otro hilo. Tendré que leerlo varias veces para obtener su tesis. Mi otra preocupación, supongo, es cómo interpretarla prácticamente en lugar de tal vez estadística o matemáticamente. Digamos, por ejemplo, que la velocidad de natación y la ansiedad por rasgos no están correlacionadas, pero la ansiedad por rasgos es un predictor significativo de la velocidad de natación en una regresión múltiple junto con otros predictores. ¿Cómo puede tener sentido, prácticamente? ¡Digamos que estaba escribiendo esto en la sección de discusión de una revista clínica!
Behacad
3
@jth Dado que usted mantiene que las dos preguntas son lo suficientemente diferentes como para no ser consideradas duplicadas, no dude en pasar su respuesta a la otra aquí. (Pido disculpas por no haber apreciado originalmente la diferencia.) La nueva nota, creo, es incorrecta al suponer que las preguntas son matemáticamente diferentes - @ Michael Chernick señala que son básicamente las mismas - pero el énfasis en la interpretación establece una razón válida para mantener los hilos separados.
whuber
1
También moví la respuesta aquí. Creo que ambas preguntas son bastante diferentes, pero podrían compartir algunas explicaciones comunes.
JDav
1
Esta página web tiene otra gran discusión de temas relacionados. Es largo, pero muy bueno y puede ayudarlo a comprender los problemas. Recomiendo leerlo por completo.
gung - Restablece a Monica

Respuestas:

39

La teoría causal ofrece otra explicación de cómo dos variables podrían ser incondicionalmente independientes pero condicionalmente dependientes. No soy un experto en teoría causal y estoy agradecido por cualquier crítica que corrija cualquier error a continuación.

Para ilustrar, utilizaré gráficos acíclicos dirigidos (DAG). En estos gráficos, los bordes ( ) entre variables representan relaciones causales directas. Las flecha ( o ) indican la dirección de las relaciones causales. Así, infiere que causa directa de , y deduce que es causada directamente por . es un camino causal que infiere que causa indirectamente aABABABABABCACB. Por simplicidad, suponga que todas las relaciones causales son lineales.

Primero, considere un ejemplo simple de sesgo de confusión :

confundidor

Aquí, un simple regresión bivariable sugerirá una dependencia entre y . Sin embargo, no existe una relación causal directa entre y . En cambio, ambos son causados ​​directamente por , y en la regresión bivariable simple, observar induce una dependencia entre e , lo que resulta en sesgo por confusión. Sin embargo, una regresión multivariable acondicionado en se eliminará el sesgo y sugerir ninguna dependencia entre y .XYXYZZXYZXY

Segundo, considere un ejemplo de sesgo de colisionador (también conocido como sesgo de Berkson o sesgo berksoniano, cuyo sesgo de selección es un tipo especial):

colisionador

Aquí, un simple regresión bivariable sugerirá no dependencia entre y . Esto está de acuerdo con el DAG, que infiere ninguna relación causal directa entre y . Sin embargo, un condicionamiento de regresión multivariable en inducirá una dependencia entre e lo que sugiere que puede existir una relación causal directa entre las dos variables, cuando en realidad no existe ninguna. La inclusión de en la regresión multivariable da como resultado un sesgo de colisión.XYXYZXYZ

Tercero, considere un ejemplo de cancelación incidental:

cancelación

Supongamos que , y son coeficientes de ruta y que . Una regresión bivariable sencilla sugerirá no depenence entre y . Aunque es de hecho una causa directa de la , el efecto de confusión de en y cancela incidentalmente el efecto de en . Un condicionamiento de regresión multivariable en eliminará el efecto de confusión de en eαβγβ=αγXYXYZXYXYZZXY, permitiendo la estimación del efecto directo de sobre , suponiendo que el DAG del modelo causal es correcto.XY

Para resumir:

Factor de confusión ejemplo: y son dependientes en la regresión bivariable e independiente en la regresión multivariable acondicionado en factor de confusión .XYZ

Colisionador ejemplo: y son independientes en regresión bivariable y dependiente en regresssion acondicionado multivariable en colisionador .XYZ

Inicdental ejemplo la cancelación: y son independientes en regresión bivariable y dependiente en regresssion acondicionado multivariable en factor de confusión .XYZ

Discusión:

Los resultados de su análisis no son compatibles con el ejemplo de confusión, pero son compatibles tanto con el ejemplo del colisionador como con el ejemplo de cancelación incidental. Por lo tanto, una explicación potencial es que usted ha acondicionado incorrectamente en una variable colisionador en su regresión multivariable y ha inducido una asociación entre y a pesar de que no es una causa de y no es una causa de . Alternativamente, es posible que haya condicionado correctamente un factor de confusión en su regresión multivariable que estaba cancelando incidentalmente el verdadero efecto de sobre en su regresión bivariable.XYXYYXXY

El uso de los conocimientos previos para construir modelos causales me parece útil al considerar qué variables incluir en los modelos estadísticos. Por ejemplo, si estudios aleatorizados de alta calidad previos concluyeron que causa e causa , podría suponer que es un colisionador de e y no condicionarlo en un modelo estadístico. Sin embargo, si simplemente tuviera la intuición de que causa , y causa , pero no hay evidencia científica sólida que respalde mi intuición, solo podría suponer débilmente queXZYZZXYXZYZZes un colisionador de e , ya que la intuición humana tiene una historia de estar equivocado. Posteriormente, sería escéptico de infering relaciones causales entre e sin más investigaciones de sus relaciones causales con . En lugar de o además del conocimiento previo, también hay algoritmos diseñados para inferir modelos causales a partir de los datos utilizando una serie de pruebas de asociación (por ejemplo, algoritmo de PC y algoritmo de FCI, consulte TETRAD para la implementación de Java, PCalgXYXYZpara la implementación de R). Estos algoritmos son muy interesantes, pero no recomendaría confiar en ellos sin una fuerte comprensión del poder y las limitaciones del cálculo causal y los modelos causales en la teoría causal.

Conclusión:

La contemplación de modelos causales no excusa al investigador de abordar las consideraciones estadísticas discutidas en otras respuestas aquí. Sin embargo, creo que los modelos causales pueden proporcionar un marco útil cuando se piensa en posibles explicaciones para la dependencia e independencia estadística observada en los modelos estadísticos, especialmente al visualizar posibles factores de confusión y colisión.

Otras lecturas:

Gelman, Andrew. 2011. " Causalidad y aprendizaje estadístico ". A.m. J. Sociology 117 (3) (noviembre): 955–966.

Groenlandia, S, J Pearl y JM Robins. 1999. “ Causal Diagrams for Epidemiologic Research ”. Epidemiology (Cambridge, Mass.) 10 (1) (enero): 37–48.

Groenlandia, Sander. 2003. " Cuantificación de sesgos en modelos causales: confusión clásica frente a sesgo de estratificación de colisionadores ". Epidemiología 14 (3) (1 de mayo): 300-306.

Perla, Judea. 1998. Por qué no existe una prueba estadística para la confusión, por qué muchos piensan que sí y por qué están casi en lo cierto .

Perla, Judea. 2009. Causalidad: modelos, razonamiento e inferencia . 2da ed. Prensa de la Universidad de Cambridge.

Spirtes, Peter, Clark Glymour y Richard Scheines. 2001. Causalidad, predicción y búsqueda , segunda edición. Un libro de Bradford.

Actualización: Judea Pearl analiza la teoría de la inferencia causal y la necesidad de incorporar la inferencia causal en los cursos introductorios de estadística en la edición de noviembre de 2012 de Amstat News . También es de interés su Conferencia del Premio Turing , titulada "La mecanización de la inferencia causal: una 'mini' prueba de Turing y más allá".

jthetzel
fuente
Los argumentos causales son ciertamente válidos, pero para que el investigador se suscriba a ese enfoque se requiere un conocimiento muy bueno de los fenómenos subyacentes. Me pregunto si el análisis que realiza @Behacad es solo exploratorio.
JDav
1
@Behacad: Como mencioné en mi respuesta, le sugiero que se olvide del single ya que su problema es multivariante y no bivariado. Para medir la influencia de su variable de interés, necesita controlar otras fuentes de variación que pueden distorsionar la influencia medida de x. ρ
JDav
55
+1 Las ilustraciones y explicaciones son muy claras y bien hechas. Gracias por el esfuerzo y la investigación que (obviamente) se dedicaron a esta respuesta.
whuber
1
Además, ¿podría alguien darme un ejemplo práctico de "Tercero, considerar un ejemplo de cancelación incidental?". La cuestión de la causalidad surge. Si X e Y no están correlacionados (es decir, los cambios en X no están asociados con cambios en Y "), ¿cómo podríamos considerar esta" causa ". ¡Esto es exactamente lo que me pregunto en otra pregunta! Stats.stackexchange.com/questions / 33638 / ...
Behacad
44
Vale la pena señalar que hay algunos nombres alternativos para estos: Confusor -> Modelo de causa común; Collider -> Modelo de efecto común; La cancelación incidental es un caso especial de mediación parcial.
gung - Restablece a Monica
22

Creo que el enfoque de @ jthetzel es el correcto (+1). Para interpretar estos resultados, tendrá que pensar / tener alguna teoría de por qué las relaciones se manifiestan como lo hacen. Es decir, deberá pensar en el patrón de relaciones causales que subyace a sus datos. Debe reconocer que, como señala @jthetzel, sus resultados son consistentes con varios procesos diferentes de generación de datos. No creo que ninguna cantidad de pruebas estadísticas adicionales en el mismo conjunto de datos le permita distinguir entre esas posibilidades (aunque ciertamente podrían hacerlo más experimentos). Así que pensar mucho sobre lo que se sabe sobre el tema es vital aquí.

Quiero señalar otra posible situación subyacente que podría generar resultados como el suyo: la supresión . Esto es más difícil de ilustrar usando los diagramas de flecha, pero si puedo aumentarlos ligeramente, podríamos pensar así:

ingrese la descripción de la imagen aquí

Lo importante de esta situación es que la se compone de dos partes, una parte no relacionada ( ) y una parte relacionada ( ). El no estará correlacionado con , pero puede muy bien ser 'significativo' en un modelo de regresión múltiple. Además, el puede o no estar "significativamente" correlacionado con el o por sí solo. Además, su variable X podría desempeñar el papel de oU R Supresor Y Otra variable Supresor Y Supresor Otra variableOther VariableURSuppressorYOther VariableSuppressorYSuppressorOther Variable en esta situación (y, por lo tanto, de nuevo, debe pensar cuál podría ser el patrón subyacente en función de su conocimiento del área).

No sé si puedes leer el código R, pero aquí hay un ejemplo que elaboré. (Este ejemplo en particular encaja mejor con X jugando el papel de , pero ambos no están correlacionados 'significativamente' con ; debería ser posible obtener la correlación entre y cerca de 0 y hacer coincidir los otros descriptivos con la configuración correcta). Y Otra Variable YSuppressorYOther VariableY

set.seed(888)                            # for reproducibility

S  =         rnorm(60, mean=0, sd=1.0)   # the Suppressor is normally distributed
U  = 1.1*S + rnorm(60, mean=0, sd=0.1)   # U (unrelated) is Suppressor plus error
R  =         rnorm(60, mean=0, sd=1.0)   # related part; normally distributed
OV = U + R                               # the Other Variable is U plus R
Y  = R +     rnorm(60, mean=0, sd=2)     # Y is R plus error

cor.test(S, Y)                           # Suppressor uncorrelated w/ Y
# t = 0.0283, df = 58, p-value = 0.9775
# cor 0.003721616 

cor.test(S, OV)                          # Suppressor correlated w/ Other Variable
# t = 8.655, df = 58, p-value = 4.939e-12
# cor 0.7507423

cor.test(OV,Y)                           # Other Var not significantly cor w/ Y
# t = 1.954, df = 58, p-value = 0.05553
# cor 0.2485251

summary(lm(Y~OV+S))                      # both Suppressor & Other Var sig in mult reg
# Coefficients:
#              Estimate Std. Error t value Pr(>|t|)   
# (Intercept)   0.2752     0.2396   1.148  0.25557   
# OV            0.7232     0.2390   3.026  0.00372 **
# S            -0.7690     0.3415  -2.251  0.02823 * 

Mi punto aquí no es que esta situación es la que subyace a sus datos. No sé si esto es más o menos probable que las opciones que @jthetzel sugiere. Solo ofrezco esto como más alimento para pensar. Para interpretar sus resultados actuales, debe pensar en estas posibilidades y decidir qué tiene más sentido. Para confirmar su elección, se necesitará una experimentación cuidadosa.

gung - Restablece a Monica
fuente
2
¡Excelente! Gracias. Esto sirve como otro buen ejemplo de lo que podría estar sucediendo en mis datos. Parece que solo puedo aceptar una respuesta, aunque ...
Behacad
No hay problema, @Behacad, creo que jthetzel merece la marca de verificación; Estoy feliz de ayudar.
gung - Restablece a Monica
7

Solo una visualización de que es posible.

En la imagen (a) se muestra la situación de regresión "normal" o "intuitiva". Esta foto es la misma que, por ejemplo, encontrada (y explicada) aquí o aquí .

Las variables se dibujan como vectores. Los ángulos entre ellos (sus cosenos) son las correlaciones de las variables. aquí designa la variable de valores pronosticados (más a menudo notados como ). La coordenada oblicua de su borde en un vector predictor (proyección oblicua, paralela al otro predictor) - muesca - es proporcional al coeficiente de regresión de ese predictor.' Y bYY^b

En la imagen (a), las tres variables se correlacionan positivamente, y tanto como también son coeficientes de regresión positivos. y "compiten" en la regresión, siendo los coeficientes de regresión su puntaje en ese concurso.b 2 X 1 X 2b1b2X1X2

ingrese la descripción de la imagen aquí

En la imagen (b) mostrada se muestra una situación en la que el predictor correlaciona positivamente con , aún así su coeficiente de regresión es cero: el punto final de la predicción proyecta en el origen del vector . Tenga en cuenta que este hecho coincide con esa superposición y , lo que significa que los valores pronosticados se correlacionan absolutamente con ese otro predictor. Y Y X 1 Y X 2X1YYX1YX2

En la imagen (c) se encuentra la situación en la que no se correlaciona con (sus vectores son ortogonales), pero el coeficiente de regresión del predictor no es cero: es negativo (la proyección cae detrás del vector ). Y X 1X1YX1

Datos y análisis aproximadamente correspondientes a la imagen (b):

       y       x1       x2
1.644540 1.063845  .351188
1.785204 1.203146  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955  .100612  .858597
 .970097 2.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192  .587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.310708  .396034
1.462036  .057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -.898084 -.838295

ingrese la descripción de la imagen aquí

Datos y análisis aproximadamente correspondientes a la imagen (c):

       y       x1       x2
1.644540 1.063845  .351188
1.785204 -1.20315  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955 -.100612  .858597
 .970097 1.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192 -.587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.810708  .396034
1.462036 -.057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -1.26108 -.838295

ingrese la descripción de la imagen aquí

Observe que en el último ejemplo sirvió como supresor . Su correlación de orden cero con es prácticamente cero, pero su correlación parcial es mucho mayor en magnitud, . Fortaleció hasta cierto punto la fuerza predictiva de (de , una posible beta en regresión simple con ella, a beta en la regresión múltiple). Y - .224 X 2 .419 .538X1Y.224X2.419.538

ttnphns
fuente
¡Gracias! Todavía se siente algo contradictorio, pero al menos tus fotos muestran que es factible :)
JelenaČuklina
5

Estoy de acuerdo con la respuesta anterior, pero espero poder contribuir dando más detalles.

El coeficiente de correlación solo mide la dependencia lineal entre e y no controla el hecho de que otras variables también podrían estar involucradas en la relación. De hecho, el coeficiente de correlación es igual a la parámetro de la pendiente de la siguiente regresión escalado por y desviaciones estándar:Y x yXYxy

Y=a+βx+u

whereρ^yx=β^σ^x/σ^y

Pero, ¿qué sucede si es generado por otras variables? Por lo tanto, el modelo real es algo así como:Y

Y=a+βx+jαjzj+u

Bajo este modelo real, resulta obvio que estimar el primero (solo con x) producirá una estimación sesgada ya que ese modelo está omitiendo los regresores (¡esto implica que también está sesgado!). Por lo tanto, sus resultados están en línea con el hecho de que las variables omitidas son relevantes. Para tratar este problema, la teoría sobre el análisis de correlación proporciona el coeficiente de correlación parcial (estoy seguro de que encontrará referencias al respecto) que básicamente calcula partir de la última ecuación de estimación que controla . z j ρ ρ x y | z z jβzjρρxy|zzj

JDav
fuente
ρρ sesgado significa que su valor no es confiable, podría ser de -1 a 1. Si acepta darle una interpretación, está asumiendo implícitamente que su universo tiene solo 2 variables de interés. Si sospecha que podría haber otros, ¿por qué calcular un bivariado ? por ejemplo, se debe definir un universo antes de comenzar el análisis y el suyo es multivariado (> 2) Desde ese punto de vista, un análisis bivariado adolece de un problema de variables omitidas. ρ
JDav