¿Qué debo tener en cuenta al usar la regresión múltiple para encontrar relaciones "causales" en mis datos?

8

En primer lugar, me doy cuenta de que la regresión múltiple no ofrece realmente inferencias "causales" sobre los datos. Déjame explicarte mi caso actual:

Tengo cuatro variables independientes que espero (pero no estoy seguro) están involucradas en la conducción de lo que estoy midiendo. Quería usar la regresión múltiple para ver cuánto contribuyen cada una de estas variables a mi variable dependiente, y lo hice. Supuestamente, la variable "Número cuatro" está influyendo en mi medida de resultado muy fuertemente (peso beta cercano a 0.7).

Sin embargo, me han dicho que esto no es suficiente, porque algunas de mis variables "independientes" de hecho pueden estar correlacionadas entre sí. En ese caso, podría pensar que la "Variable cuatro" está impulsando mi variable dependiente, cuando realmente tres y cuatro podrían estar contribuyendo por igual. Esto parece correcto, pero como soy nuevo en esto, no estoy seguro.

¿Cómo puedo evitar sistemáticamente este problema en el futuro? ¿Qué procedimientos específicos recomendaría al usar la regresión múltiple para asegurarse de que sus datos "independientes" no contengan correlaciones ocultas?

Editar: Los datos en sí son una serie de modelos de red (gráfico) de un estado neurológico particular. Mido el "coeficiente de agrupación" que describe la topología de cada red como un todo (variable dependiente aquí), y luego veo si las conectividades individuales de cuatro nodos en la red más grande de 100+ están impulsando los valores de agrupación global (cuatro independientes variables). Sin embargo, estos nodos son parte de una red, por lo que, por definición, es posible que estén correlacionados en cierta medida.

rd108
fuente
3
Lo que hace que una correlación sea causal es un tema polémico en filosofía de la ciencia. El "estándar de oro" es realizar un experimento donde la variable de tratamiento se asigna al azar, asegurando así que otras covariables potencialmente confusas no estén sistemáticamente relacionadas con el tratamiento. Sin embargo, en muchos campos y para muchas preguntas, los experimentos son imposibles. Algunos recurren a los llamados experimentos naturales para la exogeneidad. Quizás te interese el clásico artículo de Paul Holland, "Estadísticas e inferencia causal". Revista de la Asociación Americana de Estadística, 81, 945-970.
Jason Morgan
1
Estás haciendo preguntas muy importantes, pero es dudoso que alguien pueda darte una serie definitiva de pasos a seguir o una buena receta condensada; dominar este tema es una propuesta a largo plazo. Sugerencias adicionales sobre términos y temas para estudiar: variables supresoras; estimaciones de tolerancia y varianza de inflación; correlaciones de orden cero, parcial y semipartial (parte); métodos de selección variable; validación cruzada.
rolando2
Si nos dijera el propósito de este modelado, podría obtener sugerencias aún más útiles. La regresión múltiple trata bastante bien con variables independientes correlacionadas, siempre que no estén muy correlacionadas, lo que resulta en multicolinealidad. Como otros han dicho, evaluar la causalidad es difícil (pero no imposible) fuera de un experimento aleatorio. Vea algunos de estos enlaces: delicious.com/MichaelBishop/causality para obtener más información sobre ese tema.
Michael Bishop
Los datos en sí mismos son una serie de modelos de red (gráfico) de un estado neurológico particular. Mido el "coeficiente de agrupación" que describe la topología de cada red como un todo (variable dependiente aquí), y luego veo si las conectividades individuales de cuatro nodos en la red más grande de 100+ están impulsando los valores de agrupación global (cuatro independientes variables). Sin embargo, estos nodos son parte de una red, por lo que, por definición, es posible que estén correlacionados en cierta medida.
rd108

Respuestas:

5

No puede "evitar sistemáticamente este problema en el futuro", porque no debería llamarse un "problema". Si la realidad del mundo material presenta fuertes covariables, entonces deberíamos aceptarlo como un hecho y ajustar nuestras teorías y modelos en consecuencia. Me gusta mucho la pregunta, y espero que lo que sigue no suene demasiado decepcionante.

Aquí hay algunos ajustes que podrían funcionar para usted. Deberá revisar un manual de regresión antes de continuar.

  • Diagnostique el problema utilizando técnicas de correlación o de estimación posterior como el Factor de inflación de varianza (VIF). Use las herramientas mencionadas por Peter Flom si está usando SAS o R. En Stata, use pwcorrpara construir una matriz de correlación, gr matrixpara construir una matriz de diagrama de dispersión y vifpara detectar niveles de tolerancia problemáticos de 1 / VIF <0.1.

  • Mida el efecto de interacción agregando, por ejemplo, var3*var4al modelo. El coeficiente lo ayudará a darse cuenta de cuánto está en juego entre var3y var4. Esto solo lo llevará a medir parcialmente la interacción, pero no rescatará a su modelo de sus limitaciones.

  • Lo más importante, si detecta una fuerte multicolinealidad u otros problemas como la heterocedasticidad, debe deshacerse de su modelo y comenzar de nuevo. La especificación errónea del modelo es la plaga del análisis de regresión (y los métodos frecuentistas en general). Paul Schrodt tiene varios documentos excelentes sobre el tema, incluidos sus recientes " Siete pecados capitales " que me gustan mucho.

Esto responde a su punto sobre la multicolinealidad, y mucho de esto se puede aprender del manual de regresión en UCLA Stat Computing. No responde a su pregunta sobre causalidad. En pocas palabras, la regresión nunca es causal. Tampoco lo es ningún modelo estadístico: la información causal y estadística son especies separadas. Lea selectivamente de Judea Pearl ( ejemplo ) para obtener más información al respecto.

Con todo, esta respuesta no cancela el valor del análisis de regresión, ni siquiera de las estadísticas frecuentistas (enseño ambas cosas). Sin embargo, reduce su alcance de adecuación y también subraya el papel crucial de su teoría explicativa inicial, que realmente determina la posibilidad de que su modelo posea propiedades causales.

El p.
fuente
+1 para los enlaces al manual, que mencionan la colinealidad y la FIV, y las soluciones específicas e incluso las implementaciones en R. Tengo curiosidad por escuchar su opinión sobre si los datos en sí no son adecuados para el análisis de regresión. Edité la pregunta anterior para reflejar que estas son medidas de una red.
rd108
Perdón por la respuesta tardía, pero desafortunadamente sé muy poco sobre el tema para responder que estás usando la técnica correcta. Supongo que SNA contiene otras herramientas que ayudarán (por ejemplo, modelar diferentes medidas de centralidad cuando suprime cualquier combinación de sus cuatro nodos).
p.
5

Si desea ver si las variables independientes están correlacionadas, eso es fácil: solo pruebe las correlaciones, por ejemplo, con PROC CORR en SAS, o cor en R, o lo que sea en el paquete que utilice.

Sin embargo, es posible que desee probar la colinealidad en su lugar, o además.

Pero eso es solo una parte del problema de la causalidad. Más problemático es que está involucrada alguna variable que NO está en sus datos. Ejemplos clásicos:

Los estudiantes que contratan tutores obtienen peores calificaciones que los estudiantes que no contratan tutores.

La cantidad de daño causado por un incendio está muy relacionada con la cantidad de bomberos que aparecen.

y (mi favorito)

Si regresa el cociente intelectual sobre el signo astrológico y la edad entre los niños de 5 a 12 años, existe una interacción significativa y un efecto significativo del signo sobre el cociente intelectual, pero solo en niños pequeños.


Motivos: 1. Sí. Porque los estudiantes que obtienen buenas calificaciones tienden a no contratar tutores en primer lugar

  1. Sí, porque los incendios más grandes hacen más daño y traen más bomberos

  2. La cantidad de escuela (en meses) que ha tenido un niño depende del mes de nacimiento. Los sistemas escolares tienen límites de edad. Entonces, un niño de 6 años puede haber tenido 11 meses más de escolaridad que otro de 6 años.

¡Y todo eso sin entrar en filosofía!

Peter Flom
fuente
2

La relación entre causalidad y asociación está básicamente en responder a la siguiente pregunta:

¿Qué más, además de la relación causal hipotética, podría haber causado que e se relacionen entre sí?YXY

Mientras la respuesta a esta pregunta no sea "nada", entonces solo se puede hablar definitivamente sobre la asociación. Siempre puede existir que una relación "causal" propuesta sea en realidad un caso especial de la relación causal "correcta"; creo que esto es lo que sucedió entre la teoría de la gravedad de Newton y Einstein. La relación causal de Newton fue un caso especial de la teoría de Einstein. Y su teoría probablemente será un caso especial de alguna otra teoría.

Además, cualquier error en sus datos elimina cualquier posibilidad de una relación causal definida. Esto se debe a que la frase "A causa B" es algo así como un vínculo deductivo entre A y B. Todo lo que tiene que hacer para refutar esta hipótesis es encontrar 1 caso en el que B no esté presente pero A esté presente (porque entonces A es verdadero , pero esto debería significar que B también es cierto, pero observamos que B es falso).

En un entorno de regresión, es mucho más constructivo pensar en la predicción que en interpretar los coeficientes cuando se observa la causalidad. Entonces, si realmente tiene una buena razón para pensar que la variable cuatro es la "causa principal" de la variable (su variable dependiente), entonces debería poder predecir con casi certeza usando la variable cuatro. Si no puede hacer esto, entonces no es apropiado concluir que la variable cuatro causas . Pero si puede hacer esta predicción casi con certeza utilizando las cuatro variables, entonces esto indica que combinaciones particulares están "causando"S S SYYYY. Y cada vez que proponga una relación causal, es casi seguro que tendrá que "probarla" reproduciendo sus resultados con datos nuevos: deberá poder predecir qué datos se verán y estar en lo cierto al respecto.

También necesita algún tipo de teoría física sobre el "mecanismo causal" (cuando presiono ese botón, la luz se enciende, cuando presiono este botón, la luz cambia de color, etc.). Si todo lo que tiene es que el "coeficiente de regresión fue 0.7", esto hace poco para establecer un mecanismo causal que esté funcionando.

probabilidadislogica
fuente
1

No estoy seguro de en qué campo está su trabajo, por lo que esto puede o no ser de ayuda, pero estoy más familiarizado con el uso de SPSS con construcciones psicológicas. En mi experiencia, si tengo algunas variables que predicen una variable de resultado (o variable dependiente) en una regresión, y tengo una o más variables independientes que se muestran como predictores significativos, el siguiente paso es ver cuáles son más importantes que otros. Una forma de abordar esto es con regresión jerárquica. Básicamente, esto responde a la pregunta "Si ya tengo 'variable cuatro' para predecir mi variable de resultado, ¿alguna de las otras variables proporciona un aumento estadísticamente significativo en el poder predictivo?" SPSS tiene una forma bastante clara de analizar esto, como estoy seguro de que R y SAS también lo hacen. Entonces, Creo que la regresión jerárquica podría ser su próximo paso para descubrir si la 'variable cuatro' realmente es su mejor apuesta para predecir su factor de resultado. Los otros que respondieron han brindado una buena discusión sobre los problemas en la correlación-causalidad, así que lo dejaré solo ... ¡Buena suerte!

Travis
fuente