En primer lugar, me doy cuenta de que la regresión múltiple no ofrece realmente inferencias "causales" sobre los datos. Déjame explicarte mi caso actual:
Tengo cuatro variables independientes que espero (pero no estoy seguro) están involucradas en la conducción de lo que estoy midiendo. Quería usar la regresión múltiple para ver cuánto contribuyen cada una de estas variables a mi variable dependiente, y lo hice. Supuestamente, la variable "Número cuatro" está influyendo en mi medida de resultado muy fuertemente (peso beta cercano a 0.7).
Sin embargo, me han dicho que esto no es suficiente, porque algunas de mis variables "independientes" de hecho pueden estar correlacionadas entre sí. En ese caso, podría pensar que la "Variable cuatro" está impulsando mi variable dependiente, cuando realmente tres y cuatro podrían estar contribuyendo por igual. Esto parece correcto, pero como soy nuevo en esto, no estoy seguro.
¿Cómo puedo evitar sistemáticamente este problema en el futuro? ¿Qué procedimientos específicos recomendaría al usar la regresión múltiple para asegurarse de que sus datos "independientes" no contengan correlaciones ocultas?
Editar: Los datos en sí son una serie de modelos de red (gráfico) de un estado neurológico particular. Mido el "coeficiente de agrupación" que describe la topología de cada red como un todo (variable dependiente aquí), y luego veo si las conectividades individuales de cuatro nodos en la red más grande de 100+ están impulsando los valores de agrupación global (cuatro independientes variables). Sin embargo, estos nodos son parte de una red, por lo que, por definición, es posible que estén correlacionados en cierta medida.
Respuestas:
No puede "evitar sistemáticamente este problema en el futuro", porque no debería llamarse un "problema". Si la realidad del mundo material presenta fuertes covariables, entonces deberíamos aceptarlo como un hecho y ajustar nuestras teorías y modelos en consecuencia. Me gusta mucho la pregunta, y espero que lo que sigue no suene demasiado decepcionante.
Aquí hay algunos ajustes que podrían funcionar para usted. Deberá revisar un manual de regresión antes de continuar.
Diagnostique el problema utilizando técnicas de correlación o de estimación posterior como el Factor de inflación de varianza (VIF). Use las herramientas mencionadas por Peter Flom si está usando SAS o R. En Stata, use
pwcorr
para construir una matriz de correlación,gr matrix
para construir una matriz de diagrama de dispersión yvif
para detectar niveles de tolerancia problemáticos de 1 / VIF <0.1.Mida el efecto de interacción agregando, por ejemplo,
var3*var4
al modelo. El coeficiente lo ayudará a darse cuenta de cuánto está en juego entrevar3
yvar4
. Esto solo lo llevará a medir parcialmente la interacción, pero no rescatará a su modelo de sus limitaciones.Lo más importante, si detecta una fuerte multicolinealidad u otros problemas como la heterocedasticidad, debe deshacerse de su modelo y comenzar de nuevo. La especificación errónea del modelo es la plaga del análisis de regresión (y los métodos frecuentistas en general). Paul Schrodt tiene varios documentos excelentes sobre el tema, incluidos sus recientes " Siete pecados capitales " que me gustan mucho.
Esto responde a su punto sobre la multicolinealidad, y mucho de esto se puede aprender del manual de regresión en UCLA Stat Computing. No responde a su pregunta sobre causalidad. En pocas palabras, la regresión nunca es causal. Tampoco lo es ningún modelo estadístico: la información causal y estadística son especies separadas. Lea selectivamente de Judea Pearl ( ejemplo ) para obtener más información al respecto.
Con todo, esta respuesta no cancela el valor del análisis de regresión, ni siquiera de las estadísticas frecuentistas (enseño ambas cosas). Sin embargo, reduce su alcance de adecuación y también subraya el papel crucial de su teoría explicativa inicial, que realmente determina la posibilidad de que su modelo posea propiedades causales.
fuente
Si desea ver si las variables independientes están correlacionadas, eso es fácil: solo pruebe las correlaciones, por ejemplo, con PROC CORR en SAS, o cor en R, o lo que sea en el paquete que utilice.
Sin embargo, es posible que desee probar la colinealidad en su lugar, o además.
Pero eso es solo una parte del problema de la causalidad. Más problemático es que está involucrada alguna variable que NO está en sus datos. Ejemplos clásicos:
Los estudiantes que contratan tutores obtienen peores calificaciones que los estudiantes que no contratan tutores.
La cantidad de daño causado por un incendio está muy relacionada con la cantidad de bomberos que aparecen.
y (mi favorito)
Si regresa el cociente intelectual sobre el signo astrológico y la edad entre los niños de 5 a 12 años, existe una interacción significativa y un efecto significativo del signo sobre el cociente intelectual, pero solo en niños pequeños.
Motivos: 1. Sí. Porque los estudiantes que obtienen buenas calificaciones tienden a no contratar tutores en primer lugar
Sí, porque los incendios más grandes hacen más daño y traen más bomberos
La cantidad de escuela (en meses) que ha tenido un niño depende del mes de nacimiento. Los sistemas escolares tienen límites de edad. Entonces, un niño de 6 años puede haber tenido 11 meses más de escolaridad que otro de 6 años.
¡Y todo eso sin entrar en filosofía!
fuente
La relación entre causalidad y asociación está básicamente en responder a la siguiente pregunta:
¿Qué más, además de la relación causal hipotética, podría haber causado que e se relacionen entre sí?YX Y
Mientras la respuesta a esta pregunta no sea "nada", entonces solo se puede hablar definitivamente sobre la asociación. Siempre puede existir que una relación "causal" propuesta sea en realidad un caso especial de la relación causal "correcta"; creo que esto es lo que sucedió entre la teoría de la gravedad de Newton y Einstein. La relación causal de Newton fue un caso especial de la teoría de Einstein. Y su teoría probablemente será un caso especial de alguna otra teoría.
Además, cualquier error en sus datos elimina cualquier posibilidad de una relación causal definida. Esto se debe a que la frase "A causa B" es algo así como un vínculo deductivo entre A y B. Todo lo que tiene que hacer para refutar esta hipótesis es encontrar 1 caso en el que B no esté presente pero A esté presente (porque entonces A es verdadero , pero esto debería significar que B también es cierto, pero observamos que B es falso).
En un entorno de regresión, es mucho más constructivo pensar en la predicción que en interpretar los coeficientes cuando se observa la causalidad. Entonces, si realmente tiene una buena razón para pensar que la variable cuatro es la "causa principal" de la variable (su variable dependiente), entonces debería poder predecir con casi certeza usando la variable cuatro. Si no puede hacer esto, entonces no es apropiado concluir que la variable cuatro causas . Pero si puede hacer esta predicción casi con certeza utilizando las cuatro variables, entonces esto indica que combinaciones particulares están "causando"S S SY Y Y Y . Y cada vez que proponga una relación causal, es casi seguro que tendrá que "probarla" reproduciendo sus resultados con datos nuevos: deberá poder predecir qué datos se verán y estar en lo cierto al respecto.
También necesita algún tipo de teoría física sobre el "mecanismo causal" (cuando presiono ese botón, la luz se enciende, cuando presiono este botón, la luz cambia de color, etc.). Si todo lo que tiene es que el "coeficiente de regresión fue 0.7", esto hace poco para establecer un mecanismo causal que esté funcionando.
fuente
No estoy seguro de en qué campo está su trabajo, por lo que esto puede o no ser de ayuda, pero estoy más familiarizado con el uso de SPSS con construcciones psicológicas. En mi experiencia, si tengo algunas variables que predicen una variable de resultado (o variable dependiente) en una regresión, y tengo una o más variables independientes que se muestran como predictores significativos, el siguiente paso es ver cuáles son más importantes que otros. Una forma de abordar esto es con regresión jerárquica. Básicamente, esto responde a la pregunta "Si ya tengo 'variable cuatro' para predecir mi variable de resultado, ¿alguna de las otras variables proporciona un aumento estadísticamente significativo en el poder predictivo?" SPSS tiene una forma bastante clara de analizar esto, como estoy seguro de que R y SAS también lo hacen. Entonces, Creo que la regresión jerárquica podría ser su próximo paso para descubrir si la 'variable cuatro' realmente es su mejor apuesta para predecir su factor de resultado. Los otros que respondieron han brindado una buena discusión sobre los problemas en la correlación-causalidad, así que lo dejaré solo ... ¡Buena suerte!
fuente