Una suposición básica del uso de modelos de regresión para la inferencia es que "todos los predictores relevantes" se han incluido en la ecuación de predicción. La razón es que no incluir un factor importante del mundo real conduce a coeficientes sesgados y, por lo tanto, a inferencias inexactas (es decir, sesgo variable omitido).
Pero en la práctica de la investigación, nunca he visto a nadie que incluya algo parecido a "todos los predictores relevantes". Muchos fenómenos tienen una miríada de causas importantes, y sería muy difícil, si no imposible, incluirlos a todos. Un ejemplo inesperado es modelar la depresión como un resultado: nadie ha construido nada parecido a un modelo que incluya "todas las variables relevantes": por ejemplo, historia de los padres, rasgos de personalidad, apoyo social, ingresos, sus interacciones, etc. etc ...
Además, ajustar un modelo tan complejo conduciría a estimaciones altamente inestables a menos que hubiera tamaños de muestra muy grandes.
Mi pregunta es muy simple: ¿el supuesto / consejo de "incluir todos los predictores relevantes" es algo que "decimos" pero que nunca queremos decir? Si no, ¿por qué lo damos como un consejo de modelado real?
¿Y esto significa que la mayoría de los coeficientes son probablemente engañosos? (por ejemplo, un estudio sobre factores de personalidad y depresión que utiliza solo varios predictores). En otras palabras, ¿qué tan grande es este problema para las conclusiones de nuestras ciencias?
Respuestas:
Tiene razón: rara vez somos realistas al decir "todos los predictores relevantes". En la práctica podemos estar satisfechos con la inclusión de predictores que explican las principales fuentes de variación en . En el caso especial de hacer inferencias sobre un factor de riesgo o tratamiento en un estudio observacional, esto rara vez es lo suficientemente bueno. Para ello, el ajuste de la confusión necesidades de ser altamente agresivos, incluyendo variables que pudieran estar relacionados con el resultado y podrían estar relacionados con la elección del tratamiento o para el factor de riesgo que está intentando dar a conocer.Y
Es interesante que con el modelo lineal normal, las covariables omitidas, especialmente si se trata de covariables ortogonales a incluidas, pueden considerarse como una ampliación del término de error. En los modelos no lineales (logística, Cox, muchos otros), la omisión de variables puede sesgar los efectos de todas las variables incluidas en el modelo (debido a la no colapsabilidad de la razón de probabilidades, por ejemplo).
fuente
Sí, debe incluir todas las "variables relevantes", pero debe ser inteligente al respecto. Debes pensar en las formas de construir los experimentos que aislarían el impacto de tu fenómeno de cosas no relacionadas, lo cual es una gran investigación en el mundo real (en oposición a una sala de clase). Antes de entrar en las estadísticas, debe hacer el trabajo pesado en su dominio, no en las estadísticas.
Te animo a que no seas cínico al incluir todas las variables relevantes, porque no solo es un objetivo noble sino también porque a menudo es posible. No decimos esto solo por decirlo. Realmente lo decimos en serio. De hecho, el diseño de experimentos y estudios que pueden incluir todas las variables relevantes es lo que hace que la ciencia sea realmente interesante y diferente de los "experimentos" de placas de caldera mecánicas.
Para motivar mi declaración, te daré un ejemplo de cómo Galileo estudió la aceleración. Aquí está su descripción de un experimento real (de esta página web ):
Presta atención a cómo midió el tiempo. Es tan crudo que me recuerda cómo estos días las ciencias no naturales miden sus variables, piensan en la "satisfacción del cliente" o la "utilidad". Menciona que el error de medición estuvo dentro de la décima parte de una unidad de tiempo, por cierto.
¿Incluyó todas las variables relevantes? Si lo hizo. Ahora, debes entender que todos los cuerpos son atraídos entre sí por la gravedad. Entonces, en teoría, para calcular la fuerza exacta sobre la pelota, debes agregar todos los cuerpos del universo a la ecuación. Además, lo más importante es que no incluyó la resistencia de la superficie, la resistencia del aire, el momento angular, etc. ¿Impactaron todos estos en sus mediciones? Si. Sin embargo, no eran relevantes para lo que estaba estudiando porque pudo reducir o eliminar su impacto al aislar el impacto de la propiedad que estaba estudiando.
fuente
Para que los supuestos del modelo de regresión se mantengan perfectamente, se deben incluir todos los predictores relevantes. Pero ninguno de los supuestos en ningún análisis estadístico es perfecto y gran parte de la práctica estadística se basa en "Cerrar lo suficiente".
Con el diseño de experimentos y la aleatorización adecuada, el efecto de los términos no incluidos en los modelos a menudo se puede ignorar (se supone igual por la posibilidad de aleatorización). Pero, la regresión generalmente se usa cuando la aleatorización completa no es posible para tener en cuenta todas las variables posibles no incluidas en el modelo, por lo que su pregunta se vuelve importante.
Es probable que a casi todos los modelos de regresión que se ajusten les falten algunos predictores potenciales, pero "No lo sé" sin ninguna aclaración adicional no permitiría que los estadísticos en funcionamiento sigan trabajando, por lo que hacemos nuestro mejor esfuerzo y luego tratamos de determinar cuánta diferencia entre los supuestos y la realidad afectará nuestros resultados. En algunos casos, la diferencia con los supuestos hace muy poca diferencia y no nos preocupamos mucho por la diferencia, pero en otros casos puede ser muy grave.
Una opción cuando sabe que puede haber predictores que no se incluyeron en el modelo que serían relevantes es hacer un análisis de sensibilidad. Esto mide cuánto sesgo sería posible en función de las posibles relaciones con las variables no medidas. Este papel:
da algunas herramientas (y ejemplos) de un análisis de sensibilidad.
fuente