¿Realmente necesitamos incluir "todos los predictores relevantes"?

15

Una suposición básica del uso de modelos de regresión para la inferencia es que "todos los predictores relevantes" se han incluido en la ecuación de predicción. La razón es que no incluir un factor importante del mundo real conduce a coeficientes sesgados y, por lo tanto, a inferencias inexactas (es decir, sesgo variable omitido).

Pero en la práctica de la investigación, nunca he visto a nadie que incluya algo parecido a "todos los predictores relevantes". Muchos fenómenos tienen una miríada de causas importantes, y sería muy difícil, si no imposible, incluirlos a todos. Un ejemplo inesperado es modelar la depresión como un resultado: nadie ha construido nada parecido a un modelo que incluya "todas las variables relevantes": por ejemplo, historia de los padres, rasgos de personalidad, apoyo social, ingresos, sus interacciones, etc. etc ...

Además, ajustar un modelo tan complejo conduciría a estimaciones altamente inestables a menos que hubiera tamaños de muestra muy grandes.

Mi pregunta es muy simple: ¿el supuesto / consejo de "incluir todos los predictores relevantes" es algo que "decimos" pero que nunca queremos decir? Si no, ¿por qué lo damos como un consejo de modelado real?

¿Y esto significa que la mayoría de los coeficientes son probablemente engañosos? (por ejemplo, un estudio sobre factores de personalidad y depresión que utiliza solo varios predictores). En otras palabras, ¿qué tan grande es este problema para las conclusiones de nuestras ciencias?

ATJ
fuente
66
Una versión de este argumento se extendió en psicología, economía y ciencias sociales a lo largo del siglo XIX. Los científicos argumentaron que los métodos estadísticos no eran aplicables a las personas y los sistemas sociales porque las personas son demasiado variadas y complejas. A finales de ese siglo, la utilidad ganó a la filosofía: incluso cuando no incluimos todos los predictores, aún podemos aprender mucho. Hay sabiduría en la inclusión de "relevante" en la frase del título.
whuber

Respuestas:

18

Tiene razón: rara vez somos realistas al decir "todos los predictores relevantes". En la práctica podemos estar satisfechos con la inclusión de predictores que explican las principales fuentes de variación en . En el caso especial de hacer inferencias sobre un factor de riesgo o tratamiento en un estudio observacional, esto rara vez es lo suficientemente bueno. Para ello, el ajuste de la confusión necesidades de ser altamente agresivos, incluyendo variables que pudieran estar relacionados con el resultado y podrían estar relacionados con la elección del tratamiento o para el factor de riesgo que está intentando dar a conocer.Y

Es interesante que con el modelo lineal normal, las covariables omitidas, especialmente si se trata de covariables ortogonales a incluidas, pueden considerarse como una ampliación del término de error. En los modelos no lineales (logística, Cox, muchos otros), la omisión de variables puede sesgar los efectos de todas las variables incluidas en el modelo (debido a la no colapsabilidad de la razón de probabilidades, por ejemplo).

Frank Harrell
fuente
Gracias por la información útil. Dejando de lado la evaluación de los efectos del tratamiento, me gustaría preguntar más sobre las implicaciones pragmáticas de este problema. Si revisó un artículo y se omitieron predictores claramente importantes, ¿podría ser motivo de rechazo? Pregunto esto porque a.) Nunca he oído hablar de esto y b.) Los científicos sociales a menudo incluyen SOLO los predictores sobre los que desean saber más (es decir, el tema del estudio) y descuidan los factores "ya conocidos" ( basado en la necesidad de una medición más eficiente).
ATJ
Por ejemplo, no es raro ver un modelo de variable latente con solo un solo predictor para una variable endógena. ¿Esto habla de la brecha entre el campo de las estadísticas y su implementación en áreas temáticas reales?
ATJ
66
Probablemente lo hace. Para la pregunta anterior, los motivos para el rechazo incluirían la omisión de variables importantes cuya inclusión habría dado una interpretación diferente de las variables incluidas, o que habría cambiado drásticamente el modelo. Una vez revisé un artículo sobre el riesgo de cáncer de pulmón que solo tenía disponible si un sujeto había fumado o no, y los autores no intentaron evaluar la dosis de tabaquismo (p. Ej., Paquete de años). Recomendé el rechazo directo.
Frank Harrell
9

Sí, debe incluir todas las "variables relevantes", pero debe ser inteligente al respecto. Debes pensar en las formas de construir los experimentos que aislarían el impacto de tu fenómeno de cosas no relacionadas, lo cual es una gran investigación en el mundo real (en oposición a una sala de clase). Antes de entrar en las estadísticas, debe hacer el trabajo pesado en su dominio, no en las estadísticas.

Te animo a que no seas cínico al incluir todas las variables relevantes, porque no solo es un objetivo noble sino también porque a menudo es posible. No decimos esto solo por decirlo. Realmente lo decimos en serio. De hecho, el diseño de experimentos y estudios que pueden incluir todas las variables relevantes es lo que hace que la ciencia sea realmente interesante y diferente de los "experimentos" de placas de caldera mecánicas.

Para motivar mi declaración, te daré un ejemplo de cómo Galileo estudió la aceleración. Aquí está su descripción de un experimento real (de esta página web ):

Se tomó una pieza de moldura o cuartón de madera, de unos 12 codos de largo, medio codo de ancho y tres dedos de grosor; en su borde se cortó un canal de poco más de un dedo de ancho; Después de haber hecho este surco muy recto, liso y pulido, y haberlo forrado con pergamino, también lo más liso y pulido posible, rodamos una bola de bronce dura, lisa y muy redonda. Después de colocar este tablero en una posición inclinada, al levantar un extremo a uno o dos codos por encima del otro, rodamos la pelota, como estaba diciendo, a lo largo del canal, señalando, de una manera que se describirá actualmente, el tiempo requerido para hacer el descenso. Repetimos este experimento más de una vez para medir el tiempo con una precisión tal que la desviación entre dos observaciones nunca excediera la décima parte de un pulso. Habiendo realizado esta operación y asegurándonos de su confiabilidad, ahora rodamos la pelota solo un cuarto de la longitud del canal; y habiendo medido el tiempo de su descenso, lo encontramos precisamente la mitad del primero. Luego probamos otras distancias, comparamos el tiempo para toda la longitud con el de la mitad, o con el de dos tercios, o tres cuartos, o de hecho para cualquier fracción; En tales experimentos, repetidos cientos de veces, siempre encontramos que los espacios recorridos eran el uno al otro como los cuadrados de los tiempos, y esto era cierto para todas las inclinaciones del plano, es decir, del canal, a lo largo del cual rodamos el pelota. También observamos que los tiempos de descenso, para varias inclinaciones del avión, tenían entre sí precisamente esa relación que, como veremos más adelante,

Para la medición del tiempo, empleamos un gran recipiente de agua colocado en una posición elevada; Al fondo de esta embarcación se soldaba una tubería de pequeño diámetro que daba un chorro delgado de agua que recogimos en un vaso pequeño durante el tiempo de cada descenso, ya sea por toda la longitud del canal o por parte de su longitud; El agua así recogida se pesó, después de cada descenso, en un equilibrio muy preciso; Las diferencias y las proporciones de estos pesos nos dieron las diferencias y las proporciones de los tiempos, y esto con tal precisión que, aunque la operación se repitió muchas, muchas veces, no hubo una discrepancia apreciable en los resultados.

re=solt2,
resoltre0 0=1t0 0reyotyore0 0/ /reyot0 02/ /tyo2
re0 0reyo=t0 02tyo2

Presta atención a cómo midió el tiempo. Es tan crudo que me recuerda cómo estos días las ciencias no naturales miden sus variables, piensan en la "satisfacción del cliente" o la "utilidad". Menciona que el error de medición estuvo dentro de la décima parte de una unidad de tiempo, por cierto.

¿Incluyó todas las variables relevantes? Si lo hizo. Ahora, debes entender que todos los cuerpos son atraídos entre sí por la gravedad. Entonces, en teoría, para calcular la fuerza exacta sobre la pelota, debes agregar todos los cuerpos del universo a la ecuación. Además, lo más importante es que no incluyó la resistencia de la superficie, la resistencia del aire, el momento angular, etc. ¿Impactaron todos estos en sus mediciones? Si. Sin embargo, no eran relevantes para lo que estaba estudiando porque pudo reducir o eliminar su impacto al aislar el impacto de la propiedad que estaba estudiando.

t2

Aksakal
fuente
¿Qué tiene de crudo su método de medir el tiempo? La configuración tendrá una velocidad específica a la cual el agua saldrá del recipiente grande y entrará en la taza; suponiendo que el recipiente contenga una gran cantidad de agua, esa tasa cambiará mínimamente. Más importante aún, seguirá siendo consistente en todos los experimentos. En realidad, es un método muy elegante dado que en ese momento no tenían cronómetros ni temporizadores automáticos elegantes.
JAB
@JAB, es crudo solo en comparación con el cronómetro o las formas modernas de medir el tiempo, por supuesto. Tiene toda la razón en que es muy elegante dado el estado del arte de la medición del tiempo en los días de Galileo. Sin embargo, el punto que estaba señalando era que incluso una precisión aparentemente tan baja (1/10 de un intervalo) todavía era suficiente para observar la relación entre el tiempo y la distancia
Aksakal
@JAB, uno de mis ejemplos favoritos de métodos de medición ridículos en física es cómo Cherenkov descubrió su radiación . Se sentaba en una habitación oscura hasta que sus ojos se ajustaban a la oscuridad, luego abría o cerraba el agujero con la luz proveniente de él hasta que la luz desaparece. Él estaría registrando cuánto de un agujero estaba abierto para detectar el nivel de radiación. ¡Aparentemente, el ojo humano puede detectar la diferencia de luz medida en un puñado de fotones! El papel tiene 3 páginas de largo.
Aksakal
6

Para que los supuestos del modelo de regresión se mantengan perfectamente, se deben incluir todos los predictores relevantes. Pero ninguno de los supuestos en ningún análisis estadístico es perfecto y gran parte de la práctica estadística se basa en "Cerrar lo suficiente".

Con el diseño de experimentos y la aleatorización adecuada, el efecto de los términos no incluidos en los modelos a menudo se puede ignorar (se supone igual por la posibilidad de aleatorización). Pero, la regresión generalmente se usa cuando la aleatorización completa no es posible para tener en cuenta todas las variables posibles no incluidas en el modelo, por lo que su pregunta se vuelve importante.

Es probable que a casi todos los modelos de regresión que se ajusten les falten algunos predictores potenciales, pero "No lo sé" sin ninguna aclaración adicional no permitiría que los estadísticos en funcionamiento sigan trabajando, por lo que hacemos nuestro mejor esfuerzo y luego tratamos de determinar cuánta diferencia entre los supuestos y la realidad afectará nuestros resultados. En algunos casos, la diferencia con los supuestos hace muy poca diferencia y no nos preocupamos mucho por la diferencia, pero en otros casos puede ser muy grave.

Una opción cuando sabe que puede haber predictores que no se incluyeron en el modelo que serían relevantes es hacer un análisis de sensibilidad. Esto mide cuánto sesgo sería posible en función de las posibles relaciones con las variables no medidas. Este papel:

Lin, DY y Psaty, BM y Kronmal, RA. (1998): Evaluación de la sensibilidad de los resultados de regresión a factores de confusión no medidos en estudios observacionales. Biometrics, 54 (3), septiembre, págs. 948-963.

da algunas herramientas (y ejemplos) de un análisis de sensibilidad.

Greg Snow
fuente