Tengo una pregunta filosófica con respecto al sesgo variable omitido.
Tenemos el modelo de regresión típico (modelo de población) donde provienen las muestras , y luego un montón de condiciones por las cuales las estimaciones de OLS se comportan bastante bien.
Entonces sabemos que, si omitimos una de las principales variables, , esto podría sesgar las estimaciones de . Esto afectaría, al menos, el efecto estimado del resto de las variables en , y también las pruebas de hipótesis sobre , ya que los valores pronosticados no son confiables.
La cuestión es que no sabemos qué variables están en el modelo de población real. En cambio, tenemos un grupo de candidatos de los que debemos analizar y encontrar el subconjunto más apropiado. Este proceso de selección de variables utiliza estimaciones OLS y pruebas de hipótesis nuevamente. En base a eso, rechazamos o incluimos diferentes variables. Pero dado que cada modelo candidato omite variables relevantes (nunca podrá encontrar el modelo verdadero), ¿estas decisiones no se basarían en resultados sesgados? ¿Por qué entonces, debemos confiar en ellos?
(Estoy pensando en el método paso a paso hacia adelante, por ejemplo, donde eliges una variable y luego agregas el resto. Comparas los modelos haciendo inferencia, y estoy pensando que las variables omitidas pueden estar perturbando todo).
Nunca me preocupé demasiado por este tema hasta que comencé a pensarlo, y estoy seguro de que estoy equivocado en alguna parte.
fuente
samples from (Y,X1,....Xn) and then a bunch of conditions by which the OLS estimations behave quite well.
es que realmente lo que quisiste decir o se cortó parte de tu oración. También tiene un error ortográfico en el título de la pregunta.Respuestas:
El problema principal aquí es la naturaleza del sesgo variable omitido . Wikipedia dice:
Es importante tener en cuenta cuidadosamente el segundo criterio. Sus betas solo estarán sesgadas bajo ciertas circunstancias. Específicamente, si hay dos variables que contribuyen a la respuesta que están correlacionadas entre sí, pero solo incluye una de ellas, entonces (en esencia) los efectos de ambas se atribuirán a la variable incluida, causando sesgo en la estimación de ese parámetro Entonces, tal vez solo algunas de sus versiones beta estén sesgadas, no necesariamente todas.
Otra posibilidad inquietante es que si su muestra no es representativa de la población (que rara vez lo es realmente), y omite una variable relevante, incluso si no está correlacionada con las otras variables, esto podría causar un desplazamiento vertical que sesga su estimación de la interceptar. Por ejemplo, imagine una variable, , aumenta el nivel de la respuesta, y que su muestra se extrae de la mitad superior de la distribución , pero no está incluida en su modelo. Luego, su estimación de la respuesta media de la población (y la intercepción) tendrá un sesgo alto a pesar del hecho de que no está correlacionado con las otras variables. Además, existe la posibilidad de que haya una interacción entreZ Z Z Z Z y variables en su modelo. Esto también puede causar un sesgo sin que esté correlacionado con sus variables (discuto esta idea en mi respuesta aquí ). Z
Ahora, dado que en su estado de equilibrio, todo está correlacionado en última instancia con todo en el mundo, podríamos encontrar todo esto muy preocupante. De hecho, cuando se realiza una investigación observacional, es mejor asumir siempre que cada variable es endógena .
Sin embargo, hay límites para esto (cf. Desigualdad de Cornfield ). Primero, realizar experimentos verdaderos rompe la correlación entre una variable focal (el tratamiento) y cualquier otra variable explicativa relevante pero no observada. Existen algunas técnicas estadísticas que pueden usarse con datos de observación para dar cuenta de tales confusiones no observadas (prototípicamente: regresión de variables instrumentales , pero también otras).
Dejando a un lado estas posibilidades (probablemente representan una minoría de enfoques de modelado), ¿cuál es la perspectiva a largo plazo para la ciencia? Esto depende de la magnitud del sesgo y del volumen de investigación exploratoria que se realiza. Incluso si los números están algo apagados, a menudo pueden estar en el vecindario, y lo suficientemente cerca como para descubrir relaciones. Luego, a la larga, los investigadores pueden aclarar qué variables son relevantes. De hecho, los modeladores a veces intercambian explícitamente un mayor sesgo por una menor variación en las distribuciones de muestreo de sus parámetros (cf, mi respuesta aquí ). A corto plazo, vale la pena recordar siempre la famosa cita de Box:
Aquí también hay una pregunta filosófica potencialmente más profunda: ¿qué significa que la estimación está sesgada? ¿Cuál se supone que es la respuesta "correcta"? Si reúne algunos datos de observación sobre la asociación entre dos variables (llámelasX Y Y ), lo que está obteniendo es, en última instancia, la correlación marginal entre esas dos variables. Este es solo el número 'incorrecto' si cree que está haciendo otra cosa y está obteniendo la asociación directa. Del mismo modo, en un estudio para desarrollar un modelo predictivo, lo que le interesa es si, en el futuro, podrá adivinar con precisión el valor de un desconocidoY de un conocido X . Si puedes, no importa si eso es (en parte) porqueX está correlacionado con Z que está contribuyendo al valor resultante de Y . Querías poder predecirY , y tu puedes.
fuente