Supongo que me siento frustrado cada vez que escucho a alguien decir que la no normalidad de los residuos y / o la heterocedasticidad viola los supuestos de OLS. Para estimar los parámetros en un modelo OLS, ninguno de estos supuestos es necesario según el teorema de Gauss-Markov. Veo cómo esto importa en las Pruebas de hipótesis para el modelo OLS, porque suponiendo que estas cosas nos dan fórmulas claras para pruebas t, pruebas F y estadísticas más generales de Wald.
Pero no es demasiado difícil hacer pruebas de hipótesis sin ellas. Si eliminamos solo la homocedasticidad, podemos calcular fácilmente errores estándar robustos y errores estándar agrupados. Si abandonamos la normalidad por completo, podemos usar bootstrapping y, dada otra especificación paramétrica para los términos de error, la razón de probabilidad y las pruebas de multiplicador de Lagrange.
Es una pena que lo enseñemos de esta manera, porque veo a muchas personas luchando con suposiciones que no tienen que conocer en primer lugar.
¿Por qué enfatizamos tanto estos supuestos cuando tenemos la capacidad de aplicar fácilmente técnicas más robustas? ¿Me estoy perdiendo algo importante?
fuente
Respuestas:
En Econometría, diríamos que la no normalidad viola las condiciones del Modelo de regresión lineal normal clásico, mientras que la heterocedasticidad viola tanto los supuestos del CNLR como el Modelo de regresión lineal clásica.
Pero aquellos que dicen "... viola OLS" también están justificados: el nombre de Mínimos Cuadrados Ordinarios proviene de Gauss directamente y esencialmente se refiere a errores normales . En otras palabras, "OLS" no es un acrónimo para la estimación de mínimos cuadrados (que es un principio y enfoque mucho más general), sino del CNLR.
Ok, esto fue historia, terminología y semántica. Entiendo el núcleo de la pregunta del OP de la siguiente manera: "¿Por qué deberíamos enfatizar el ideal, si hemos encontrado soluciones para el caso cuando no está presente?" (Debido a que las suposiciones CNLR son ideales, en el sentido de que proporcionan excelentes propiedades de estimador de mínimos cuadrados "disponibles en el mercado", y sin la necesidad de recurrir a resultados asintóticos. Recuerde también que OLS es la máxima probabilidad cuando los errores son normales )
Como ideal, es un buen lugar para comenzar a enseñar . Esto es lo que siempre hacemos al enseñar cualquier tipo de tema: las situaciones "simples" son situaciones "ideales", libres de las complejidades que uno realmente encontrará en la vida real y la investigación real, y para las cuales no existen soluciones definitivas .
Y esto es lo que me parece problemático acerca de la publicación del OP: escribe sobre errores estándar robustos y bootstrap como si fueran "alternativas superiores", o soluciones infalibles a la falta de dichos supuestos en discusión para los cuales, además, el OP escribe
¿Por qué? Debido a que hay algunos métodos para lidiar con la situación, ¿métodos que tienen cierta validez, por supuesto, pero están lejos de ser ideales? Los errores estándar robustos de bootstrap y heteroscedasticidad no son las soluciones: si lo fueran, se habrían convertido en el paradigma dominante, enviando el CLR y el CNLR a los libros de historia. Pero no lo son.
Entonces, partimos del conjunto de supuestos que garantizan las propiedades del estimador que hemos considerado importantes (es otra discusión si las propiedades designadas como deseables son realmente las que deberían ser), de modo que mantengamos visible que cualquier violación de ellas tiene consecuencias que no pueden ser completamente compensadas a través de los métodos que hemos encontrado para lidiar con la ausencia de estos supuestos. Sería realmente peligroso, científicamente hablando, transmitir la sensación de que "podemos adelantarnos hacia la verdad del asunto", porque, simplemente, no podemos.
Por lo tanto, siguen siendo soluciones imperfectas a un problema , no una forma alternativa y / o definitivamente superior de hacer las cosas. Por lo tanto, primero tenemos que enseñar la situación libre de problemas, luego señalar los posibles problemas y luego discutir posibles soluciones. De lo contrario, elevaríamos estas soluciones a un estado que realmente no tienen.
fuente
Si tuvimos tiempo en la clase donde primero presentamos modelos de regresión para hablar sobre bootstrapping y las otras técnicas que mencionó (incluidas todas sus suposiciones, trampas, etc.), entonces estaría de acuerdo con usted en que no es necesario hablar sobre normalidad y supuestos de homocedasticidad. Pero, en verdad, cuando se introduce la regresión por primera vez, no tenemos tiempo para hablar sobre todas esas otras cosas, por lo que preferimos que los estudiantes sean conservadores y verifiquen las cosas que pueden no ser necesarias y consulten a un estadístico (o tomen otras estadísticas clase o 2 o 3, ...) cuando los supuestos no se cumplen.
Si les dice a los estudiantes que esas suposiciones no importan, excepto cuándo ..., entonces la mayoría solo recordará la parte no importa y no la parte importante.
Si tenemos un caso con variaciones desiguales, entonces sí, todavía podemos ajustar una línea de mínimos cuadrados, pero ¿sigue siendo la línea "mejor"? o sería mejor consultar a alguien con más experiencia / capacitación sobre cómo ajustar las líneas en ese caso. Incluso si estamos contentos con la línea de mínimos cuadrados, ¿no deberíamos reconocer que las predicciones tendrán diferentes propiedades para diferentes valores de los predictores? Por lo tanto, verificar las variaciones desiguales es bueno para interpretaciones posteriores, incluso si no lo necesitamos para las pruebas / intervalos / etc. que estamos usando
fuente
1) rara vez la gente solo quiere estimar. Por lo general, la inferencia (IC, PI, pruebas) es el objetivo, o al menos parte de él (incluso si a veces se hace de manera relativamente informal)
2) Cosas como el teorema de Gauss Markov no son necesariamente de mucha ayuda: si la distribución está lo suficientemente lejos de lo normal, un estimador lineal no es de mucha utilidad. No tiene sentido obtener el AZUL si no hay un estimador lineal muy bueno.
3) cosas como los estimadores sándwich involucran una gran cantidad de parámetros implícitos. Todavía puede estar bien si tiene muchos datos, pero muchas veces las personas no.
4) Los intervalos de predicción dependen de la forma de la distribución condicional, lo que incluye tener un buen control de la varianza en la observación: no es tan fácil agitar los detalles con un IP.
5) cosas como bootstrapping a menudo son útiles para muestras muy grandes. A veces luchan en muestras pequeñas, e incluso en muestras de tamaño moderado, con frecuencia encontramos que las propiedades de cobertura reales no se parecen a las publicitadas.
Es decir: pocas cosas son el tipo de panacea que a la gente le gustaría que fueran. Todas esas cosas tienen su lugar, y ciertamente hay muchos casos en los que (por ejemplo) no se requiere normalidad , y donde la estimación y la inferencia (pruebas e IC) se pueden hacer razonablemente sin necesariamente la necesidad de normalidad, variación constante, etc.
Una cosa que a menudo parece olvidarse son otros supuestos paramétricos que podrían hacerse en su lugar. A menudo, las personas saben lo suficiente sobre una situación como para hacer una suposición paramétrica bastante decente (por ejemplo, decir ... que la respuesta condicional tenderá a estar sesgada con SD bastante proporcional a la media podría llevarnos a considerar decir un modelo gamma o lognormal); a menudo esto puede tratar tanto la heterocedasticidad como la no normalidad de una vez.
Una herramienta muy útil es la simulación, con la que podemos examinar las propiedades de nuestras herramientas en situaciones muy parecidas a las que parece que nuestros datos pueden haber surgido, y así usarlos con el conocimiento reconfortante de que tienen buenas propiedades en esos casos ( o, a veces, ver que no funcionan tan bien como podríamos esperar).
fuente