Los supuestos de los mínimos cuadrados

9

Suponga la siguiente relación lineal: Yyo=β0 0+β1Xyo+tuyo , donde Yyo es la variable dependiente, Xyo una variable independiente y tuyo el término de error.

Según Stock & Watson (Introducción a la Econometría; Capítulo 4 ), el tercer supuesto de mínimos cuadrados es que los cuartos momentos de Xyo y tuyo son distintos de cero y finitos (0 0<mi(Xyo4 4)< y 0 0<mi(tuyo4 4)<) .

Tengo tres preguntas:

  1. No entiendo completamente el papel de esta suposición. ¿Es parcial e inconsistente OLS si esta suposición no se cumple o necesitamos esta suposición para inferencia?

  2. Stock y Watson escriben "esta suposición limita la probabilidad de hacer una observación con valores extremadamente grandes de Xyo o tuyo ". Sin embargo, mi intuición es que esta suposición es extrema. ¿Estamos en problemas si tenemos grandes valores atípicos (de modo que los cuartos momentos son grandes) pero si estos valores siguen siendo finitos? Por cierto: ¿Cuál es la definición subyacente de un valor atípico?

  3. ¿Podemos reformular esto de la siguiente manera: "La curtosis de Xyo y tuyo son distintas de cero y finitas?"

soltero
fuente
Desafortunadamente, no puedo escribir una respuesta completa ahora, pero para responder a su pregunta: 1, la consistencia de OLS funciona independientemente. 2, no existe una definición clara de valores atípicos, pero OLS funciona bien en muestras grandes en presencia de valores atípicos. 3, por mi vida no puedo pensar en un ejemplo en el que eso no sea cierto, pero alguien podría probar que estoy equivocado, así que no hay garantías
Repmat
55
Discuto "pero OLS funciona bien en una muestra grande en presencia de valores atípicos" ... tome un valor atípico lo suficientemente grande en el espacio x (es decir, una observación influyente) y un solo punto puede obligar al LS a pasar por él; si también es un valor atípico en la dirección Y, su línea seguirá yendo a través de ese punto, sin importar cuán extrema sea.
Glen_b -Reinstale a Monica el
2
Los valores atípicos son fáciles de definir. Son observaciones inconsistentes con el patrón de la mayor parte de los datos. Como muestra el ejemplo de Glen_b, dicho punto tiene una influencia indebida en el ajuste, en el límite que supera todas las demás observaciones en el conjunto de datos, lo que lleva a estimaciones altamente sesgadas.
user603
1
@ user603 Claro ... y qué ... todavía tengo que encontrar un programa / script que detecte automáticamente los valores atípicos y lo haga de manera clara de que todos estemos de acuerdo en que es la forma correcta ... así que, si bien estoy de acuerdo con su opinión, no ayuda OP
Repmat
@Repmat: vuelva a leer la pregunta del OP. Mi comentario responde directamente una de las oraciones allí que está marcada por un signo de interrogación.
user603

Respuestas:

9

Usted no necesita supuestos en la 4ª momentos para la consistencia del estimador MCO, pero lo hace suposiciones necesita en los momentos más altos de y ε de normalidad asintótica y estimar consistentemente lo que la matriz de covarianza asintótica es.Xϵ

Sin embargo, en cierto sentido, ese es un punto matemático, técnico, no práctico. Para que OLS funcione bien en muestras finitas, en cierto sentido requiere más que los supuestos mínimos necesarios para lograr la consistencia o normalidad asintótica como .norte

Condiciones suficientes para la consistencia:

Si tiene una ecuación de regresión:

yyo=Xyoβ+ϵyo

El OLS estimador de b se puede escribir como: b = β + ( X ' Xsi^

si^=β+(XXnorte)-1(Xϵnorte)

Para mantener la coherencia , debe poder aplicar la Ley de grandes números de Kolmogorov o, en el caso de series temporales con dependencia en serie, algo así como el Teorema ergódico de Karlin y Taylor para que:

1norteXXpagmi[XyoXyo]1norteXϵpagmi[Xyoϵyo]

Otros supuestos necesarios son:

  • es rango completo y, por lo tanto, la matriz es invertible.mi[XyoXyo]
  • Los regresores están predeterminados o son estrictamente exógenos para que .mi[Xyoϵyo]=0 0

Entonces y se obtiene b pß(XXnorte)-1(Xϵnorte)pag0 0si^pagβ

Si desea que se aplique el teorema del límite central, entonces necesita suposiciones en los momentos superiores, por ejemplo, donde g i = x i ϵ i . El teorema del límite central es lo que le da la normalidad asintótica de b y le permite hablar acerca de los errores estándar. Para que exista el segundo momento E [ g i g i ] , necesita los 4tos momentos de x y ϵ para existir. Quieres argumentar que mi[solyosolyo]solyo=Xyoϵyosi^mi[solyosolyo]XϵdondeΣ=E[xixi ϵ 2 i ]. Para que esto funcione,Σtiene que ser finito.norte(1norteyoXyoϵyo)renorte(0 0,Σ)Σ=mi[XyoXyoϵyo2]Σ

Una buena discusión (que motivó esta publicación) se da en la Econometría de Hayashi . (Ver también p. 149 para los 4tos momentos y estimar la matriz de covarianza.)

Discusión:

Estos requisitos en los 4tos momentos es probablemente un punto técnico más que práctico. ¿Probablemente no va a encontrar distribuciones patológicas donde esto sea un problema en los datos cotidianos? Es para que los supuestos más comunes u otros OLS salgan mal.

Una pregunta diferente, sin duda respondida en otro lugar en Stackexchange, es qué tan grande de una muestra necesita para que las muestras finitas se acerquen a los resultados asintóticos. En cierto sentido, los valores atípicos fantásticos conducen a una convergencia lenta. Por ejemplo, intente estimar la media de una distribución lognormal con una varianza realmente alta. La media de la muestra es un estimador consistente e imparcial de la media de la población, pero en ese caso logarítmico normal con una curtosis excesiva excesiva, etc.

Finito vs. infinito es una distinción enormemente importante en matemáticas. Ese no es el problema que encuentras en las estadísticas diarias. Los problemas prácticos están más en la categoría pequeña vs. grande. ¿La varianza, curtosis, etc. es lo suficientemente pequeña como para que pueda lograr estimaciones razonables dado el tamaño de mi muestra?

Ejemplo patológico donde el estimador de MCO es consistente pero no asintóticamente normal

Considerar:

Donde x iN ( 0 , 1 ) pero ϵ i se extrae de una distribución t con 2 grados de libertad, entonces V a r ( ϵ i ) = . Los OLS estiman converge en probabilidad a B pero la distribución de la muestra para los OLS estiman b no se distribuye normalmente. A continuación se muestra la distribución empírica para b

yyo=siXyo+ϵyo
Xyonorte(0 0,1)ϵyoVunar(ϵyo)=sisi^si^ basado en 10000 simulaciones de una regresión con 10000 observaciones. QQPlot para estimador (no converge en distribución a normal)

La distribución de b no es normal, las colas son demasiado pesados. Pero si aumenta los grados de libertad a 3 para que exista el segundo momento de ϵ i , entonces se aplica el límite central y obtiene: si^ϵyoQQPlot para estimador (converge en distribución a normal)

Código para generarlo:

beta = [-4; 3.7];
n = 1e5;    
n_sim = 10000;    
for s=1:n_sim
    X = [ones(n, 1), randn(n, 1)];  
    u  = trnd(2,n,1) / 100;
    y = X * beta + u;

    b(:,s) = X \ y;
end
b = b';
qqplot(b(:,2));
Matthew Gunn
fuente
1
t(3)
1
norte(1norteyoXyoϵyo)renorte(0 0,Σ)Σ=mi[XyoXyoϵyo2]ΣΣϵyoϵyo2XyoXyo
6
  1. X

  2. Estos fundamentos teóricos de las estadísticas causan mucha confusión cuando se reducen a aplicaciones prácticas. No existe una definición de valor atípico, es un concepto intuitivo. Para entenderlo más o menos, la observación tendría que ser un alto punto de apalancamiento o un alto punto de influencia, por ejemplo, uno para el que el diagnóstico de eliminación (DF beta) es muy grande, o para el cual la distancia de Mahalanobis en los predictores es grande (en estadísticas univariadas eso es solo un puntaje Z). Pero volvamos a los asuntos prácticos: si llevo a cabo una encuesta aleatoria de las personas y los ingresos de su hogar, y de cada 100 personas, 1 de las personas que tomo como muestra es millonaria, mi mejor conjetura es que los millonarios son representativos del 1% de la población . En una conferencia de bioestadística, estos principios se discuten y enfatizan que cualquier herramienta de diagnóstico es esencialmente exploratoria [3].no "el análisis que excluye el valor atípico es el que creo", es "eliminar un punto cambió por completo mi análisis".

  3. La curtosis es una cantidad escalada que depende del segundo momento de una distribución, pero la suposición de una varianza finita no distinta de estos valores es tácita, ya que es imposible que esta propiedad se mantenga en el cuarto momento pero no en el segundo. Básicamente sí, pero en general nunca he inspeccionado ni la curtosis ni los cuartos momentos. No creo que sean una medida práctica o intuitiva. En este día, cuando se produce un histograma o diagrama de dispersión con el chasquido de los dedos, nos corresponde usar estadísticas de diagnóstico gráficas cualitativas, al inspeccionar estos gráficos.

[1] /math/79773/how-does-one-prove-that-lindeberg-condition-is-satisfied

[2] http://projecteuclid.org/download/pdf_1/euclid.ss/1177013818

[3] http://faculty.washington.edu/semerson/b517_2012/b517L03-2012-10-03/b517L03-2012-10-03.html

AdamO
fuente
Como se ha señalado anteriormente, la intuición sobre los valores atípicos se rompe cuando hay más de uno. No necesariamente se destacarán en una trama beta de DF o tendrán grandes puntuaciones z porque estas estadísticas pueden ser influidas por valores atípicos. Como discutimos antes, los valores atípicos , si no se controlan, producirán coeficientes sesgados a menos que los elimine o use una técnica de estimación sólida para ellos.
user603
1
Creo que, en términos más generales, al expresar opiniones, sus respuestas ganarían al incluir punteros a la literatura relevante para que el OP sepa cuál de estas opiniones es ampliamente aceptada.
user603
@ user603 Para su primer comentario, no he señalado a DFbetas (o cualquier herramienta de diagnóstico) como un método exclusivo para identificar valores atípicos, pero ciertamente es útil. Cuando se realizan valores atípicos de inferencia semiparamétrica (corrección del modelo medio) NO sesgan los modelos LS, ¿puede producir una referencia o incluso un ejemplo en cualquier caso que no sea LS no paramétrico? Su segundo comentario es bueno, y me tomaré los siguientes momentos para proporcionar citas.
AdamO
Su afirmación, "OLS no está sesgada en estas condiciones, es simplemente inconsistente" no es correcta. Los momentos más altos son necesarios para la normalidad asintótica. No son necesarios para la consistencia en las muestras de IID donde se aplica la Ley de Kolmogorov de números grandes.
Matthew Gunn el