Inferencia en modelo lineal con heterocedasticidad condicional

9

Supongamos que observo vectores variables independientes y y la variable dependiente . Me gustaría ajustar un modelo de la forma: donde es una función dos veces diferenciable de valor positivo, \ sigma es un parámetro de escala desconocido y \ epsilon es una variable aleatoria gaussiana de media unidad y varianza unitaria (se supone que es independiente de \ vec {x} y \ vec {z} ). Esto es esencialmente la configuración de la prueba de heterocedasticidad de Koenker (al menos hasta donde yo entiendo).z yy=xβ 1 +σg(zβ 2 )ϵ,gσϵx zxzy

y=xβ1+σg(zβ2)ϵ,
gσϵxz

Tengo n de observaciones de x,z e y , y me gustaría estimar β1 y β2 . Sin embargo, tengo algunos problemas:

  1. No estoy seguro de cómo plantear el problema de estimación como algo así como mínimos cuadrados (supongo que hay un truco bien conocido). Mi primera suposición sería algo como
    minβ1,β2(i=1n(yixiβ1)2g(ziβ2)2)(i=1n1g(ziβ2)2)1,
    pero yo No estoy seguro de cómo resolver eso numéricamente (quizás un método iterativo cuasi-Newton podría hacer).
  2. Suponiendo que pueda plantear el problema de una manera sensata y encontrar algunas estimaciones β^1,β^2 , me gustaría conocer la distribución de las estimaciones para que, por ejemplo , pueda realizar pruebas de hipótesis. Estaría bien con probar los dos vectores de coeficientes por separado, pero preferiría alguna forma de probar, por ejemplo , H0:w1β1+w2β2c para w1,w2,c .
shabbychef
fuente
Buena pregunta. ¿Tienes una idea de cómo se ve ? es suave? tiene saltos? En lugar del mínimo cuadrado, ¿ha probado la máxima probabilidad (¿conoce este documento projecteuclid.org/… ?)g
robin girard
@robin girard: MLE es una buena idea para la pregunta 1. Sospecho que para los errores gaussianos, MLE dará estimaciones idénticas a mi minimización ad hoc . En cuanto a , como señalé, podemos suponer que tiene un valor positivo y dos veces diferenciable. Probablemente podamos suponer que también es convexo, y tal vez podamos suponer que es analítico. g
shabbychef

Respuestas:

5

En un contexto ligeramente más general con un vector -dimensional de -Observaciones (las respuestas, o variables dependientes), un matriz de -Observaciones (covariables o variables dependientes) y los parámetros tales como entonces la probabilidad de registro negativo es En la pregunta del OP, es diagonal con YnyXn×pxθ=(β1,β2,σ)YN(Xβ1,Σ(β2,σ))Σ(β2,σ)Σ(β

l(β1,β2,σ)=12(YXβ1)TΣ(β2,σ)1(YXβ1)+12log|Σ(β2,σ)|
Σ(β2,σ)
Σ(β2,σ)ii=σ2g(ziTβ2)2
por lo que el determinante se convierte en y la probabilidad de registro negativa resultante se convierte en Hay varias formas de abordar la minimización de esta función (suponiendo que los tres parámetros son independientes de la variación).σ2ni=1ng(ziTβ2)2
12σ2i=1n(yixiTβ1)2g(ziTβ2)2+nlogσ+i=1nlogg(ziTβ2)
  • Puede intentar minimizar la función mediante un algoritmo de optimización estándar que recuerde la restricción que .σ>0
  • Puede calcular el perfil menos la probabilidad de registro de minimizando over para fijo , y luego conecte la función resultante a un algoritmo de optimización estándar sin restricciones.(β1,β2)σ(β1,β2)
  • Puede alternar entre la optimización de cada uno de los tres parámetros por separado. La optimización sobre se puede hacer analíticamente, la optimización sobre es un problema de regresión de mínimos cuadrados ponderados, y la optimización sobre es equivalente a ajustar un modelo lineal generalizado gamma con el enlace inverso.β 1 β 2 g 2σβ1β2g2

La última sugerencia me atrae porque se basa en soluciones que ya conozco bien. Además, la primera iteración es algo que consideraría hacer de todos modos. Es decir, primero calcule una estimación inicial de por mínimos cuadrados ordinarios, ignorando la posible heterocedasticidad, y luego ajuste una gamma glm a los residuos cuadrados para obtener una estimación inicial de solo para verificar si el modelo más complicado parece valioso. Las iteraciones que incorporan la heterocedasticidad en la solución de mínimos cuadrados como pesos podrían mejorar la estimación.β 2 -β1β2

Con respecto a la segunda parte de la pregunta, probablemente consideraría calcular un intervalo de confianza para la combinación lineal utilizando asintóticos MLE estándar (comprobando con simulaciones que funcionan los asintóticos) o mediante bootstrapping.w1Tβ1+w2Tβ2

Editar: Por asintóticos MLE estándar me refiero a usar la aproximación normal multivariada a la distribución del MLE con la matriz de covarianza de la información inversa de Fisher. La información de Fisher es, por definición, la matriz de covarianza del gradiente de . Depende en general de los parámetros. Si puede encontrar una expresión analítica para esta cantidad, intente conectar el MLE. Como alternativa, puede estimar la información de Fisher por la información de Fisher observada , que es la arpillera de en el MLE. Su parámetro de interés es una combinación lineal de los parámetros en los dosl β ( y i , x i , z i )llβ-vectores, por lo tanto, a partir de la aproximación normal multivariada de la MLE puede encontrar una aproximación normal de la distribución de estimadores como se describe aquí . Esto le proporciona un error estándar aproximado y puede calcular intervalos de confianza. Está bien descrito en muchos libros de estadística (matemática), pero una presentación razonablemente accesible que puedo recomendar es In All Likelihood de Yudi Pawitan. De todos modos, la derivación formal de la teoría asintótica es bastante complicada y se basa en una serie de condiciones de regularidad, y solo proporciona una asintótica válida.distribuciones Por lo tanto, en caso de duda, siempre haría algunas simulaciones con un nuevo modelo para verificar si puedo confiar en los resultados para parámetros realistas y tamaños de muestra. El arranque simple, no paramétrico, en el que se muestras de los triples del conjunto de datos observado con reemplazo, puede ser una alternativa útil si el procedimiento de ajuste no consume demasiado tiempo.(yi,xi,zi)

NRH
fuente
¿ Cuáles son las asintóticas MLE estándar?
shabbychef
@ Shabbychef, ya era tarde. He dado una explicación más detallada. Tenga en cuenta que para que los asintóticos funcionen en teoría como se explicó, el modelo debe ser correcto y el estimador debe ser el MLE. Se pueden obtener resultados más generales en el marco de funciones de estimación generales y ecuaciones de estimación, véase, por ejemplo, el libro Cuasi-verosimilitud y ... de Heyde.
NRH