¿Por qué la prueba de 1938 de Wilks no funciona para modelos mal especificados?

23

En el famoso artículo de 1938 (" La distribución de la muestra grande de la razón de probabilidad para probar hipótesis compuestas ", Annals of Mathematical Statistics, 9: 60-62), Samuel Wilks derivó la distribución asintótica de 2×LLR (relación de probabilidad logarítmica ) para hipótesis anidadas, bajo el supuesto de que la hipótesis más grande se especifica correctamente. La distribución limitante es (chi-cuadrado) con grados de libertad, donde es el número de parámetros en la hipótesis más grandeχ2hmhmes el número de parámetros libres en la hipótesis anidada. Sin embargo, supuestamente se sabe que este resultado no se cumple cuando las hipótesis están mal especificadas (es decir, cuando la hipótesis más grande no es la verdadera distribución de los datos muestreados).

¿Alguien puede explicar por qué? Me parece que la prueba de Wilks aún debería funcionar con modificaciones menores. Se basa en la normalidad asintótica de la estimación de máxima verosimilitud (MLE), que todavía se mantiene con modelos mal especificados. La única diferencia es la matriz de covarianza de la normal multivariante limitante: para modelos correctamente especificados, podemos aproximar la matriz de covarianza con la matriz de información inversa de Fisher , con una especificación errónea, podemos usar la estimación sandwich de la matriz de covarianza ( ). Este último se reduce al inverso de la matriz de información de Fisher cuando el modelo se especifica correctamente (ya queJ1J1KJ1J=K) AFAICT, a la prueba de Wilks no le importa de dónde proviene la estimación de la matriz de covarianza, siempre que tengamos una matriz de covarianza asintótica invertible de la normalidad multivariada para los MLE ( en el documento de Wilks). c1

ensalada de rata
fuente
Cuando el modelo más grande es verdadero pero el submodelo es falso, la distribución asintótica ya no es (en modelos lineales con errores gaussianos, por ejemplo, obtenemos cosas como distribuciones exactas no centrales-F, por lo que la distribución asintótica debería ser algo así como nc- χ 2 Estoy adivinando). Entonces, ¿por qué esperaríamos que sea χ 2 cuando tanto el modelo más grande como el más pequeño están equivocados? ¿Cuál es exactamente la hipótesis nula aquí para comenzar? χ2χ2χ2
chico
En la hipótesis nula correctamente especificada, ambos modelos son "verdaderos", pero el anidado tiene parámetros fijados en los valores verdaderos. En la hipótesis nula mal especificada, ambos modelos son "falsos", pero el anidado tiene m parámetros fijados en los valores pseudotrue. ("Valor pseudotrue" es el valor asintótico del parámetro que minimiza la distancia Kullback-Liebler entre el modelo mal especificado y el modelo verdadero). Por lo tanto, su ejemplo de la no central F no es relevante, ya que esa es la distribución cuando la hipótesis nula aquí es falsa. mmetro
ratsalad
Lo siento, debería haber dicho que la hipótesis anidada tiene parámetros fijados en los valores verdaderos. h-metro
ratsalad
Tengo entendido que un modelo nulo mal especificado podría ser mal especificado de muchas maneras. Por ejemplo: distribución incorrecta de residuos, los datos tienen heterocedasticidad, los efectos no son aditivos, etc. Sin embargo, estoy de acuerdo en que si al menos uno de los parámetros "probados" se fija en un valor falso (por ejemplo, el valor pseudotrue) , ese es un ejemplo de un modelo nulo especificado incorrectamente. h-metro
rcorty

Respuestas:

19

RV Foutz y RC Srivastava han examinado el tema en detalle. Su artículo de 1977 "El rendimiento de la prueba de razón de probabilidad cuando el modelo es incorrecto" contiene una declaración del resultado de distribución en caso de especificación errónea junto con un esbozo muy breve de la prueba, mientras que su documento de 1978 "La distribución asintótica de la razón de probabilidad cuando el modelo es incorrecto " contiene la prueba, pero esta última está escrita en una máquina de escribir antigua (ambos documentos usan la misma notación, por lo que puede combinarlos en la lectura). Además, para algunos pasos de la prueba, se refieren a un artículo de KP Roy "Una nota sobre la distribución asintótica de la razón de probabilidad" de 1957 que no parece estar disponible en línea, incluso cerrada.

En caso de especificación distribucional errónea, si el MLE sigue siendo consistente y asintóticamente normal (que no siempre es el caso), el estadístico LR sigue asintóticamente una combinación lineal de chi-cuadrados independientes (cada uno de un grado de libertad)

-2Enλreyo=1rdoyoχyo2

donde . Uno puede ver la "similitud": en lugar de un chi-cuadrado con h - m grados de libertad, tenemos h - m chi-cuadrados cada uno con un grado de libertad. Pero la "analogía" se detiene allí, porque una combinación lineal de chi-cuadrados no tiene una densidad de forma cerrada. Cada chi-cuadrado escalado es una gamma, pero con un parámetro c i diferente que conduce a un parámetro de escala diferente para la gamma, y ​​la suma de tales gammas no es de forma cerrada, aunque sus valores pueden calcularse.r=hmhmhmci

Para las constantes , tenemos c 1c 2. . . c r0 , y son los valores propios de una matriz ... ¿qué matriz? Bueno, usando la notación de los autores, establezca Λ para ser el Hessian del log-verosimilitud y C para ser el producto externo del gradiente del log-verosimilitud (en términos de expectativa). Entonces V = Λ - 1 C ( Λ ) - 1 es la matriz asintótica de varianza-covarianza del MLE.cic1c2...cr0ΛCV=Λ1C(Λ)1

Mr×rV

Λ

Λ=[Λr×rΛ2Λ2Λ3]

W=Λr×r+Λ2Λ31Λ2WΛ

ciMW


[9][9]hmhm

2lnλ=i=1hm(nθ^iθiσi)2dχhm2

n(θ^θ)

2lnλ=i=1hm(nθ^iθiai)2

2lnλ=i=1hmσi2ai2(nθ^iθiσi)2=i=1hmσi2ai2χ12

which is a sum of scaled chi-square r.v.'s, no longer distributed as one chi-square r.v. with hm degrees of freedom. The reference provided by the OP is indeed a very clear exposition of this more general case that includes Wilks' result as a special case.

Alecos Papadopoulos
fuente
1
So, this is just a restatement of the standard result when the model is misspecified. This result has been derived and re-derived many times. The clearest and most illuminating derivation I have seen is from Kent 1982 "Robust Properties of Likelihood Ratio Tests" (Biometrika 69:19). However, you did not answer my question. My question was specifically about Wilks 1938 proof, and why it fails.
ratsalad
2

Wilks' 1938 proof doesn't work because Wilks used J1 As the asymptotic covariance matrix in his proof. J1 is the inverse of the Hessian of the negative log likelihood rather than the sandwich estimator J1KJ1. Wilks references the ijth element of J as cij in his proof. By making the assumption that J1KJ1=J1 Wilks (1938) is assuming that K=J holds which is the Fisher Information Matrix equality. If the probability model is correctly specified then K=J. So one interpretation of the assumption by Wilks is that he is assuming the stronger assumption that the probability model is correctly specified.

RMG
fuente