En el famoso artículo de 1938 (" La distribución de la muestra grande de la razón de probabilidad para probar hipótesis compuestas ", Annals of Mathematical Statistics, 9: 60-62), Samuel Wilks derivó la distribución asintótica de (relación de probabilidad logarítmica ) para hipótesis anidadas, bajo el supuesto de que la hipótesis más grande se especifica correctamente. La distribución limitante es (chi-cuadrado) con grados de libertad, donde es el número de parámetros en la hipótesis más grandees el número de parámetros libres en la hipótesis anidada. Sin embargo, supuestamente se sabe que este resultado no se cumple cuando las hipótesis están mal especificadas (es decir, cuando la hipótesis más grande no es la verdadera distribución de los datos muestreados).
¿Alguien puede explicar por qué? Me parece que la prueba de Wilks aún debería funcionar con modificaciones menores. Se basa en la normalidad asintótica de la estimación de máxima verosimilitud (MLE), que todavía se mantiene con modelos mal especificados. La única diferencia es la matriz de covarianza de la normal multivariante limitante: para modelos correctamente especificados, podemos aproximar la matriz de covarianza con la matriz de información inversa de Fisher , con una especificación errónea, podemos usar la estimación sandwich de la matriz de covarianza ( ). Este último se reduce al inverso de la matriz de información de Fisher cuando el modelo se especifica correctamente (ya que) AFAICT, a la prueba de Wilks no le importa de dónde proviene la estimación de la matriz de covarianza, siempre que tengamos una matriz de covarianza asintótica invertible de la normalidad multivariada para los MLE ( en el documento de Wilks).
fuente
Respuestas:
RV Foutz y RC Srivastava han examinado el tema en detalle. Su artículo de 1977 "El rendimiento de la prueba de razón de probabilidad cuando el modelo es incorrecto" contiene una declaración del resultado de distribución en caso de especificación errónea junto con un esbozo muy breve de la prueba, mientras que su documento de 1978 "La distribución asintótica de la razón de probabilidad cuando el modelo es incorrecto " contiene la prueba, pero esta última está escrita en una máquina de escribir antigua (ambos documentos usan la misma notación, por lo que puede combinarlos en la lectura). Además, para algunos pasos de la prueba, se refieren a un artículo de KP Roy "Una nota sobre la distribución asintótica de la razón de probabilidad" de 1957 que no parece estar disponible en línea, incluso cerrada.
En caso de especificación distribucional errónea, si el MLE sigue siendo consistente y asintóticamente normal (que no siempre es el caso), el estadístico LR sigue asintóticamente una combinación lineal de chi-cuadrados independientes (cada uno de un grado de libertad)
donde . Uno puede ver la "similitud": en lugar de un chi-cuadrado con h - m grados de libertad, tenemos h - m chi-cuadrados cada uno con un grado de libertad. Pero la "analogía" se detiene allí, porque una combinación lineal de chi-cuadrados no tiene una densidad de forma cerrada. Cada chi-cuadrado escalado es una gamma, pero con un parámetro c i diferente que conduce a un parámetro de escala diferente para la gamma, y la suma de tales gammas no es de forma cerrada, aunque sus valores pueden calcularse.r=h−m h−m h−m ci
Para las constantes , tenemos c 1 ≥ c 2 ≥ . . . c r ≥ 0 , y son los valores propios de una matriz ... ¿qué matriz? Bueno, usando la notación de los autores, establezca Λ para ser el Hessian del log-verosimilitud y C para ser el producto externo del gradiente del log-verosimilitud (en términos de expectativa). Entonces V = Λ - 1 C ( Λ ′ ) - 1 es la matriz asintótica de varianza-covarianza del MLE.ci c1≥c2≥...cr≥0 Λ C V=Λ−1C(Λ′)−1
which is a sum of scaled chi-square r.v.'s, no longer distributed as one chi-square r.v. withh−m degrees of freedom. The reference provided by the OP is indeed a very clear exposition of this more general case that includes Wilks' result as a special case.
fuente
Wilks' 1938 proof doesn't work because Wilks usedJ−1
As the asymptotic covariance matrix in his proof. J−1 is the inverse of the Hessian of the negative log likelihood rather than the sandwich estimator J−1KJ−1 . Wilks references the ij th element of J as cij in his proof.
By making the assumption that J−1KJ−1=J−1 Wilks (1938) is assuming that K=J holds which is the Fisher Information Matrix equality. If the probability model is correctly specified then K=J . So one interpretation of the assumption by Wilks is that he is assuming the stronger assumption that the probability model is correctly specified.
fuente