¿Por qué se usa exactamente la información de Fisher observada?

17

En el ajuste estándar de máxima verosimilitud (iid muestra Y1,,Yn de alguna distribución con densidad fy(y|θ0 )) y en el caso de un modelo correctamente especificado, la información de Fisher viene dada por

I(θ)=Eθ0[2θ2lnfy(θ)]

donde se toma la expectativa con respecto a la densidad real que generó los datos. He leído que la información observada de Fisher

J^(θ)=2θ2lnfy(θ)

se usa principalmente porque la integral involucrada en el cálculo de la Información de Fisher (esperada) podría no ser factible en algunos casos. Lo que me confunde es que incluso si la integral es factible, se debe tener una expectativa con respecto al modelo verdadero, que involucra el valor del parámetro desconocido . Si ese es el caso, parece que sin saber θ 0 es imposible calcular Me . ¿Es esto cierto?θ0θ0I

user2249626
fuente

Respuestas:

13

Tienes cuatro quanties aquí: el verdadero parámetro , una estimación consistente θ , la información esperada I ( θ ) en θ y la información observada J ( θ ) en θ . Estas cantidades solo son equivalentes asintóticamente, pero así es típicamente como se usan.θ0θ^I(θ)θJ(θ)θ

  1. La información observada converge en probabilidad a la información esperada I(θ0)=Eθ0[2

    J(θ0)=1Ni=1N2θ02lnf(yi|θ0)
    cuandoYes una muestra iid de f(θ0). AquíEθ0(x)indica la expectativa w / r / t la distribución indexada porθ0:xf(x|θ0)dx. Esta convergencia se cumple debido a la ley de los grandes números, por lo que se supone queYf(
    I(θ0)=Eθ0[2θ02lnf(y|θ0)]
    Yf(θ0)Eθ0(x)θ0xf(x|θ0)dx es crucial aquí.Yf(θ0)
  2. Cuando se tiene una estimación θ que converge en probabilidad al verdadero parámetro θ 0 (es decir, es coherente), entonces se puede sustituir por cualquier lugar que vea un θ 0 arriba, esencialmente debido al teorema de la aplicación continua * , y todos de las convergencias se mantienen.θ^θ0θ0

En realidad, parece serun poco sutil.

Observación

Como supusiste, la información observada suele ser más fácil de trabajar porque la diferenciación es más fácil que la integración, y es posible que ya la hayas evaluado en el transcurso de alguna optimización numérica. En algunas circunstancias (la distribución Normal) serán lo mismo.

El artículo "Evaluación de la precisión del estimador de máxima verosimilitud: información de pesca observada versus esperada" por Efron y Hinkley (1978) hace un argumento a favor de la información observada para muestras finitas.

Andrew M
fuente
4

Se han realizado algunos estudios de simulación que parecen respaldar las observaciones teóricas de Efron y Hinkley (que se mencionan en la respuesta de Andrew), he aquí uno que conozco de antemano: Maldonado, G. y Greenland, S. (1994). Una comparación del rendimiento de los intervalos de confianza basados ​​en modelos cuando se desconoce la forma correcta del modelo. Epidemiología, 5, 171-182. No he visto ningún estudio que entre en conflicto. Es interesante que los paquetes GLM estándar que conozco usen la información esperada para calcular los intervalos de Wald. Por supuesto, esto no es un problema cuando (como en los GLM lineales en el parámetro natural) las matrices de información observadas y esperadas son iguales.

Sander Groenlandia
fuente