Tienes cuatro quanties aquí: el verdadero parámetro , una estimación consistente θ , la información esperada I ( θ ) en θ y la información observada J ( θ ) en θ . Estas cantidades solo son equivalentes asintóticamente, pero así es típicamente como se usan.θ0θ^I(θ)θJ(θ)θ
La información observada
converge en probabilidad a la información esperada
I(θ0)=Eθ0[ ∂ 2
J(θ0)=1N∑i=1N∂2∂θ20lnf(yi|θ0)
cuandoYes una muestra iid de f(θ0). AquíEθ0(x)indica la expectativa w / r / t la distribución indexada porθ0:∫xf(x|θ0)dx. Esta convergencia se cumple debido a la ley de los grandes números, por lo que se supone queY∼f(I(θ0)=Eθ0[∂2∂θ20lnf(y|θ0)]
Yf(θ0)Eθ0(x)θ0∫xf(x|θ0)dx es crucial aquí.Y∼f(θ0)
Cuando se tiene una estimación θ que converge en probabilidad al verdadero parámetro θ 0 (es decir, es coherente), entonces se puede sustituir por cualquier lugar que vea un θ 0 arriba, esencialmente debido al teorema de la aplicación continua * , y todos de las convergencias se mantienen.θ^θ0θ0∗
En realidad, parece serun poco sutil.∗
Observación
Como supusiste, la información observada suele ser más fácil de trabajar porque la diferenciación es más fácil que la integración, y es posible que ya la hayas evaluado en el transcurso de alguna optimización numérica. En algunas circunstancias (la distribución Normal) serán lo mismo.
El artículo "Evaluación de la precisión del estimador de máxima verosimilitud: información de pesca observada versus esperada" por Efron y Hinkley (1978) hace un argumento a favor de la información observada para muestras finitas.