Ok, esta es una pregunta bastante básica, pero estoy un poco confundido. En mi tesis escribo:
Los errores estándar se pueden encontrar calculando el inverso de la raíz cuadrada de los elementos diagonales de la matriz (observada) de información de Fisher:
Mi pregunta principal: ¿es correcto lo que estoy diciendo ?
Estoy un poco confundido, porque en esta fuente en la página 7 dice:
la matriz de información es el negativo del valor esperado de la matriz de Hesse
(Por lo tanto, no inversa del Hessian.)
Mientras que en esta fuente en la página 7 (nota 5) dice:
La información de Fisher observada es igual a .
(Entonces aquí está el inverso).
Soy consciente del signo menos y cuándo usarlo y cuándo no, pero ¿por qué hay una diferencia en tomar el inverso o no?
fuente
Respuestas:
Yudi Pawitan escribe en su libro In All Likelihood que la segunda derivada del log-verosimilitud evaluada en las estimaciones de máxima verosimilitud (MLE) es la información de Fisher observada (ver también este documento , página 2). Esto es exactamente lo que la mayoría de los algoritmos de optimización como
optim
enR
retorno: el grupo de acción evaluada en el MLE. Cuando lo negativola probabilidad logarítmica se minimiza, se devuelve el Hessian negativo. Como señala correctamente, los errores estándar estimados del MLE son las raíces cuadradas de los elementos diagonales del inverso de la matriz de información de Fisher observada. En otras palabras: las raíces cuadradas de los elementos diagonales de la inversa de la arpillera (o la arpillera negativa) son los errores estándar estimados.Resumen
Formalmente
Deje que sea una función de log-verosimilitud. La matriz de información de Fisher es una matriz simétrica que contiene las entradas: La matriz de información de Fisher observada es simplemente , la matriz de información evaluada en las estimaciones de máxima verosimilitud (MLE). El hessiano se define como:l(θ) I(θ) (p×p)
Además, el inverso de la matriz de información de Fisher es un estimador de la matriz de covarianza asintótica: Los errores estándar son entonces las raíces cuadradas de los elementos diagonales de la matriz de covarianza. Para la distribución asintótica de una estimación de máxima verosimilitud, podemos escribir donde denota el valor del parámetro verdadero. Por lo tanto, el error estándar estimado de las estimaciones de máxima verosimilitud viene dado por:
fuente
Estimar las funciones de probabilidad implica un proceso de dos pasos.
Primero, se declara la función log-verosimilitud. entonces uno optimiza las funciones de log-verosimilitud. Esta bien.
Al escribir las funciones de probabilidad de registro en R, pedimos (donde representa la función de probabilidad de registro) porque el comando optim en R minimiza una función por defecto. La minimización de -l es lo mismo que la maximización de l, que es lo que queremos.−1∗l l
Ahora, la matriz de información de Fisher observada es igual a . La razón por la que no tenemos que multiplicar el hassian por -1 es que toda la evaluación se ha realizado en términos de -1 veces la probabilidad logarítmica. Esto significa que el hessian producido por optim ya está multiplicado por -1(−H)−1
fuente