Supongamos que tenemos una variable aleatoria . Si fuera el parámetro verdadero, la función de probabilidad debería maximizarse y la derivada igual a cero. Este es el principio básico detrás del estimador de máxima verosimilitud.
Según tengo entendido, la información de Fisher se define como
Por lo tanto, si es el parámetro verdadero, . Pero si no es el parámetro verdadero, entonces tendremos una mayor cantidad de información de Fisher.
Mis preguntas
- ¿La información de Fisher mide el "error" de un MLE dado? En otras palabras, ¿la existencia de información positiva de Fisher no implica que mi MLE no puede ser ideal?
- ¿Cómo difiere esta definición de "información" de la utilizada por Shannon? ¿Por qué lo llamamos información?
bayesian
maximum-likelihood
likelihood
intuition
fisher-information
Stan Shunpike
fuente
fuente
Respuestas:
Intentando complementar las otras respuestas ... ¿Qué tipo de información es la información de Fisher? Comience con la función loglikelihood como una función de para , el espacio de parámetros. Suponiendo algunas condiciones de regularidad que no discutimos aquí, tenemos (escribiremos derivados con respecto al parámetro como puntos como aquí). La variación es la información de Fisher
¿Cómo podemos interpretar esto? es la información de probabilidad sobre el parámetro de la muestra. Esto solo se puede interpretar en un sentido relativo, como cuando lo usamos para comparar las posibilidades de dos valores distintos de parámetros posibles a través de la prueba de razón de probabilidad . La tasa de cambio de loglikelihood es la función de puntuación nos dice qué tan rápido cambia la probabilidad, y su varianza cuánto varía esto de una muestra a otra, en un parámetro dado valor, digamos . La ecuación (¡lo cual es realmente sorprendente!)ℓ(θ) θ ℓ(θ0)−ℓ(θ1) ℓ˙(θ) I(θ) θ0
Entonces, ¿cuál es la función de probabilidad? Generalmente pensamos en el modelo estadístico como una familia de distribuciones de probabilidad para los datos , indexados por el parámetro algún elemento en el espacio de parámetros . Pensamos en este modelo como verdadero si existe algún valor tal manera que los datos realmente tengan la distribución de probabilidad . Entonces obtenemos un modelo estadístico al incrustar la distribución de probabilidad de generación de datos verdadera{f(x;θ),θ∈Θ} x θ Θ θ0∈Θ x f(x;θ0) f(x;θ0) en una familia de distribuciones de probabilidad. Pero, está claro que tal incrustación se puede hacer de muchas maneras diferentes, y cada una de esas incrustaciones será un modelo "verdadero", y darán diferentes funciones de probabilidad. Y, sin tal incrustación, no hay función de probabilidad. ¡Parece que realmente necesitamos algo de ayuda, algunos principios sobre cómo elegir una incrustación sabiamente!
¿Entonces, qué significa esto? Significa que la elección de la función de probabilidad nos dice cómo esperaríamos que los datos cambien, si la verdad cambia un poco. Pero esto no puede ser verificado realmente por los datos, ya que los datos solo dan información sobre la verdadera función del modelo que realmente generó los datos, y no nada sobre todos los otros elementos en el modelo elegido. De esta manera, vemos que la elección de la función de probabilidad es similar a la elección de un previo en el análisis bayesiano, inyecta información que no es de datos en el análisis. Miremos esto en un ejemplo simple (algo artificial), y veamos el efecto de incrustar en un modelo de diferentes maneras.f(x;θ0) f(x;θ0)
Supongamos que son iid como . Entonces, esa es la verdadera distribución generadora de datos. Ahora, incrustemos esto en un modelo de dos maneras diferentes, modelo A y modelo B. puede comprobar que esto coincide para .X1,…,Xn N(μ=10,σ2=1)
Las funciones de verosimilitud se convierten en
Las funciones de puntuación: (derivados de loglikelihood): y las curvaturas entonces, la información de Fisher realmente depende de la incrustación. Ahora, calculamos la información de Fisher en el valor verdadero , por lo que la información de Fisher sobre el parámetro es algo mayor en el modelo B.
Esto ilustra que, en cierto sentido, la información de Fisher nos dice qué tan rápido la información de los datos sobre el parámetro habría cambiado si el parámetro rector hubiera cambiado de la manera postulada por la incorporación en una familia modelo . La explicación de una mayor información en el modelo B es que nuestra familia modelo B postula que si la expectativa hubiera aumentado, entonces la variación también habría aumentado . De modo que, en el modelo B, la varianza de la muestra también llevará información sobre , lo que no hará en el modelo A.μ
Además, este ejemplo ilustra que realmente necesitamos algo de teoría para ayudarnos a construir familias modelo.
fuente
Pensemos en términos de la función log-verosimilitud negativa . La puntuación negativa es su gradiente con respecto al valor del parámetro. En el parámetro verdadero, la puntuación es cero. De lo contrario, da la dirección hacia el mínimo (o en el caso de no convexo , un punto de silla de montar o mínimo o máximo local).ℓ ℓ ℓ
La información de Fisher mide la curvatura de alrededor de si los datos siguen a . En otras palabras, le indica cuánto mover el parámetro afectaría su probabilidad de registro.ℓ θ θ
Considere que tenía un modelo grande con millones de parámetros. Y tenía una pequeña memoria USB para guardar su modelo. ¿Cómo debe priorizar cuántos bits de cada parámetro almacenar? La respuesta correcta es asignar bits de acuerdo con la información de Fisher (Rissanen escribió sobre esto). Si la información de Fisher de un parámetro es cero, ese parámetro no importa.
Lo llamamos "información" porque la información de Fisher mide cuánto nos informa este parámetro sobre los datos.
Una forma coloquial de pensarlo es esta: supongamos que los parámetros conducen un automóvil y los datos están en el asiento trasero corrigiendo al conductor. La molestia de los datos es la información de Fisher. Si los datos permiten que el conductor conduzca, la información de Fisher es cero; Si los datos están constantemente haciendo correcciones, es grande. En este sentido, la información de Fisher es la cantidad de información que va de los datos a los parámetros.
Considere lo que sucede si hace que el volante sea más sensible. Esto es equivalente a una reparametrización. En ese caso, los datos no quieren ser tan altos por temor a que el auto se sobrevire. Este tipo de reparametrización disminuye la información de Fisher.
fuente
Complementario a la buena respuesta de @ NeilG (+1) y para responder a sus preguntas específicas:
Recuerde que el Hessian del log-verosimilitud evaluado en las estimaciones de ML es la información de Fisher observada. Los errores estándar estimados son las raíces cuadradas de los elementos diagonales del inverso de la matriz de información de Fisher observada. Partiendo de esto, la información de Fisher es el rastro de la matriz de información de Fisher. Dado que la matriz de información de Fisher es una matriz de matriz semidefinida positiva de Hermit, sus entradas diagonales son reales y no negativas; como consecuencia directa, trace debe ser positivo. Esto significa que solo puede tener estimadores "no ideales" de acuerdo con su afirmación. Entonces, no, una información positiva de Fisher no está relacionada con cuán ideal es su MLE.I Ij,j tr(I)
La inversa de la información de Fisher es la varianza mínima de un estimador imparcial ( límite de Cramér-Rao ). En ese sentido, la matriz de información indica cuánta información sobre los coeficientes estimados está contenida en los datos. Por el contrario, la entropía de Shannon se tomó de la termodinámica. Relaciona el contenido de información de un valor particular de una variable como donde es la probabilidad de que la variable tome el valor. Ambas son medidas de cuán "informativa" es una variable. En el primer caso, aunque juzgas esta información en términos de precisión, mientras que en el segundo caso en términos de desorden; lados diferentes, misma moneda! :RE–p⋅log2(p) p
Para recapitular: la inversa de la matriz de información de Fisher evalué en los valores del estimador ML es la matriz de covarianza asintótica o aproximada. Como los valores de este estimador de ML se encuentran gráficamente en un mínimo local, la información de Fisher muestra cuán profundo es ese mínimo y cuánto margen de maniobra tiene a su alrededor. Encontré este artículo de Lutwak et al. sobre Extensiones de información de Fisher y la desigualdad de Stam, una lectura informativa sobre este asunto. Los artículos de Wikipedia sobre la métrica de información de Fisher y sobre la divergencia de Jensen-Shannon también son buenos para comenzar.I
fuente