¿Qué tipo de información es la información de Fisher?

Supongamos que tenemos una variable aleatoria . Si fuera el parámetro verdadero, la función de probabilidad debería maximizarse y la derivada igual a cero. Este es el principio básico detrás del estimador de máxima verosimilitud. $X \sim f(x|\theta)$ $\theta_0$

Según tengo entendido, la información de Fisher se define como

I (θ) = E [{(\frac{\partial}{\partial θ} f (X | θ))}^{2}]

$I(\theta) = \Bbb E \Bigg[\left(\frac{\partial}{\partial \theta}f(X|\theta)\right)^2\Bigg ]$

Por lo tanto, si es el parámetro verdadero, . Pero si no es el parámetro verdadero, entonces tendremos una mayor cantidad de información de Fisher. $\theta_0$ $I(\theta) = 0$ $\theta_0$

Mis preguntas

¿La información de Fisher mide el "error" de un MLE dado? En otras palabras, ¿la existencia de información positiva de Fisher no implica que mi MLE no puede ser ideal?
¿Cómo difiere esta definición de "información" de la utilizada por Shannon? ¿Por qué lo llamamos información?

bayesian maximum-likelihood likelihood intuition fisher-information Stan Shunpike
fuente

¿Por qué lo escribes ? La expectativa es sobre los valores de distribuidos como si vinieran de su distribución con el parámetro .

E_{θ}

$E_\theta$

X

$X$

θ

$\theta$

Neil G

Además, no es cero en el parámetro verdadero.

I (θ)

$I(\theta)$

Neil G

La E (S) es cero (es decir: expectativa de la función de puntuación), pero como escribió Neil G, la información del pescador (V (S)) no es (generalmente) cero.

Tal Galili

Respuestas:

Intentando complementar las otras respuestas ... ¿Qué tipo de información es la información de Fisher? Comience con la función loglikelihood como una función de para , el espacio de parámetros. Suponiendo algunas condiciones de regularidad que no discutimos aquí, tenemos (escribiremos derivados con respecto al parámetro como puntos como aquí). La variación es la información de Fisher

ℓ (θ) = \log f (x; θ)

$\ell (\theta) = \log f(x;\theta)$

θ

$\theta$

θ \in Θ

$\theta \in \Theta$

E \frac{\partial}{\partial θ} ℓ (θ) = E_{θ} \dot{ℓ} (θ) = 0

$\DeclareMathOperator{\E}{\mathbb{E}} \E \frac{\partial}{\partial \theta} \ell (\theta) = \E_\theta \dot{\ell}(\theta) = 0$

I (θ) = E_{θ} (\dot{ℓ} (θ))^{2} = - E_{θ} \ddot{ℓ} (θ)

$I(\theta) = \E_\theta ( \dot{\ell}(\theta) )^2= -\E_\theta \ddot{\ell}(\theta)$ la última fórmula muestra que es la curvatura (negativa) de la función de verosimilitud. A menudo se encuentra el estimador de máxima verosimilitud (mle) de resolviendo la ecuación de verosimilitud cuando la información de Fisher es la varianza de la puntuación es grande, entonces la solución a esa ecuación será muy sensible a los datos, dando la esperanza de una alta precisión del archivo. Eso se confirma al menos asintóticamente, siendo la varianza asintótica del mle la inversa de la información de Fisher.

θ

$\theta$

\dot{ℓ} (θ) = 0

$\dot{\ell}(\theta)=0$

\dot{ℓ} (θ)

$\dot{\ell}(\theta)$

¿Cómo podemos interpretar esto? es la información de probabilidad sobre el parámetro de la muestra. Esto solo se puede interpretar en un sentido relativo, como cuando lo usamos para comparar las posibilidades de dos valores distintos de parámetros posibles a través de la prueba de razón de probabilidad . La tasa de cambio de loglikelihood es la función de puntuación nos dice qué tan rápido cambia la probabilidad, y su varianza cuánto varía esto de una muestra a otra, en un parámetro dado valor, digamos . La ecuación (¡lo cual es realmente sorprendente!) $\ell(\theta)$ $\theta$ $\ell(\theta_0) - \ell(\theta_1)$ $\dot{\ell}(\theta)$ $I(\theta)$ $\theta_0$

I (θ) = - E_{θ} \ddot{ℓ} (θ)

$I(\theta) = - \E_\theta \ddot{\ell}(\theta)$ nos dice que hay una relación (igualdad) entre la variabilidad en la información (probabilidad) para un valor de parámetro dado, , y la curvatura de la función de probabilidad para ese valor de parámetro. Esta es una relación sorprendente entre la variabilidad (varianza) de esta estadística y el cambio esperado en la semejanza cuando variamos el parámetro en algún intervalo (para los mismos datos). ¡Esto es realmente extraño, sorprendente y poderoso!

θ_{0}

$\theta_0$

\dot{ℓ} (θ) ∣_{θ = θ_{0}}

$\dot{\ell}(\theta) \mid_{\theta=\theta_0}$

θ

$\theta$

θ_{0}

$\theta_0$

Entonces, ¿cuál es la función de probabilidad? Generalmente pensamos en el modelo estadístico como una familia de distribuciones de probabilidad para los datos , indexados por el parámetro algún elemento en el espacio de parámetros . Pensamos en este modelo como verdadero si existe algún valor tal manera que los datos realmente tengan la distribución de probabilidad . Entonces obtenemos un modelo estadístico al incrustar la distribución de probabilidad de generación de datos verdadera $\{ f(x;\theta), \theta \in \Theta \}$ $x$ $\theta$ $\Theta$ $\theta_0 \in \Theta$ $x$ $f(x;\theta_0)$ $f(x;\theta_0)$ en una familia de distribuciones de probabilidad. Pero, está claro que tal incrustación se puede hacer de muchas maneras diferentes, y cada una de esas incrustaciones será un modelo "verdadero", y darán diferentes funciones de probabilidad. Y, sin tal incrustación, no hay función de probabilidad. ¡Parece que realmente necesitamos algo de ayuda, algunos principios sobre cómo elegir una incrustación sabiamente!

¿Entonces, qué significa esto? Significa que la elección de la función de probabilidad nos dice cómo esperaríamos que los datos cambien, si la verdad cambia un poco. Pero esto no puede ser verificado realmente por los datos, ya que los datos solo dan información sobre la verdadera función del modelo que realmente generó los datos, y no nada sobre todos los otros elementos en el modelo elegido. De esta manera, vemos que la elección de la función de probabilidad es similar a la elección de un previo en el análisis bayesiano, inyecta información que no es de datos en el análisis. Miremos esto en un ejemplo simple (algo artificial), y veamos el efecto de incrustar en un modelo de diferentes maneras. $f(x;\theta_0)$ $f(x;\theta_0)$

Supongamos que son iid como . Entonces, esa es la verdadera distribución generadora de datos. Ahora, incrustemos esto en un modelo de dos maneras diferentes, modelo A y modelo B. puede comprobar que esto coincide para . $X_1, \dotsc, X_n$ $N(\mu=10, \sigma^2=1)$

A : X_{1}, \dots, X_{n} iid N (μ, σ^{2} = 1), μ \in R B : X_{1}, \dots, X_{n} iid N (μ, μ / 10), μ > 0

$A \colon X_1, \dotsc, X_n ~\text{iid}~N(\mu, \sigma^2=1),\mu \in \mathbb{R} \\ B \colon X_1, \dotsc, X_n ~\text{iid}~N(\mu, \mu/10), \mu>0$

μ = 10

$\mu=10$

Las funciones de verosimilitud se convierten en

ℓ_{A} (μ) = - \frac{n}{2} \log (2 π) - \frac{1}{2} \sum_{i} (x_{i} - μ)^{2} ℓ_{B} (μ) = - \frac{n}{2} \log (2 π) - \frac{n}{2} \log (μ / 10) - \frac{10}{2} \sum_{i} \frac{(x_{i} - μ)^{2}}{μ}

$\ell_A(\mu) = -\frac{n}{2} \log (2\pi) -\frac12\sum_i (x_i-\mu)^2 \\ \ell_B(\mu) = -\frac{n}{2} \log (2\pi) - \frac{n}{2}\log(\mu/10) - \frac{10}{2}\sum_i \frac{(x_i-\mu)^2}{\mu}$

Las funciones de puntuación: (derivados de loglikelihood): y las curvaturas entonces, la información de Fisher realmente depende de la incrustación. Ahora, calculamos la información de Fisher en el valor verdadero , por lo que la información de Fisher sobre el parámetro es algo mayor en el modelo B.

{\dot{ℓ}}_{A} (μ) = n (\bar{x} - μ) {\dot{ℓ}}_{B} (μ) = - \frac{n}{2 μ} - \frac{10}{2} \sum_{i} (\frac{x_{i}}{μ})^{2} - 15 n

$\dot{\ell}_A(\mu) = n (\bar{x}-\mu) \\ \dot{\ell}_B(\mu) = -\frac{n}{2\mu}- \frac{10}{2}\sum_i (\frac{x_i}{\mu})^2 - 15 n$

{\ddot{ℓ}}_{A} (μ) = - n {\ddot{ℓ}}_{B} (μ) = \frac{n}{2 μ^{2}} + \frac{10}{2} \sum_{i} \frac{2 x_{i}^{2}}{μ^{3}}

$\ddot{\ell}_A(\mu) = -n \\ \ddot{\ell}_B(\mu) = \frac{n}{2\mu^2} + \frac{10}{2}\sum_i \frac{2 x_i^2}{\mu^3}$

μ = 10

$\mu=10$

I_{A} (μ = 10) = n, I_{B} (μ = 10) = n \cdot (\frac{1}{200} + \frac{2020}{2000}) > n

$I_A(\mu=10) = n, \\ I_B(\mu=10) = n \cdot (\frac1{200}+\frac{2020}{2000}) > n$

Esto ilustra que, en cierto sentido, la información de Fisher nos dice qué tan rápido la información de los datos sobre el parámetro habría cambiado si el parámetro rector hubiera cambiado de la manera postulada por la incorporación en una familia modelo . La explicación de una mayor información en el modelo B es que nuestra familia modelo B postula que si la expectativa hubiera aumentado, entonces la variación también habría aumentado . De modo que, en el modelo B, la varianza de la muestra también llevará información sobre , lo que no hará en el modelo A. $\mu$

Además, este ejemplo ilustra que realmente necesitamos algo de teoría para ayudarnos a construir familias modelo.

kjetil b halvorsen
fuente

Gran explicación. ¿Por qué dices ? es una función de : ¿no es 0 solo cuando se evalúa en el parámetro verdadero ?

\E_{θ} \dot{ℓ} (θ) = 0

$\E_\theta \dot{\ell}(\theta) =0$

θ

$\theta$

θ_{0}

$\theta_0$

ihadanny

Sí, lo que usted dice es verdadero, @idadanny Es cero cuando se evalúa en el valor del parámetro verdadero.

kjetil b halvorsen

Gracias de nuevo @kjetil, así que solo una pregunta más: ¿es sorprendente la relación entre la varianza de la puntuación y la curvatura de la probabilidad de cada ? o solo en la vecindad del verdadero parámetro ?

θ

$\theta$

θ_{0}

$\theta_0$

ihadanny

De nuevo, esa relación es verdadera para el verdadero valor del parámetro. Pero para que eso sea de mucha ayuda, debe haber continuidad, de modo que sea aproximadamente cierto en algún vecindario, ya que lo usaremos en el valor estimado , no solo en el valor verdadero (desconocido).

\hat{θ}

$\hat{\theta}$

kjetil b halvorsen

entonces, la relación se cumple para el parámetro verdadero , casi se cumple para ya que suponemos que está cerca de , pero para un general no se cumple, ¿verdad?

θ_{0}

$\theta_0$

θ_{m l e}

$\theta_{mle}$

θ_{0}

$\theta_0$

θ_{1}

$\theta_1$

ihadanny

Pensemos en términos de la función log-verosimilitud negativa . La puntuación negativa es su gradiente con respecto al valor del parámetro. En el parámetro verdadero, la puntuación es cero. De lo contrario, da la dirección hacia el mínimo (o en el caso de no convexo , un punto de silla de montar o mínimo o máximo local). $\ell$ $\ell$ $\ell$

La información de Fisher mide la curvatura de alrededor de si los datos siguen a . En otras palabras, le indica cuánto mover el parámetro afectaría su probabilidad de registro. $\ell$ $\theta$ $\theta$

Considere que tenía un modelo grande con millones de parámetros. Y tenía una pequeña memoria USB para guardar su modelo. ¿Cómo debe priorizar cuántos bits de cada parámetro almacenar? La respuesta correcta es asignar bits de acuerdo con la información de Fisher (Rissanen escribió sobre esto). Si la información de Fisher de un parámetro es cero, ese parámetro no importa.

Lo llamamos "información" porque la información de Fisher mide cuánto nos informa este parámetro sobre los datos.

Una forma coloquial de pensarlo es esta: supongamos que los parámetros conducen un automóvil y los datos están en el asiento trasero corrigiendo al conductor. La molestia de los datos es la información de Fisher. Si los datos permiten que el conductor conduzca, la información de Fisher es cero; Si los datos están constantemente haciendo correcciones, es grande. En este sentido, la información de Fisher es la cantidad de información que va de los datos a los parámetros.

Considere lo que sucede si hace que el volante sea más sensible. Esto es equivalente a una reparametrización. En ese caso, los datos no quieren ser tan altos por temor a que el auto se sobrevire. Este tipo de reparametrización disminuye la información de Fisher.

Neil G
fuente

Complementario a la buena respuesta de @ NeilG (+1) y para responder a sus preguntas específicas:

Yo diría que cuenta la "precisión" en lugar del "error" en sí mismo.

Recuerde que el Hessian del log-verosimilitud evaluado en las estimaciones de ML es la información de Fisher observada. Los errores estándar estimados son las raíces cuadradas de los elementos diagonales del inverso de la matriz de información de Fisher observada. Partiendo de esto, la información de Fisher es el rastro de la matriz de información de Fisher. Dado que la matriz de información de Fisher es una matriz de matriz semidefinida positiva de Hermit, sus entradas diagonales son reales y no negativas; como consecuencia directa, trace debe ser positivo. Esto significa que solo puede tener estimadores "no ideales" de acuerdo con su afirmación. Entonces, no, una información positiva de Fisher no está relacionada con cuán ideal es su MLE. $I$ $I_{j,j}$ $tr(I)$

La definición difiere en la forma en que interpretamos la noción de información en ambos casos. Dicho esto, las dos medidas están estrechamente relacionadas.

La inversa de la información de Fisher es la varianza mínima de un estimador imparcial ( límite de Cramér-Rao ). En ese sentido, la matriz de información indica cuánta información sobre los coeficientes estimados está contenida en los datos. Por el contrario, la entropía de Shannon se tomó de la termodinámica. Relaciona el contenido de información de un valor particular de una variable como donde es la probabilidad de que la variable tome el valor. Ambas son medidas de cuán "informativa" es una variable. En el primer caso, aunque juzgas esta información en términos de precisión, mientras que en el segundo caso en términos de desorden; lados diferentes, misma moneda! :RE $–p·log_2(p)$ $p$

Para recapitular: la inversa de la matriz de información de Fisher evalué en los valores del estimador ML es la matriz de covarianza asintótica o aproximada. Como los valores de este estimador de ML se encuentran gráficamente en un mínimo local, la información de Fisher muestra cuán profundo es ese mínimo y cuánto margen de maniobra tiene a su alrededor. Encontré este artículo de Lutwak et al. sobre Extensiones de información de Fisher y la desigualdad de Stam, una lectura informativa sobre este asunto. Los artículos de Wikipedia sobre la métrica de información de Fisher y sobre la divergencia de Jensen-Shannon también son buenos para comenzar. $I$

usεr11852 dice Reinstate Monic
fuente