Considere una variable aleatoria de Bernoulli con parámetro (probabilidad de éxito). La función de probabilidad y la información de Fisher (una matriz ) son:θ 1 × 1
Ahora considere una versión "sobre-parametrizada" con dos parámetros: la probabilidad de éxito y la probabilidad de falla . (Tenga en cuenta que , y esta restricción implica que uno de los parámetros es redundante). En este caso, la función de probabilidad y la matriz de información de Fisher (FIM) son:
Observe que los determinantes de estos dos FIM son idénticos. Además, esta propiedad se extiende al caso más general de modelos categóricos (es decir, más de dos estados). También parece extenderse a modelos log-lineales con varios subconjuntos de parámetros restringidos a cero; en este caso, el parámetro "redundante" adicional corresponde a la función de partición logarítmica, y la equivalencia de los dos determinantes de FIM puede mostrarse en función del complemento de Schur de la FIM más grande. (En realidad, para los modelos log-lineales, la FIM más pequeña es solo el complemento de Schur de la FIM más grande).
¿Alguien puede explicar si esta propiedad se extiende a un conjunto más grande de modelos paramétricos (por ejemplo, a todas las familias exponenciales), lo que permite la opción de derivar los determinantes FIM en función de un conjunto de parámetros "extendido"? Supongo que cualquier modelo estadístico dado con parámetros que se encuentran en una variedad dimensional incrustada en un espacio -dimensional. Ahora, si ampliamos el conjunto de parámetros para incluir una dimensión más (que está totalmente restringida en función de las otras) y calculamos los parámetros basados en FIM , siempre obtendremos el mismo determinante que el basado en el original parámetros (independientes)? Además, ¿cómo se relacionan estos dos FIM?
La razón por la que hago esta pregunta es que la FIM con el parámetro adicional a menudo parece más simple. Mi primer pensamiento es que esto no debería funcionar en general. La FIM implica calcular derivadas parciales de la probabilidad de registro de cada parámetro. Estas derivadas parciales suponen que, mientras el parámetro en cuestión cambia, todos los demás parámetros permanecen constantes, lo que no es cierto una vez que involucramos el parámetro adicional (restringido). En este caso, me parece que las derivadas parciales ya no son válidas porque no podemos asumir que los otros parámetros son constantes; Sin embargo, aún no he encontrado evidencia de que esto sea realmente un problema. (Si las derivadas parciales son problemáticas en casos con parámetros dependientes, son derivadas totalesnecesario en su lugar? Todavía no he visto un ejemplo de cálculo de la FIM con derivados totales, pero tal vez esa sea la solución ...)
El único ejemplo que pude encontrar en línea que computa el FIM basado en un conjunto de parámetros "extendido" es el siguiente: estas notas contienen un ejemplo para la distribución categórica, calculando las derivadas parciales requeridas como de costumbre (es decir, como si cada parámetro fuera independiente , a pesar de que hay una restricción entre los parámetros).
fuente
Respuestas:
Para normal , la matriz de información es Para curva normalEntonces, su observación de que los determinantes son iguales no es universal, pero esa no es toda la historia.X∼N(μ,σ2)
En general, si es la matriz de información bajo la reparametrización entonces, no es difícil ver que la matriz de información para los parámetros originales es donde es el jacobiano de la transformación .Ig
Para el ejemplo de Bernoulli y . Entonces, el jacobiano es y por lo tanto(θ0,θ1)=(p,1−p) g(p)=(p,1−p) (1,−1)′
Para el ejemplo normal curvo,
Creo que ahora puedes relacionar fácilmente los determinantes.
Seguimiento después del comentario
Si lo entendí correctamente, la FIM es válida siempre que extienda los parámetros de manera significativa: la probabilidad bajo una nueva parametrización debería ser una densidad válida. Por lo tanto, llamé al ejemplo de Bernoulli desafortunado.
Creo que el enlace que proporcionó tiene una falla grave en la derivación de la FIM para variables categóricas, ya que tenemos y . La expectativa del hessiano negativo da , pero no para la covarianza de los vectores de puntuación. Si descuida las restricciones, la igualdad de la matriz de información no se cumple.E(x2i)=θi(1−θi)≠θi E(xixj)=θiθj≠0 diag{1/θi}
fuente
Parece que el resultado se cumple para un tipo específico de relación entre los parámetros.
Sin reclamar la generalidad de los resultados a continuación, me quedo con el caso de "uno a dos parámetros". Denote la ecuación implícita que expresa la relación que debe tener entre los dos parámetros. Luego, la probabilidad de registro "extendida correcta", "dos parámetros" (no es lo que calcula el OP-llegaremos allí)g(θ0,θ1)=0
Usando subíndices para denotar derivadas con respecto a los parámetros (una primera derivada del subíndice, dos derivadas de la segunda derivada), el determinante de la arpillera de la probabilidad de registro extendida correcta será
¿Qué está haciendo el OP en su lugar?
Considera la probabilidad incorrecta "ignorando" la relación entre los dos parámetros, y sin tener en cuenta la restricción . Luego procede con la diferenciación y obtieneL∗(θ0,θ1) g(θ0,θ1)
Es evidente que no es en general igual a .(2) (1)
Pero si , entoncesg00=g11=g00=0
Entonces, si la relación entre el parámetro real y el parámetro redundante es tal que las segundas derivadas parciales de la función implícita que las vincula son todas cero , entonces el enfoque que es fundamentalmente incorrecto, termina "correcto".
Para el caso de Bernoulli, de hecho tenemos
APÉNDICEn
Para responder a la pregunta de @Khashaa y mostrar la mecánica aquí, consideramos una probabilidad especificada con un parámetro redundante, pero también bajo una restricción que vincula el parámetro redundante con el verdadero. Lo que hacemos con log-verosimilitudes es maximizarlas, así que aquí tenemos un caso de maximización restringida. Suponga una muestra de tamaño :
Este problema tiene un Langrangeano (lo que informalmente llamé "probabilidad extendida correcta" arriba),
Las condiciones de primer orden para un máximo son
para lo cual obtenemos la relación
usando la restricción bajo la cual lo anterior es válido, obtenemosθ1=1−θ0
como deberíamos
Además, dado que la restricción es lineal en todos los parámetros, sus segundas derivadas serán cero. Esto se refleja en el hecho de que en las primeras derivadas del lagrangeano, el multiplicador "está solo" y se eliminará cuando tomemos las segundas derivadas del lagrangeano. Lo que a su vez nos llevará a un hessiano cuyo determinante será igual a la segunda derivada (unidimensional) de la probabilidad de registro de un parámetro original, después de imponer también la restricción (que es lo que hace el OP). Luego, tomar el negativo del valor esperado en ambos casos, no cambia esta equivalencia matemática, y llegamos a la relación "Información de Fisher unidimensional = determinante de la Información de Fisher bidimensional". Ahoraλ Dado que la restricción es lineal en todos los parámetros, el OP obtiene el mismo resultado (en el segundo nivel derivado) sin introducir la restricción con un multiplicador en la función a maximizar, porque en el segundo nivel derivado, la presencia / efecto de la la restricción desaparece en tal caso.
Todo esto tiene que ver con el cálculo, no con los conceptos estadísticos.
fuente