Determinante de la matriz de información de Fisher para un modelo sobreparamizado

10

Considere una variable aleatoria de Bernoulli con parámetro (probabilidad de éxito). La función de probabilidad y la información de Fisher (una matriz ) son:θ 1 × 1X{0,1}θ1×1

L1(θ;X)=p(X|θ)=θX(1θ)1XI1(θ)=detI1(θ)=1θ(1θ)

Ahora considere una versión "sobre-parametrizada" con dos parámetros: la probabilidad de éxito θ1 y la probabilidad de falla θ0 . (Tenga en cuenta que θ1+θ0=1 , y esta restricción implica que uno de los parámetros es redundante). En este caso, la función de probabilidad y la matriz de información de Fisher (FIM) son:

L2(θ1,θ0;X)=p(X|θ1,θ0)=θ1Xθ01XI2(θ1,θ0)=(1θ1001θ0)detI2(θ)=1θ1θ0=1θ1(1θ1)

Observe que los determinantes de estos dos FIM son idénticos. Además, esta propiedad se extiende al caso más general de modelos categóricos (es decir, más de dos estados). También parece extenderse a modelos log-lineales con varios subconjuntos de parámetros restringidos a cero; en este caso, el parámetro "redundante" adicional corresponde a la función de partición logarítmica, y la equivalencia de los dos determinantes de FIM puede mostrarse en función del complemento de Schur de la FIM más grande. (En realidad, para los modelos log-lineales, la FIM más pequeña es solo el complemento de Schur de la FIM más grande).

¿Alguien puede explicar si esta propiedad se extiende a un conjunto más grande de modelos paramétricos (por ejemplo, a todas las familias exponenciales), lo que permite la opción de derivar los determinantes FIM en función de un conjunto de parámetros "extendido"? Supongo que cualquier modelo estadístico dado con parámetros que se encuentran en una variedad dimensional incrustada en un espacio -dimensional. Ahora, si ampliamos el conjunto de parámetros para incluir una dimensión más (que está totalmente restringida en función de las otras) y calculamos los parámetros basados ​​en FIM , siempre obtendremos el mismo determinante que el basado en el original parámetros (independientes)? Además, ¿cómo se relacionan estos dos FIM?nn(n+1)(n+1)n

La razón por la que hago esta pregunta es que la FIM con el parámetro adicional a menudo parece más simple. Mi primer pensamiento es que esto no debería funcionar en general. La FIM implica calcular derivadas parciales de la probabilidad de registro de cada parámetro. Estas derivadas parciales suponen que, mientras el parámetro en cuestión cambia, todos los demás parámetros permanecen constantes, lo que no es cierto una vez que involucramos el parámetro adicional (restringido). En este caso, me parece que las derivadas parciales ya no son válidas porque no podemos asumir que los otros parámetros son constantes; Sin embargo, aún no he encontrado evidencia de que esto sea realmente un problema. (Si las derivadas parciales son problemáticas en casos con parámetros dependientes, son derivadas totales(n+1)×(n+1)necesario en su lugar? Todavía no he visto un ejemplo de cálculo de la FIM con derivados totales, pero tal vez esa sea la solución ...)

El único ejemplo que pude encontrar en línea que computa el FIM basado en un conjunto de parámetros "extendido" es el siguiente: estas notas contienen un ejemplo para la distribución categórica, calculando las derivadas parciales requeridas como de costumbre (es decir, como si cada parámetro fuera independiente , a pesar de que hay una restricción entre los parámetros).

Tyler Streeter
fuente
1
¡Buena pregunta! Creo que la especificación de dos parámetros de la variable aleatoria de Bernoulli es un ejemplo bastante desafortunado, porque sin la restricción, ya no está obligado a ser densidad. ¿Puedes reproducir tu observación para la familia exponencial curva, por ejemplo? p(X|θ1,θ0)=θ1Xθ01X
Khashaa
@Khashaa Supongo que la restricción aplica en el caso de dos parámetros (el que mencionó), por lo que la función de probabilidad seguirá siendo una densidad válida. Además, sí, puedo reproducir esta observación, por ejemplo, para modelos log-lineales con varios subconjuntos de parámetros restringidos a cero; en este caso, el parámetro "redundante" corresponde a la función de partición de registro. θ1+θ2=1
Tyler Streeter
1
¿Qué tal ? N(μ,μ2)
Khashaa

Respuestas:

4

Para normal , la matriz de información es Para curva normalEntonces, su observación de que los determinantes son iguales no es universal, pero esa no es toda la historia.XN(μ,σ2)

I1=(1σ20012σ4)
XN(μ,μ2)
I2=3μ2.

En general, si es la matriz de información bajo la reparametrización entonces, no es difícil ver que la matriz de información para los parámetros originales es donde es el jacobiano de la transformación .Ig

g(θ)=(g1(θ),...,gk(θ)),
I(θ)=GIg(g(θ))G
Gg=g(θ)

Para el ejemplo de Bernoulli y . Entonces, el jacobiano es y por lo tanto (θ0,θ1)=(p,1p)g(p)=(p,1p)(1,1)

I(p)=(11)(1p0011p)(11)=1p(1p)

Para el ejemplo normal curvo,

I2=(12μ)(1μ20012μ4)(12μ)=3μ2.

Creo que ahora puedes relacionar fácilmente los determinantes.

Seguimiento después del comentario

Si lo entendí correctamente, la FIM es válida siempre que extienda los parámetros de manera significativa: la probabilidad bajo una nueva parametrización debería ser una densidad válida. Por lo tanto, llamé al ejemplo de Bernoulli desafortunado.

Creo que el enlace que proporcionó tiene una falla grave en la derivación de la FIM para variables categóricas, ya que tenemos y . La expectativa del hessiano negativo da , pero no para la covarianza de los vectores de puntuación. Si descuida las restricciones, la igualdad de la matriz de información no se cumple. E(xi2)=θi(1θi)θiE(xixj)=θiθj0diag{1/θi}

Khashaa
fuente
Gracias por mencionar el enfoque de transformación jacobiana y por los ejemplos simples y claros. ¿Puede usted (o cualquier otra persona) comentar sobre el siguiente problema que todavía me preocupa: al extender el conjunto de parámetros en una dimensión, como lo estamos haciendo aquí, introducimos una restricción entre los parámetros de modo que cualquier derivada parcial (como lo requiere la FIM) debería ser inválida porque ahora, cuando variamos un parámetro, los otros ya no son constantes. Entonces, ¿la FIM es válida incluso para el conjunto extendido de parámetros, dado que las derivadas parciales no son válidas debido a la restricción adicional?
Tyler Streeter
@TylerStreeter He actualizado mi respuesta para abordar su problema.
Khashaa
3

Parece que el resultado se cumple para un tipo específico de relación entre los parámetros.

Sin reclamar la generalidad de los resultados a continuación, me quedo con el caso de "uno a dos parámetros". Denote la ecuación implícita que expresa la relación que debe tener entre los dos parámetros. Luego, la probabilidad de registro "extendida correcta", "dos parámetros" (no es lo que calcula el OP-llegaremos allí)g(θ0,θ1)=0

Le=L(θ0,θ1)+λg(θ0,θ1)
es equivalente a la probabilidad real , ya que , ( es un multiplicador) y podemos tratar los dos parámetros como independientes, mientras nos diferenciamos.Lg(θ0,θ1)=0λ

Usando subíndices para denotar derivadas con respecto a los parámetros (una primera derivada del subíndice, dos derivadas de la segunda derivada), el determinante de la arpillera de la probabilidad de registro extendida correcta será

(1)DH(Le)=[L00+λg00][L11+λg11][L01+λg01]2=DH(L)

¿Qué está haciendo el OP en su lugar?

Considera la probabilidad incorrecta "ignorando" la relación entre los dos parámetros, y sin tener en cuenta la restricción . Luego procede con la diferenciación y obtieneL(θ0,θ1)g(θ0,θ1)

(2)DH(L)=L00L11[L01]2

Es evidente que no es en general igual a .(2)(1)

Pero si , entoncesg00=g11=g00=0

(1)DH(Le)=L00L11[L01]2=DH(L)=DH(L)

Entonces, si la relación entre el parámetro real y el parámetro redundante es tal que las segundas derivadas parciales de la función implícita que las vincula son todas cero , entonces el enfoque que es fundamentalmente incorrecto, termina "correcto".

Para el caso de Bernoulli, de hecho tenemos

g(θ0,θ1)=θ0+θ11g00=g11=g01=0

APÉNDICE
Para responder a la pregunta de @Khashaa y mostrar la mecánica aquí, consideramos una probabilidad especificada con un parámetro redundante, pero también bajo una restricción que vincula el parámetro redundante con el verdadero. Lo que hacemos con log-verosimilitudes es maximizarlas, así que aquí tenemos un caso de maximización restringida. Suponga una muestra de tamaño :n

maxLn(θ0,θ1)=lnθ0i=1nxi+(ni=1nxi)lnθ1,s.t.θ1=1θ0

Este problema tiene un Langrangeano (lo que informalmente llamé "probabilidad extendida correcta" arriba),

Le=lnθ0i=1nxi+(ni=1nxi)lnθ1+λ(θ11+θ0)

Las condiciones de primer orden para un máximo son

i=1nxiθ0+λ=0,ni=1nxiθ1+λ0=0

para lo cual obtenemos la relación

i=1nxiθ0=ni=1nxiθ1θ1i=1nxi=(ni=1nxi)θ0

usando la restricción bajo la cual lo anterior es válido, obtenemosθ1=1θ0

(1θ0)i=1nxi=(ni=1nxi)θ0

i=1nxi=nθ0θ^0=1ni=1nxi

como deberíamos

Además, dado que la restricción es lineal en todos los parámetros, sus segundas derivadas serán cero. Esto se refleja en el hecho de que en las primeras derivadas del lagrangeano, el multiplicador "está solo" y se eliminará cuando tomemos las segundas derivadas del lagrangeano. Lo que a su vez nos llevará a un hessiano cuyo determinante será igual a la segunda derivada (unidimensional) de la probabilidad de registro de un parámetro original, después de imponer también la restricción (que es lo que hace el OP). Luego, tomar el negativo del valor esperado en ambos casos, no cambia esta equivalencia matemática, y llegamos a la relación "Información de Fisher unidimensional = determinante de la Información de Fisher bidimensional". AhoraλDado que la restricción es lineal en todos los parámetros, el OP obtiene el mismo resultado (en el segundo nivel derivado) sin introducir la restricción con un multiplicador en la función a maximizar, porque en el segundo nivel derivado, la presencia / efecto de la la restricción desaparece en tal caso.

Todo esto tiene que ver con el cálculo, no con los conceptos estadísticos.

Alecos Papadopoulos
fuente
Parece que no puedo seguir tu lógica. ¿Podría explicar por qué como Lagrangean se considera como "probabilidad extendida" correcta, "dos parámetros" de registro? Además, el Hessian es completamente misterioso para mí. ¿Estás calculando la matriz de información observada? Le
Khashaa 01 de
@Khashaa Se establece la terminología de que el "Hessian" es la matriz de segundas derivadas de una función multivariada.
Alecos Papadopoulos
Sería útil si los votantes que votaron aquí publicaron una respuesta , porque el ejemplo específico del OP existe y exige una explicación.
Alecos Papadopoulos
Lo siento, si mi pregunta no estaba clara. Mi pregunta era sobre cómo vinculaste la matriz de Hesse con la de información, ya que no veía ninguna expectativa operando en ella y el resultado parecía una matriz de información observada. Además, ¿puedes explicar por qué es loglikelihood correcto? Supongo que está utilizando algún método basado en principios para evaluar la probabilidad restringida, pero no entiendo cómo funciona. Le
Khashaa
@Khashaa Agregué una exposición usando el ejemplo del OP.
Alecos Papadopoulos