La matriz de información observada es un estimador consistente de la matriz de información esperada?

16

Estoy tratando de demostrar que la matriz de información observada evaluada en el estimador de máxima verosimilitud débilmente consistente (MLE), es un estimador débilmente consistente de la matriz de información esperada. Este es un resultado ampliamente citado, pero nadie da una referencia o una prueba (creo que he agotado las primeras 20 páginas de resultados de Google y mis libros de texto de estadísticas).

Usando una secuencia débilmente consistente de MLEs, puedo usar la ley débil de números grandes (WLLN) y el teorema de mapeo continuo para obtener el resultado que quiero. Sin embargo, creo que el teorema de mapeo continuo no se puede usar. En cambio, creo que la ley uniforme de grandes números (ULLN) necesita ser utilizada. ¿Alguien sabe de una referencia que tenga una prueba de esto? Tengo un intento en el ULLN pero lo omito por ahora por brevedad.

Pido disculpas por la longitud de esta pregunta, pero hay que introducir la notación. La notación es como sigue (mi prueba está al final).

Supongamos que tenemos una muestra iid de variables aleatorias con densidades , donde (aquí es solo una variable aleatoria general con la misma densidad que cualquiera de los miembros de la muestra). El vector Y = (Y_1, \ ldots, Y_N) ^ {T} es el vector de todos los vectores de muestra donde Y_ {i} \ in \ mathbb {R} ^ {n} para todos i = 1, \ ldots, N . El verdadero valor del parámetro de las densidades es \ theta_ {0} , y \ hat {\ theta} _ {N} (Y) es el estimador de máxima verosimilitud (MLE) débilmente consistente de \ theta_ {0}{ Y 1 , ... , Y N } {Y1,,YN}f ( ˜ Y | θ ) f(Y~|θ)θ Θ R k θΘRk˜ YY~ Y = ( Y 1 , ... , Y N ) TY=(Y1,,YN)T Y iR nYiRn i = 1 , ... , N i=1,,Nθ 0 θ N ( Y ) theta 0θ0θ^N(Y)θ0. Sujeto a condiciones de regularidad, la matriz de información de Fisher se puede escribir como

I ( θ ) = - E θ [ H θ ( log f ( ˜ Y | θ ) ]

I(θ)=Eθ[Hθ(logf(Y~|θ)]

donde H θHθ es la matriz de Hesse. El equivalente de la muestra es

I N ( θ ) = N i = 1 I y i ( θ ) ,

IN(θ)=i=1NIyi(θ),

donde I y i = - E θ [ H θ ( log f ( Y i | θ ) ]Iyi=Eθ[Hθ(logf(Yi|θ)] . La matriz de información observada es;

J ( θ ) = - H θ ( log f ( y | θ )J(θ)=Hθ(logf(y|θ) ,

(Algunas personas demandan que la matriz se evalúe en θθ^ pero otras no). La muestra de matriz de información observada es;

J N ( θ ) = N i = 1 J y i ( θ )JN(θ)=Ni=1Jyi(θ)

donde J y i ( θ ) = - H θ ( log f ( y i | θ )Jyi(θ)=Hθ(logf(yi|θ) .

Puedo probar la convergencia en la probabilidad del estimador a , pero no de a . Aquí está mi prueba hasta ahora;N - 1 J N ( θ ) I ( θ ) N - 1 J N ( θ N ( Y ) ) I ( θ 0 )N1JN(θ)I(θ)N1JN(θ^N(Y))I(θ0)

Ahora es elemento de , para cualquier . Si la muestra es iid, entonces, por la ley débil de números grandes (WLLN), el promedio de estos sumandos converge en probabilidad a . Así para todas las , y así . Desafortunadamente no podemos concluir simplemente( J N ( θ ) ) r s = - N i = 1 ( H θ ( log f ( Y i | θ ) ) r s(JN(θ))rs=Ni=1(Hθ(logf(Yi|θ))rs ( r , s ) (r,s)J N ( θ ) JN(θ)r , s = 1 , , k r,s=1,,k- E θ [ ( H θ ( log f ( Y 1 | θ ) ) r s ] = ( I Y 1 ( θ ) ) r s = ( I ( θ ) ) r s N - 1 ( J N (θ) ) r s P (I(θ) ) r s r,s=1,...,k NEθ[(Hθ(logf(Y1|θ))rs]=(IY1(θ))rs=(I(θ))rsN1(JN(θ))rsP(I(θ))rsr,s=1,,k- 1 J N (θ) P I(θ) N - 1 J N ( θ N (Y)) P I( θ 0 ) N - 1 J N ()I()N1JN(θ)PI(θ)N1JN(θ^N(Y))PI(θ0)usando el teorema de mapeo continuo ya que no es la misma función que .N1JN()I()

Cualquier ayuda en esto sería muy apreciada.

dandar
fuente
¿Mi respuesta debajo de la dirección responde a su pregunta?
Dapz
1
@Dapz Acepte mis más sinceras disculpas por no responderle hasta ahora. Cometí el error de suponer que nadie respondería. Gracias por su respuesta a continuación: la he votado ya que puedo ver que es más útil, sin embargo, necesito pasar un poco de tiempo considerándola. Gracias por su tiempo, y responderé a su publicación a continuación pronto.
dandar

Respuestas:

7

Supongo que establecer directamente algún tipo de ley uniforme de grandes números es un enfoque posible.

Aquí está otro.

Queremos mostrar que .J N ( θ M L E )N P I(θ)JN(θMLE)NPI(θ)

(Como dijiste, tenemos por WLLN que . Pero esto no nos ayuda directamente).J N ( θ )NPI(θ)JN(θ)NPI(θ)

Una posible estrategia es mostrar que |I(θ)JN(θ)N|P0.

|I(θ)JN(θ)N|P0.

y

|JN(θMLE)NJN(θ)N|P0

|JN(θMLE)NJN(θ)N|P0

Si ambos resultados son verdaderos, entonces podemos combinarlos para obtener |I(θ)JN(θMLE)N|P0,

|I(θ)JN(θMLE)N|P0,

que es exactamente lo que queremos mostrar.

La primera ecuación se deriva de la ley débil de los grandes números.

El segundo casi se desprende del teorema de mapeo continuo, pero desafortunadamente nuestra función que queremos aplicar CMT a los cambios con : nuestra es realmente . Entonces no podemos usar el CMT.g()g()NNgggN(θ):=JN(θ)NgN(θ):=JN(θ)N

(Comentario: si examina la prueba de CMT en Wikipedia, observe que el conjunto que definen en su prueba para nosotros ahora también depende de . Esencialmente necesitamos algún tipo de equicontinuidad en sobre nuestras funciones .)BδBδnnθθgN(θ)gN(θ)

Afortunadamente, si supone que la familia es estocástico equicontinuo en , luego se deduce inmediatamente que para , G={gN|N=1,2,}G={gN|N=1,2,}θθθMLEPθθMLEPθ|gn(θMLE)gn(θ)|P0.

|gn(θMLE)gn(θ)|P0.

(Ver aquí: http://www.cs.berkeley.edu/~jordan/courses/210B-spring07/lectures/stat210b_lecture_12.pdf para obtener una definición de equicontinuidad estocástica en , y una prueba del hecho anterior. )θθ

Por lo tanto, suponiendo que es SE en , el resultado deseado es verdadero y la información empírica de Fisher converge con la información de la población de Fisher.GGθθ

Ahora, la pregunta clave, por supuesto, es, ¿qué tipo de condiciones necesita imponer a para obtener SE? Parece que una forma de hacer esto es establecer una condición de Lipshitz en toda la clase de funciones (ver aquí: http://econ.duke.edu/uploads/media_items/uniform-convergence-and-stochastic -equicontinuity.original.pdf ).GGGG

Dapz
fuente
1

La respuesta anterior usando equicontinuidad estocástica funciona muy bien, pero aquí estoy respondiendo mi propia pregunta usando una ley uniforme de números grandes para mostrar que la matriz de información observada es un estimador fuertemente consistente de la matriz de información, es decir, si conectamos una secuencia de estimadores muy consistente. Espero que sea correcto en todos los detalles.N1JN(ˆθN(Y))a.s.I(θ0)N1JN(θ^N(Y))a.s.I(θ0)

Usaremos para ser un conjunto de índices, y adoptemos temporalmente la notación para ser explícito sobre la dependencia de del vector aleatorio . También trabajaremos por elementos con y , , para esta discusión. La función tiene un valor real en el conjunto , y supondremos que es Lebesgue medible para cadaIN={1,2,...,N}IN={1,2,...,N}J(˜Y,θ):=J(θ)J(Y~,θ):=J(θ)J(θ)J(θ)˜YY~(J(˜Y,θ))rs(J(Y~,θ))rs(JN(θ))rs=Ni=1(J(Yi,θ))rs(JN(θ))rs=Ni=1(J(Yi,θ))rsr,s=1,...,kr,s=1,...,k(J(,θ))rs(J(,θ))rsRn×ΘRn×ΘθΘθΘ. Una ley uniforme (fuerte) de grandes números define un conjunto de condiciones bajo las cuales

supθΘ|N1(JN(θ))rsEθ[(J(Y1,θ))rs]|=supθΘ|N1Ni=1(J(Yi,θ))rs(I(θ))rs|a.s0(1)supθΘN1(JN(θ))rsEθ[(J(Y1,θ))rs]=supθΘN1Ni=1(J(Yi,θ))rs(I(θ))rsa.s0(1)

Las condiciones que deben cumplirse para que (1) se cumplan son (a) es un conjunto compacto; (b) es una función continua en con probabilidad 1; (c) para cada está dominado por una función , es decir ; y (d) para cada ;. Estas condiciones provienen de Jennrich (1969, Teorema 2).ΘΘ(J(˜Y,θ))rs(J(Y~,θ))rsΘΘθΘ (J(˜Y,θ))rsh(˜Y)|(J(˜Y,θ))rs|<h(˜Y)θΘ Eθ[h(˜Y)]<

Ahora, para cualquier , y , la siguiente desigualdad obviamente es válidayiRniINθSΘ

|N1Ni=1(J(yi,θ))rs(I(θ))rs|supθS|N1Ni=1(J(yi,θ))rs(I(θ))rs|.(2)

Suponga que es una secuencia de estimadores muy consistente para , y deje que sea ​​una bola abierta en con radio como , y supongamos que es compacto. Entonces, dado que para suficientemente grande tenemos para suficientemente grande . Junto con (2) esto implica{ˆθN(Y)}θ0ΘN1=BδN1(θ0)KΘRkδN10N1KˆθN(Y)ΘN1NP[limN{ˆθN(Y)ΘN1}]=1N

P[limN{|N1Ni=1(J(Yi,ˆθN(Y)))rs(I(ˆθN(Y)))rs|supθΘN1|N1Ni=1(J(Yi,θ))rs(I(θ))rs|}]=1.(3)

Ahora implica que las condiciones (a) - (d) de Jennrich (1969, Teorema 2) se aplican a . Así (1) y (3) implicanΘN1ΘΘN1

P[limN{|N1Ni=1(J(Yi,ˆθN(Y)))rs(I(ˆθN(Y)))rs|=0}]=1.(4)

Ya que entonces (4) implica que . Tenga en cuenta que (3) se mantiene por pequeño que sea , por lo que el resultado en (4) es independiente de la elección de no sea debe elegirse de modo que . Este resultado es válido para todas las , y así, en términos de matrices, tenemos .(I(ˆθN(Y)))rsa.s.I(θ0)N1(JN(ˆθN(Y)))rsa.s.(I(θ0))rsΘN1N1N1ΘN1Θr,s=1,...,kN1JN(ˆθN(Y))a.s.I(θ0)

dandar
fuente