Estoy tratando de demostrar que la matriz de información observada evaluada en el estimador de máxima verosimilitud débilmente consistente (MLE), es un estimador débilmente consistente de la matriz de información esperada. Este es un resultado ampliamente citado, pero nadie da una referencia o una prueba (creo que he agotado las primeras 20 páginas de resultados de Google y mis libros de texto de estadísticas).
Usando una secuencia débilmente consistente de MLEs, puedo usar la ley débil de números grandes (WLLN) y el teorema de mapeo continuo para obtener el resultado que quiero. Sin embargo, creo que el teorema de mapeo continuo no se puede usar. En cambio, creo que la ley uniforme de grandes números (ULLN) necesita ser utilizada. ¿Alguien sabe de una referencia que tenga una prueba de esto? Tengo un intento en el ULLN pero lo omito por ahora por brevedad.
Pido disculpas por la longitud de esta pregunta, pero hay que introducir la notación. La notación es como sigue (mi prueba está al final).
Supongamos que tenemos una muestra iid de variables aleatorias con densidades , donde (aquí es solo una variable aleatoria general con la misma densidad que cualquiera de los miembros de la muestra). El vector Y = (Y_1, \ ldots, Y_N) ^ {T} es el vector de todos los vectores de muestra donde Y_ {i} \ in \ mathbb {R} ^ {n} para todos i = 1, \ ldots, N . El verdadero valor del parámetro de las densidades es \ theta_ {0} , y \ hat {\ theta} _ {N} (Y) es el estimador de máxima verosimilitud (MLE) débilmente consistente de \ theta_ {0}{ Y 1 , ... , Y N }
I ( θ ) = - E θ [ H θ ( log f ( ˜ Y | θ ) ]
donde H θ
I N ( θ ) = N ∑ i = 1 I y i ( θ ) ,
donde I y i = - E θ [ H θ ( log f ( Y i | θ ) ]
J ( θ ) = - H θ ( log f ( y | θ )
(Algunas personas demandan que la matriz se evalúe en θ
J N ( θ ) = ∑ N i = 1 J y i ( θ )
donde J y i ( θ ) = - H θ ( log f ( y i | θ )
Puedo probar la convergencia en la probabilidad del estimador a , pero no de a . Aquí está mi prueba hasta ahora;N - 1 J N ( θ ) I ( θ ) N - 1 J N ( θ N ( Y ) ) I ( θ 0 )
Ahora es elemento de , para cualquier . Si la muestra es iid, entonces, por la ley débil de números grandes (WLLN), el promedio de estos sumandos converge en probabilidad a . Así para todas las , y así . Desafortunadamente no podemos concluir simplemente( J N ( θ ) ) r s = - ∑ N i = 1 ( H θ ( log f ( Y i | θ ) ) r s
Cualquier ayuda en esto sería muy apreciada.
Respuestas:
Supongo que establecer directamente algún tipo de ley uniforme de grandes números es un enfoque posible.
Aquí está otro.
Queremos mostrar que .J N ( θ M L E )N P ⟶ I(θ∗)JN(θMLE)N⟶PI(θ∗)
(Como dijiste, tenemos por WLLN que . Pero esto no nos ayuda directamente).J N ( θ )NP⟶I(θ)JN(θ)N⟶PI(θ)
Una posible estrategia es mostrar que |I(θ∗)−JN(θ∗)N|P⟶0.
y
|JN(θMLE)N−JN(θ∗)N|P⟶0
Si ambos resultados son verdaderos, entonces podemos combinarlos para obtener |I(θ∗)−JN(θMLE)N|P⟶0,
que es exactamente lo que queremos mostrar.
La primera ecuación se deriva de la ley débil de los grandes números.
El segundo casi se desprende del teorema de mapeo continuo, pero desafortunadamente nuestra función que queremos aplicar CMT a los cambios con : nuestra es realmente . Entonces no podemos usar el CMT.g()g() NN gg gN(θ):=JN(θ)NgN(θ):=JN(θ)N
(Comentario: si examina la prueba de CMT en Wikipedia, observe que el conjunto que definen en su prueba para nosotros ahora también depende de . Esencialmente necesitamos algún tipo de equicontinuidad en sobre nuestras funciones .)BδBδ nn θ∗θ∗ gN(θ)gN(θ)
Afortunadamente, si supone que la familia es estocástico equicontinuo en , luego se deduce inmediatamente que para , G={gN|N=1,2,…}G={gN|N=1,2,…} θ∗θ∗ θMLEP⟶θ∗θMLE⟶Pθ∗ |gn(θMLE)−gn(θ∗)|P⟶0.
(Ver aquí: http://www.cs.berkeley.edu/~jordan/courses/210B-spring07/lectures/stat210b_lecture_12.pdf para obtener una definición de equicontinuidad estocástica en , y una prueba del hecho anterior. )θ∗θ∗
Por lo tanto, suponiendo que es SE en , el resultado deseado es verdadero y la información empírica de Fisher converge con la información de la población de Fisher.GG θ∗θ∗
Ahora, la pregunta clave, por supuesto, es, ¿qué tipo de condiciones necesita imponer a para obtener SE? Parece que una forma de hacer esto es establecer una condición de Lipshitz en toda la clase de funciones (ver aquí: http://econ.duke.edu/uploads/media_items/uniform-convergence-and-stochastic -equicontinuity.original.pdf ).GG GG
fuente
La respuesta anterior usando equicontinuidad estocástica funciona muy bien, pero aquí estoy respondiendo mi propia pregunta usando una ley uniforme de números grandes para mostrar que la matriz de información observada es un estimador fuertemente consistente de la matriz de información, es decir, si conectamos una secuencia de estimadores muy consistente. Espero que sea correcto en todos los detalles.N−1JN(ˆθN(Y))a.s.⟶I(θ0)N−1JN(θ^N(Y))⟶a.s.I(θ0)
Usaremos para ser un conjunto de índices, y adoptemos temporalmente la notación para ser explícito sobre la dependencia de del vector aleatorio . También trabajaremos por elementos con y , , para esta discusión. La función tiene un valor real en el conjunto , y supondremos que es Lebesgue medible para cadaIN={1,2,...,N}IN={1,2,...,N} J(˜Y,θ):=J(θ)J(Y~,θ):=J(θ) J(θ)J(θ) ˜YY~ (J(˜Y,θ))rs(J(Y~,θ))rs (JN(θ))rs=∑Ni=1(J(Yi,θ))rs(JN(θ))rs=∑Ni=1(J(Yi,θ))rs r,s=1,...,kr,s=1,...,k (J(⋅,θ))rs(J(⋅,θ))rs Rn×Θ∘Rn×Θ∘ θ∈Θ∘θ∈Θ∘ . Una ley uniforme (fuerte) de grandes números define un conjunto de condiciones bajo las cuales
supθ∈Θ|N−1(JN(θ))rs−Eθ[(J(Y1,θ))rs]|=supθ∈Θ|N−1∑Ni=1(J(Yi,θ))rs−(I(θ))rs|a.s⟶0(1)supθ∈Θ∣∣N−1(JN(θ))rs−Eθ[(J(Y1,θ))rs]∣∣=supθ∈Θ∣∣N−1∑Ni=1(J(Yi,θ))rs−(I(θ))rs∣∣⟶a.s0(1)
Las condiciones que deben cumplirse para que (1) se cumplan son (a) es un conjunto compacto; (b) es una función continua en con probabilidad 1; (c) para cada está dominado por una función , es decir ; y (d) para cada ;. Estas condiciones provienen de Jennrich (1969, Teorema 2).Θ∘Θ∘ (J(˜Y,θ))rs(J(Y~,θ))rs Θ∘Θ∘ θ∈Θ∘ (J(˜Y,θ))rsh(˜Y)|(J(˜Y,θ))rs|<h(˜Y)θ∈Θ∘ Eθ[h(˜Y)]<∞
Ahora, para cualquier , y , la siguiente desigualdad obviamente es válidayi∈Rni∈INθ′∈S⊆Θ∘
|N−1∑Ni=1(J(yi,θ′))rs−(I(θ′))rs|≤supθ∈S|N−1∑Ni=1(J(yi,θ))rs−(I(θ))rs|.(2)
Suponga que es una secuencia de estimadores muy consistente para , y deje que sea una bola abierta en con radio como , y supongamos que es compacto. Entonces, dado que para suficientemente grande tenemos para suficientemente grande . Junto con (2) esto implica{ˆθN(Y)}θ0ΘN1=BδN1(θ0)⊆K⊆Θ∘RkδN1→0N1→∞KˆθN(Y)∈ΘN1NP[limN{ˆθN(Y)∈ΘN1}]=1N
P[limN→∞{|N−1∑Ni=1(J(Yi,ˆθN(Y)))rs−(I(ˆθN(Y)))rs|≤supθ∈ΘN1|N−1∑Ni=1(J(Yi,θ))rs−(I(θ))rs|}]=1.(3)
Ahora implica que las condiciones (a) - (d) de Jennrich (1969, Teorema 2) se aplican a . Así (1) y (3) implicanΘN1⊆Θ∘ΘN1
P[limN→∞{|N−1∑Ni=1(J(Yi,ˆθN(Y)))rs−(I(ˆθN(Y)))rs|=0}]=1.(4)
Ya que entonces (4) implica que . Tenga en cuenta que (3) se mantiene por pequeño que sea , por lo que el resultado en (4) es independiente de la elección de no sea debe elegirse de modo que . Este resultado es válido para todas las , y así, en términos de matrices, tenemos .(I(ˆθN(Y)))rsa.s.⟶I(θ0)N−1(JN(ˆθN(Y)))rsa.s.⟶(I(θ0))rsΘN1N1N1ΘN1⊆Θ∘r,s=1,...,kN−1JN(ˆθN(Y))a.s.⟶I(θ0)
fuente