Familia exponencial: estadísticas suficientes observadas versus esperadas

10

Mi pregunta surge de la lectura de Minka "Estimación de una distribución de Dirichlet" , que establece lo siguiente sin pruebas en el contexto de derivar un estimador de máxima verosimilitud para una distribución de Dirichlet basado en observaciones de vectores aleatorios:

Como siempre con la familia exponencial, cuando el gradiente es cero, las estadísticas suficientes esperadas son iguales a las estadísticas suficientes observadas.

No he visto la estimación de máxima verosimilitud en la familia exponencial presentada de esta manera, ni he encontrado ninguna explicación adecuada en mi búsqueda. ¿Alguien puede ofrecer una idea de la relación entre las estadísticas suficientes observadas y esperadas, y tal vez ayudar a comprender la estimación de máxima verosimilitud como minimizar su diferencia?

Ben Bray
fuente

Respuestas:

11

Esta es una afirmación habitual sobre la familia exponencial, pero en mi opinión, la mayoría de las veces se afirma de una manera que puede confundir al lector menos experimentado. Debido a que, tomado al pie de la letra, podría interpretarse como "si nuestra variable aleatoria sigue una distribución en la familia exponencial, entonces si tomamos una muestra y la insertamos en la estadística suficiente, obtendremos el verdadero valor esperado de la estadística ". Si solo fuera así ... Más sobre esto no tiene en cuenta el tamaño de la muestra, lo que puede causar más confusión.

La función de densidad exponencial es

(1)fX(x)=h(x)eη(θ)T(x)eA(θ)

donde es la estadística suficiente.T(x)

Como esta es una densidad, tiene que integrarse a la unidad, entonces ( es el soporte de )SxX

(2)Sxh(x)eη(θ)T(x)eA(θ)dx=1

Eq. cumple para all para que podamos diferenciar ambos lados con respecto a él:(2)θ

(3)θSxh(x)eη(θ)T(x)eA(θ)dx=(1)θ=0

Intercambiando el orden de diferenciación e integración, obtenemos

(4)Sxθ(h(x)eη(θ)T(x)eA(θ))dx=0

Realizando la diferenciación que tenemos

(5)θ(h(x)eη(θ)T(x)eA(θ))=fX(x)[T(x)η(θ)A(θ)]

Al insertar en obtenemos(5)(4)

SxfX(x)[T(x)η(θ)A(θ)]dx=0

(6)η(θ)E[T(X)]A(θ)=0E[T(X)]=A(θ)η(θ)

Ahora preguntamos: el lado izquierdo de es un número real. Entonces, el lado derecho también debe ser un número real y no una función . Por lo tanto, debe evaluarse en un específico , y debe ser el "verdadero" , de lo contrario en el lado izquierdo no tendríamos el verdadero valor esperado de . Para enfatizar esto, denotamos el valor verdadero por , y reescribimos como(6)θθT(X)θ0(6)

(6a)Eθ0[T(X)]=A(θ)η(θ)|θ=θ0

Pasamos ahora a la estimación de máxima verosimilitud . La probabilidad de registro para una muestra de tamaño esn

L(θx)=i=1nlnh(xi)+η(θ)i=1nT(xi)nA(θ)

Al establecer su derivada con respecto a igual a , obtenemos el MLEθ0

(7)θ^(x):1ni=1nT(xi)=A(θ)η(θ)|θ=θ^(x)

Compare con . Los lados derechos no son iguales, ya que no podemos argumentar que el estimador MLE golpeó el valor verdadero. Entonces tampoco lo son los lados izquierdos. Pero recuerda que la ecuación. cumple para todos y también para también. Entonces los pasos en la ecuación. se pueden tomar con respecto a y así podemos escribir eq. para :(7)(6a)2 θθ^3,4,5,6θ^6aθ^

(6b)Eθ^(x)[T(X)]=A(θ)η(θ)|θ=θ^(x)

que, combinado con , nos lleva a la relación válida(7)

Eθ^(x)[T(X)]=1ni=1nT(xi)

que es lo que realmente dice la afirmación bajo examen: el valor esperado de la estadística suficiente bajo el MLE para los parámetros desconocidos (en otras palabras, el valor del primer momento bruto de la distribución que obtendremos si usamos en lugar de ), es igual (y no solo se aproxima por) el promedio de la estadística suficiente calculada a partir de la muestra . θ^(x)θx

Además, solo si el tamaño de la muestra es entonces podríamos decir con precisión, "el valor esperado de la estadística suficiente bajo el MLE es igual a la estadística suficiente".n=1

Alecos Papadopoulos
fuente
¿Podría explicarnos por qué la transición de 6a a 6b es válida, por favor?
Theoden
1
@Theoden entre eq. y que escribo "eq sostiene para todos " - y por lo tanto para también. Entonces todos los pasos en la ecuación. se pueden tomar con respecto a . Repetí esta observación en el texto para mayor claridad. (2)(3)(2) θθ^3,4,5,6θ^
Alecos Papadopoulos
@AlecosPapadopoulos, su prueba a continuación parece sugerir que lo que usted dice al principio: "si nuestra variable aleatoria sigue una distribución en la familia exponencial, entonces si tomamos una muestra y la insertamos en la estadística suficiente, obtendremos el verdadero valor esperado de la estadística "es cierto. Quiero decir que siempre puedo hacer eso para (2), reemplazándolo con estadísticas suficientes observadas y obtener el resultado. ¿Que me estoy perdiendo aqui? No lo entiendo del todo.
user10024395
@ user136266 El verdadero valor esperado de la estadística es , y para ser calculado, uno necesita conocer, por diseño desconocido, el parámetro . Entonces, lo que realmente podemos calcular es que es el valor esperado de la estadística bajo el supuesto de que nuestra estimación puntual ha alcanzado el valor verdadero . 6aθ6b
Alecos Papadopoulos
1
¿Podría explicar por qué podemos intercambiar el orden de diferenciación e integración en la ecuación? (3) por favor?
Markus777