Esto está en parte motivado por la siguiente pregunta y la discusión que la sigue.
Supongamos que se observa la muestra iid, . El objetivo es estimar . Pero la muestra original no está disponible. En cambio, tenemos algunas estadísticas de la muestra . Supongamos que es fijo. ¿Cómo estimamos ? ¿Cuál sería el estimador de máxima verosimilitud en este caso?
estimation
maximum-likelihood
mpiktas
fuente
fuente
Respuestas:
En este caso, puede considerar una aproximación ABC de la probabilidad (y, en consecuencia, del MLE ) bajo el siguiente supuesto / restricción:
Suposición. El tamaño de muestra original es conocido.n
Esta no es una suposición descabellada dado que la calidad, en términos de convergencia, de los estimadores frecuentistas depende del tamaño de la muestra, por lo tanto, no se pueden obtener estimadores arbitrariamente buenos sin conocer el tamaño de la muestra original.
La idea es generar una muestra a partir de la distribución posterior de y, para producir una aproximación de la MLE , puede utilizar una técnica de muestreo importante como en [1] o considerar un uniforme previo en θ con el apoyo de un establecido como en [2] .θ θ
Voy a describir el método en [2]. En primer lugar, permítanme describir la muestra de ABC.
Muestra de ABC
Sea el modelo que genera la muestra donde θ ∈ Θ es un parámetro (a estimar), T es un estadístico (una función de la muestra) y T 0 es el estadístico observado, en la jerga ABC esto se llama estadística de resumen , ρ será una métrica, π ( θ ) una distribución previa en θ y ϵ > 0 una tolerancia. Luego, la muestra de rechazo ABC se puede implementar de la siguiente manera.f(⋅|θ) θ∈Θ T T0 ρ π(θ) θ ϵ>0
Este algoritmo genera una muestra aproximada de la distribución posterior de dado T ( x ) = T 0θ T(x)=T0 . Por lo tanto, el mejor escenario es cuando la estadística es suficiente pero se pueden usar otras estadísticas. Para una descripción más detallada de esto, vea este documento .T
Ahora, en un marco general, si uno usa un uniforme previo que contiene el MLE en su soporte, entonces el máximo a posteriori (MAP) coincide con el estimador de máxima verosimilitud (MLE). Por lo tanto, si considera un uniforme apropiado antes en el Sampler ABC, puede generar una muestra aproximada de una distribución posterior cuyo MAP coincida con el MLE. El paso restante consiste en estimar este modo. Este problema se ha discutido en CV, por ejemplo en "Estimación computacionalmente eficiente del modo multivariante" .
Un ejemplo de juguete
Let ser una muestra de un N ( μ , 1 ) y supongamos que la única información disponible a partir de esta muestra es ˉ x = 1(x1,...,xn) N(μ,1) . Seaρla métrica euclidiana enRyϵ=0.001. El siguiente código R muestra cómo obtener un MLE aproximado usando los métodos descritos anteriormente usando una muestra simulada conn=100yμ=0, una muestra de la distribución posterior de tamaño1000, un uniforme previo paraμon(-0.3,0.3), y un estimador de densidad del núcleo para la estimación del modo de la muestra posterior (MAP = MLE).x¯=1n∑nj=1xj ρ R ϵ=0.001 n=100 μ=0 1000 μ (−0.3,0.3)
Como puede ver, usando una tolerancia pequeña obtenemos una muy buena aproximación del MLE (que en este ejemplo trivial se puede calcular a partir de la estadística dado que es suficiente). Es importante notar que la elección del resumen estadístico es crucial. Los cuantiles suelen ser una buena opción para la estadística de resumen, pero no todas las opciones producen una buena aproximación. Puede darse el caso de que la estadística resumida no sea muy informativa y que la calidad de la aproximación sea pobre, lo cual es bien conocido en la comunidad ABC.
Actualización: recientemente se publicó un enfoque similar en Fan et al. (2012) . Vea esta entrada para una discusión sobre el documento.
fuente
Todo depende de si o no la distribución conjunta de los 's se conoce. Si es, por ejemplo, ( T 1 , ... , T k ) ∼ g ( t 1 , ... , t k | θ , n ), entonces puede realizar una estimación de máxima verosimilitud basada en esta distribución conjunta. Tenga en cuenta que, a menos que ( T 1 , ... , T k ) sea suficiente, esto casi siempre será una probabilidad máxima diferente que cuando se usan los datos sin procesar (Ti
Si la distribución conjunta anterior con densidad no está disponible, la solución propuesta por Procrastinator es bastante apropiada.g
fuente
El estimador de máxima verosimilitud (frecuentista) es el siguiente:
Para en la familia exponencial, y si sus estadísticas son suficientes su probabilidad de ser maximizado siempre se puede escribir en la forma: l ( θ | t ) = exp ( - ψ ( θ ) + ⟨ T , φ ( θ ) ⟩ ) , donde ⟨ ⋅ , ⋅ ⟩ es el producto escalar, T es el vector de suf. estadísticas y ψ ( ⋅ ) y ϕ ( ⋅ )F
La forma en que usted maximiza la probabilidad depende principalmente de la posibilidad de escribir la probabilidad analíticamente de manera manejable. Si esto es posible, podrá considerar algoritmos de optimización generales (newton-raphson, simplex ...). Si no tiene una probabilidad manejable, puede que le resulte más fácil calcular una expectación condicional como en el algoritmo EM, que también generará estimaciones de probabilidad máxima bajo hipótesis bastante asequibles.
Mejor
fuente