¿Siempre hay un maximizador para cualquier problema de MLE?

23

Me pregunto si siempre hay un maximizador para cualquier problema de estimación de probabilidad máxima (log). En otras palabras, ¿hay alguna distribución y algunos de sus parámetros, para los cuales el problema MLE no tiene un maximizador?

Mi pregunta proviene de la afirmación de un ingeniero de que la función de costo (probabilidad o log-verosimilitud, no estoy seguro de cuál fue la intención) en MLE siempre es cóncava y, por lo tanto, siempre tiene un maximizador.

¡Gracias y saludos!

Tim
fuente
8
(+1) ¿Está seguro de que no hay algunas calificaciones que no se hayan expresado en su pregunta? Tal como está, la afirmación del ingeniero es falsa en tantas formas diferentes que es casi difícil saber por dónde empezar. :)
cardenal
@cardinal: Básicamente escribí lo que escuché. Pero admito que puedo extrañar algo.
Tim
55
Contraejemplo (convexidad): Sea ser iid . Aunque existe un MLE único, ni la probabilidad ni la probabilidad logarítmica son convexas en . N ( 0 , σ 2 ) σ 2X1,X2,,XnN(0,σ2)σ2
cardenal
3
@Tim Logistic regression es un ejemplo básico donde el MLE no siempre existe. Además, para algunas funciones de enlace, la probabilidad de registro no es cóncava.

Respuestas:

30

Quizás el ingeniero tenía en mente familias exponenciales canónicas: en su parametrización natural, el espacio de parámetros es convexo y la probabilidad logarítmica es cóncava (ver Thm 1.6.3 en Estadística matemática de Bickel & Doksum , Volumen 1 ). Además, bajo algunas condiciones técnicas leves (básicamente que el modelo sea de "rango completo", o de manera equivalente, que el parámetro natural por identificable), la función log-verosimilitud es estrictamente cóncava, lo que implica que existe un maximizador único. (Corolario 1.6.2 en la misma referencia.) [Además, las notas de clase citadas por @biostat hacen el mismo punto.]

Tenga en cuenta que la parametrización natural de una familia exponencial canónica suele ser diferente de la parametrización estándar. Entonces, mientras @cardinal señala que la probabilidad logarítmica para la familia no es convexa en , será cóncava en los parámetros naturales, que son y . σ 2 η 1 = μ / σ 2 η 2 = - 1 / σ 2N(μ,σ2)σ2η1=μ/σ2η2=1/σ2

DavidR
fuente
2
(+1) Buena respuesta. Como se insinuó en mis comentarios al OP, esta es la respuesta que esperaba que se publicara (incluso el contraejemplo fue cuidadosamente elegido con esto en mente). :)
cardenal
2
¿Puedes mostrar esto en el modelo gaussiano multivariante?
Royi
6

La función de probabilidad a menudo alcanza el máximo para la estimación del parámetro de interés. Sin embargo, en algún momento MLE no existe, como para la distribución de mezclas gaussianas o funciones no paramétricas, que tiene más de un pico (bi o multimodal). A menudo me enfrento al problema de estimar la genética de la población con parámetros desconocidos, es decir, tasas de recombinación, efecto de la selección natural.

Una de las razones también @cardinal señala que es un espacio paramétrico ilimitado.

Además, recomendaría el siguiente artículo , consulte la sección 3 (para la función) y la Fig.3. Sin embargo, hay información de documentos bastante útil y útil sobre MLE.

Biostat
fuente
3
Creo que debo estar malentendiendo su ejemplo declarado. ¿Qué funciones cuadráticas tienen más de un pico?
cardenal
@ cardinal: Déjame intentar explicarte. Su punto sobre el parámetro ilimitado es una de las razones por las cuales la función de probabilidad no alcanza el máximo, incluso en un ejemplo simple de distribución normal. Sin embargo, mi punto de vista desde la perspectiva de la optimización es que existe un problema popular de máximos locales y globales. Enfrenté este problema a menudo en genética de poblaciones al estimar las tasas de recombinación. Además, consulte la sección 3 de este artículo (para la función) y la Fig. 3. URL del artículo: citeseerx.ist.psu.edu/viewdoc/…
Biostat
Entonces, ¿está diciendo que "funciones cuadráticas con más de un pico" es una referencia a, por ejemplo, un modelo de mezcla gaussiana, tal vez? Si es así, una edición probablemente podría aclarar algo de confusión.
Cardenal
Ahora está actualizado.
Biostat
2
(+1) Para la actualización. Tenga en cuenta que en los modelos de mezcla gaussiana, tanto la probabilidad ilimitada como los máximos locales múltiples están presentes, en general. Para empeorar las cosas, la probabilidad se vuelve ilimitada en soluciones particularmente patológicas. En general, los máximos múltiples pueden no ser un problema tan malo. En algunos casos, estos máximos convergen entre sí lo suficientemente rápido como para elegir cualquiera de ellos todavía puede producir un estimador razonable (incluso, eficiente) del parámetro de interés asintóticamente.
cardenal
3

Admito que me falta algo, pero ...

Si este es un problema de estimación, y el objetivo es estimar un parámetro desconocido, y se sabe que el parámetro proviene de un conjunto cerrado y acotado, y la función de probabilidad es continua, entonces debe existir un valor para este parámetro que maximice La función de probabilidad. En otras palabras, un máximo tiene que existir. (No es necesario que sea único, pero debe existir al menos un máximo. No hay garantía de que todos los máximos locales sean máximos globales, pero esa no es una condición necesaria para que exista un máximo).

No sé si la función de probabilidad siempre tiene que ser convexa, pero esa no es una condición necesaria para que exista un máximo.

Si he pasado por alto algo, agradecería saber qué es lo que me estoy perdiendo.

DW
fuente
44
En ausencia de supuestos adicionales, la afirmación dada con respecto a los máximos es falsa. Por ejemplo, si el espacio de parámetros está cerrado y acotado y la función de probabilidad es continua en los parámetros, entonces debe existir un máximo. En ausencia de cualquiera de estas condiciones adicionales, el resultado no necesita sostenerse. Con respecto a la convexidad, falla incluso en los ejemplos más simples y comunes. :)
cardenal
2
(+1) La delimitación del espacio de parámetros no se cumple en muchos casos simples, incluso. Pero, para fines prácticos, generalmente sabemos que nuestros parámetros están limitados. :)
cardenal
3

Quizás alguien encuentre útil el siguiente ejemplo simple.

θθ(0 0,1)(0 0,1)θ

{θcabezas1-θcruz.
θ(0 0,1)
mef
fuente