MLE para distribución triangular?

12

¿Es posible aplicar el procedimiento MLE habitual a la distribución triangular? - Estoy intentando pero parece que estoy bloqueado en un paso u otro en las matemáticas por la forma en que se define la distribución. Estoy tratando de utilizar el hecho de que sé el número de muestras arriba y abajo de c (sin saber c): estos 2 números son cn y (1-c) n, si n es el número total de muestras. Sin embargo, eso no parece ayudar en la derivación. El momento de los momentos da un estimador para c sin mucho problema. ¿Cuál es la naturaleza exacta de la obstrucción a MLE aquí (si de hecho hay una)?

Más detalles:

Consideremos en y la distribución definida en por: c[0,1][0,1]

f(x;c)=2(1-x)f(x;c)=2xc si x <c si c <= x
f(x;c)=2(1x)(1c)

Tomemos una muestra de iid de esta forma de distribución de la probabilidad de registro de c dada esta muestra:{ x i }n{xi}

l^(c|{xi})=i=1nln(f(xi|c))

Entonces trato de usar el hecho de que dada la forma de , sabemos que las muestras de caerán por debajo de la (desconocida) , y caerá por encima de . En mi humilde opinión, esto permite descomponer la suma en la expresión del log-verosimilitud así:fcnc(1c)nc

l^(c|{xi})=i=1cnln2xic+i=1(1c)nln2(1xi)1c

Aquí, no estoy seguro de cómo proceder. MLE implicará tomar una derivada wrt del log-verosimilitud, pero tengo como el límite superior de la suma, que parece bloquear eso. Podría intentar con otra forma de log-verosimilitud, usando funciones de indicador:cc

l^(c|{xi})=i=1n{xi<c}ln2xic+i=1n{c<=xi}ln2(1xi)1c

Pero derivar los indicadores tampoco parece fácil, aunque los deltas de Dirac podrían permitir continuar (sin dejar de tener indicadores, ya que necesitamos derivar productos).

Entonces, aquí estoy bloqueado en MLE. ¿Alguna idea?

Franco
fuente
Si se trata de algún tema, agregue la etiqueta de autoestudio. Si no es así, explique cómo surge el problema.
Glen_b -Reinstate Monica
Gracias por la actualización; hace que sea mucho más fácil decir cosas sensatas en respuesta, ya que reduce enormemente el alcance de los casos a tratar. ¿Podría por favor considerar mi comentario anterior? O esto cae bajo la etiqueta de autoestudio o no, en cualquier caso, te he preguntado si harías algo.
Glen_b -Reinstate Monica
Esto no es para una tarea o una clase. Surge en mi trabajo. Tenemos otro estimador del método de los momentos, pero estoy tratando de obtener una comprensión más profunda de lo que está sucediendo con MLE aquí.
Frank
Bueno; eso me da más margen de maniobra. Ver mi respuesta actualizada. Probablemente haré nuevas adiciones pronto
Glen_b -Reinstate Monica
Referencias / enlaces
agregados

Respuestas:

10

¿Es posible aplicar el procedimiento MLE habitual a la distribución triangular?

¡Ciertamente! Aunque hay algunas rarezas con las que lidiar, es posible calcular MLE en este caso.

Sin embargo, si por "el procedimiento habitual" se refiere a "tomar derivados de la probabilidad logarítmica y establecerla igual a cero", entonces tal vez no.

¿Cuál es la naturaleza exacta de la obstrucción a MLE aquí (si de hecho hay una)?

¿Has intentado dibujar la probabilidad?

-

Seguimiento después de la aclaración de la pregunta:

La pregunta sobre cómo dibujar la probabilidad no fue un comentario inactivo, sino central en el tema.

MLE implicará tomar un derivado

No. MLE implica encontrar la argmax de una función. Eso solo implica encontrar los ceros de una derivada bajo ciertas condiciones ... que no se mantienen aquí. En el mejor de los casos, si logras hacerlo, identificarás algunos mínimos locales .

Como sugirió mi pregunta anterior, mire la probabilidad.

Aquí hay una muestra, de 10 observaciones de una distribución triangular en (0,1):y

0.5067705 0.2345473 0.4121822 0.3780912 0.3085981 0.3867052 0.4177924
0.5009028 0.8420312 0.2588613

Aquí están las funciones de probabilidad y log-verosimilitud para en esos datos: cprobabilidad de pico de triangular

log-verosimilitud para el pico de triangular

Las líneas grises marcan los valores de los datos (probablemente debería haber generado una nueva muestra para obtener una mejor separación de los valores). Los puntos negros marcan la probabilidad / log-verosimilitud de esos valores.

Aquí hay un acercamiento cercano al máximo de la probabilidad, para ver más detalles:

Detalle de probabilidad

Como puede ver en la probabilidad, en muchas de las estadísticas de pedidos, la función de probabilidad tiene 'esquinas' agudas, puntos donde la derivada no existe (lo cual no es sorprendente, el pdf original tiene una esquina y estamos tomando una producto de pdfs). Este (que hay cúspides en las estadísticas de pedidos) es el caso con la distribución triangular, y el máximo siempre ocurre en una de las estadísticas de pedidos. (Que las cúspides ocurran en las estadísticas de orden no es exclusivo de las distribuciones triangulares; por ejemplo, la densidad de Laplace tiene una esquina y, como resultado, la probabilidad de que su centro tenga una en cada estadística de orden).

Como sucede en mi muestra, el máximo ocurre como la estadística de cuarto orden, 0.3780912

Entonces, para encontrar el MLE de en (0,1), solo encuentre la probabilidad en cada observación. El que tiene la mayor probabilidad es el MLE de .ccc

Una referencia útil es el capítulo 1 de " Beyond Beta " de Johan van Dorp y Samuel Kotz. De hecho, el Capítulo 1 es un capítulo de 'muestra' gratuito para el libro; puede descargarlo aquí .

Hay un pequeño artículo encantador de Eddie Oliver sobre este tema con la distribución triangular, creo que en American Statistician (que hace básicamente los mismos puntos; creo que estaba en el Rincón del Maestro). Si puedo localizarlo, lo daré como referencia.

Editar: aquí está:

EH Oliver (1972), Una rareza de máxima verosimilitud,
The American Statistician , Vol. 26, Número 3, junio, p43-44

( enlace del editor )

Si puede obtenerlo fácilmente, vale la pena echarle un vistazo, pero ese capítulo de Dorp y Kotz cubre la mayoría de los temas relevantes, por lo que no es crucial.


A modo de seguimiento de la pregunta en los comentarios, incluso si pudiera encontrar alguna forma de 'suavizar' las esquinas, aún tendría que lidiar con el hecho de que puede obtener múltiples máximos locales:

dos locales max

Sin embargo, podría ser posible encontrar estimadores que tengan muy buenas propiedades (mejor que el método de los momentos), que puede escribir fácilmente. Pero ML en el triangular en (0,1) es unas pocas líneas de código.

Si se trata de grandes cantidades de datos, eso también puede tratarse, pero creo que sería otra cuestión. Por ejemplo, no todos los puntos de datos pueden ser máximos, lo que reduce el trabajo, y hay otros ahorros que se pueden hacer.

rev Glen_b
fuente
Gracias. Intentaré publicar mi intento fallido, mostrando de qué distribución estoy hablando exactamente y dónde creo que estoy bloqueado.
Frank
¡Gracias por la explicación detallada! Sin embargo, tenía otra idea: supongamos que podría encontrar una familia de funciones que converge a la distribución del triángulo, pero que no sería por partes: ¿podría usar eso para derivar un MLE analíticamente, luego tomar el límite y asumir que tendría un MLE del distribución del triángulo en sí?
Frank
Posiblemente: creo que eso podría depender del proceso de límite particular que use ... y probablemente terminará con varios máximos locales, por lo que probablemente solo le ahorre evaluar la probabilidad cerca de las estadísticas de orden extrema de todos modos, pero incluso si funcionó, ¿por qué tratarías de hacer algo tan complicado? ¿Qué tiene de malo ML en la distribución triangular? Es realmente bastante simple de hacer en la práctica.
Glen_b -Reinstate Monica
2
Debo decir que este MLE para c basado en estadísticas de pedidos es bastante bueno, aunque la derivación en el capítulo anterior requiere algo de trabajo (aunque no demasiado difícil), una buena ilustración de que la esencia de MLE está en la argmax (¡por supuesto!), en lugar de la derivada (como usted señaló, y estoy totalmente de acuerdo, se me ocurrió trabajar aguas arriba del paso derivado "habitual" (es decir, solo preocuparme por maximizar, por cualquier medio), pero no busqué).
Frank
1
@Frank: Una referencia adicional es Huang y Shen (2007) Más rarezas de probabilidad máxima , Journal of Statistical Planning and Inference, Volumen 137, Número 7, julio, pp 2151-2155. Glen: Por estadísticas de pedido , ¿te refieres a los valores ordenados ? xi
COOLSerdash