¿MLE siempre significa que conocemos el PDF subyacente de nuestros datos, y EM significa que no?

Tengo algunas preguntas conceptuales simples que me gustaría aclarar con respecto a MLE (Estimación de máxima verosimilitud), y qué vínculo tiene, si lo hay, con EM (Maximización de expectativas).

Según tengo entendido, si alguien dice "Usamos el MLE", ¿significa eso automáticamente que tienen un modelo explícito del PDF de sus datos? Me parece que la respuesta a esto es sí. Dicho de otra manera, si en algún momento alguien dice "MLE", es justo preguntarles qué PDF están asumiendo. ¿Sería esto correcto?

Por último, en EM, entiendo que en EM, en realidad no sabemos, o necesitamos saber, el PDF subyacente de nuestros datos. Este es mi entendimiento.

Gracias.

estimation maximum-likelihood expectation-maximization Creatron
fuente

La "M" en EM significa Maximización ... de probabilidad. Para escribir una probabilidad, necesitamos un pdf. EM es una forma de encontrar MLE en presencia de 'no observables' en algún sentido (que se completan en el paso E). Es decir, para usar EM necesita un modelo explícito.

Glen_b -Reinstate Monica

@Glen_b Gracias Gleb_b. Entonces, 1) ¿sería correcto decir que en EM, como en MLE, siempre asumimos algún modelo del PDF de los datos? Esto significa que si alguien dice "Usamos MLE / EM", podemos preguntar con justicia: "¿Qué? PDF asumió ". ¿Sería una evaluación correcta? 2) Por último, en lo que respecta a EM, creo que los no observables a los que se refiere son las probabilidades de que determinados PDF compongan la mezcla, ¿correcto? Gracias de antemano.

Creatron

Tenga en cuenta que existen métodos no paramétricos de máxima verosimilitud. Mira a Kaplan-Meier.

soakley

Creatron - on (1) Tenga en cuenta que EM es un algoritmo para calcular MLE que de otro modo sería difícil de manejar. En cualquier caso, haría la pregunta un poco más general '¿cuál era su modelo?', Ya que es muy posible que el modelo sea más complejo que un solo pdf. Activado (2) El algoritmo EM no solo se aplica a mezclas; Es más general que eso.

Glen_b -Reinstalar Monica

Respuestas:

El método MLE se puede aplicar en casos en los que alguien conoce la forma funcional básica del pdf (por ejemplo, es gaussiano, log-normal, exponencial o lo que sea), pero no los parámetros subyacentes; por ejemplo, no conocen los valores de y en el pdf: o cualquier otro tipo de pdf que estén asumiendo. El trabajo del método MLE es elegir los mejores valores (es decir, los más plausibles) para los parámetros desconocidos, dadas las mediciones de datos particulares que realmente se observaron . Entonces, para responder a su primera pregunta, sí, siempre tiene derecho a preguntarle a alguien qué $\mu$ $\sigma$

f (x | μ, σ) = \frac{1}{\sqrt{2 π σ^{2}}} \exp [\frac{- (x - μ)^{2}}{2 σ^{2}}]

$f(x|\mu, \sigma) = \frac{1}{\sqrt{2\pi\sigma^{2}}} \exp\left[\frac{-(x-\mu)^{2}}{2 \sigma^{2}}\right]$

x_{1}, x_{2}, x_{3}, . . .

$x_{1}, x_{2}, x_{3}, ...$ forma de pdf que están asumiendo para su estimación de máxima probabilidad; de hecho, los valores estimados de los parámetros que le dicen no son significativos a menos que primero comuniquen ese contexto.

El algoritmo EM, como lo he visto aplicado en el pasado, es más bien una especie de meta algoritmo, en el que faltan algunos de los metadatos, y también hay que estimarlo. Entonces, por ejemplo, tal vez tengo un pdf que es una mezcla de varios gaussianos, por ejemplo: Superficialmente, excepto el Además del parámetro de amplitud , esto se parece mucho al problema anterior, pero ¿qué pasa si te digo que ni siquiera sabemos el valor de (es decir, el número de modos en la mezcla gaussiana) y queremos estimar que a partir de las mediciones de datos

f (x | A_{1}, . . ., A_{N}, μ_{1}, . . ., μ_{N}, σ_{1}, . . . σ_{N}) = \sum_{k = 1}^{N} \frac{A_{k}}{\sqrt{2 π σ_{k}^{2}}} \exp [\frac{- (x - μ_{k})^{2}}{2 σ_{k}^{2}}]

$f(x|A_{1},...,A_{N},\mu_{1},...,\mu_{N}, \sigma_{1},...\sigma_{N}) = \sum_{k=1}^{N} \frac{A_{k}}{\sqrt{2\pi\sigma_{k}^{2}}} \exp\left[\frac{-(x-\mu_{k})^{2}}{2 \sigma_{k}^{2}}\right]$

A_{k}

$A_{k}$

N

$N$

x_{1}, x_{2}, x_{3}, . . .

$x_{1}, x_{2}, x_{3}, ...$ ¿también?

En este caso, tiene un problema, porque cada posible valor de (esta es la parte "meta" a la que aludía anteriormente) realmente genera un modelo diferente, en cierto sentido. Si , entonces tiene un modelo con tres parámetros ( , , ) mientras que si , entonces tiene un modelo con seis parámetros ( , , , , , ). Los mejores valores de ajuste que obtenga para ( , , ) en $N$ $N=1$ $A_{1}$ $\mu_{1}$ $\sigma_{1}$ $N=2$ $A_{1}$ $A_{2}$ $\mu_{1}$ $\mu_{2}$ $\sigma_{1}$ $\sigma_{2}$ $A_{1}$ $\mu_{1}$ $\sigma_{1}$ $N=1$ modelo no se puede comparar directamente con los mejores valores de ajuste que obtiene para esos mismos parámetros en el modelo , porque son modelos diferentes con un número diferente de grados de libertad . $N=2$

El papel del algoritmo EM es proporcionar un mecanismo para hacer ese tipo de comparaciones (por lo general mediante la imposición de una "pena de complejidad" que prefiere los valores más pequeños de ), de modo que podemos elegir el mejor valor para . $N$ $N$

Entonces, para responder a su pregunta original, el algoritmo EM requiere una especificación menos precisa de la forma del pdf; se podría decir que considera un rango de opciones alternativas (por ejemplo, la opción donde , , , etc.) pero aún así requiere que especifique algo sobre la forma matemática básica de esas opciones: todavía tiene que especificar una "familia" de archivos PDF posibles, en cierto sentido, a pesar de que está dejando que el algoritmo decida por usted qué "miembro" de la familia proporciona el mejor ajuste a los datos. $N=1$ $N=2$ $N=3$

stachyra
fuente

Algunos seguimientos de su Excelente respuesta @stachyra: (1): La segunda ecuación (con la sumatoria): ¿es este el PDF de su mezcla? (Lo que significa que ?) (2): en lo que respecta al algoritmo EM mencionado aquí, un poco confundido, es el valor dado como una entrada a EM al principio, o es algo que EM escupirá como una salida al final?

\sum A_{k} = 1

$\sum A_k = 1$

N

$N$

Creatron

(3) Nuevamente para EM, cuando dice "especificar la familia de posibles PDF" para EM, esto significa que le damos "posibilidades" para trabajar, por ejemplo, "Esta información está compuesta por dos gaussianos y un poisson ", o" ¿Estos datos están hechos de 3 PDF de chi-cuadrado y 1 gaussiano ", etc.? Esto es confuso porque significa que especificamos , lo que tomo de tu publicación es algo que EM nos da ...

N

$N$

Creatron

1) Sí, este es el pdf de mi mezcla, y sí, . 2) En la práctica, generalmente da un valor mínimo / máximo de para que el algoritmo lo considere, y recorre todos los valores permitidos para encontrar el mejor. 3) En la mayoría de los casos, las diferentes posibilidades entre las que intenta elegir son solo los diferentes valores posibles de ; por ejemplo, " da un buen ajuste, pero es aún mejor". Si desea considerar alternativas que incluyen una colección más heterogénea de formas funcionales, en principio eso también es posible, pero más complicado de implementar en la práctica.

\sum A_{k} = 1

$\sum A_{k} = 1$

N

$N$

N

$N$

N = 4

$N=4$

N = 5

$N=5$

stachyra

Gracias stachyra Última pregunta, el PDF de la mezcla de datos (dado en su segunda ecuación compuesta por una suma ponderada de PDF), NO es el mismo que el PDF conjunto de todas las muestras de nuestros datos, que es un producto de sus PDF, correcto ? (Suponga que las muestras de datos son IID).

Creatron

No, para nada, son dos cosas completamente diferentes. El pdf conjunto que está describiendo suena mucho más similar a la forma de la función de probabilidad utilizada en MLE. Un libro de texto puede ser útil para usted aquí. Para MLE, me gusta el capítulo 10 de "Reducción de datos y análisis de errores para las ciencias físicas" de Philip R. Bevington y D. Keith Robinson, o la sección 6.1 de "Análisis estadístico de datos" de Glen Cowan. Para un ejemplo específico de cómo hacer un tipo particular de implementación EM, me gusta esta explicación, secciones 2 a 5.

stachyra

MLE requiere conocimiento de al menos las distribuciones marginales. Cuando usamos MLE, generalmente estimamos los parámetros de una distribución conjunta haciendo una suposición iid, luego factorizando la distribución conjunta como un producto de los marginales, lo que sabemos. Hay variaciones, pero esta es la idea en la mayoría de los casos. Entonces MLE es un método paramétrico.

El algoritmo EM es un método para maximizar las funciones de probabilidad que surgen como parte de un algoritmo MLE. A menudo (¿usualmente?) Se usa para soluciones numéricas.

Cada vez que usamos MLE, necesitamos al menos las distribuciones marginales, y algunas suposiciones sobre cómo se relaciona la articulación con los marginales (independencia, etc.). Por lo tanto, ambos métodos se basan en el conocimiento de las distribuciones.

Charles Pehlivanian
fuente

Gracias @Charles que tiene sentido. ¿Qué significa entonces cuando la gente habla de "MLE no paramétrico"? Esa frase no tiene sentido a primera vista. MLE siempre estima un parámetro de la distribución, ¿verdad?

Creatron

Pueden estar hablando de ELE (Estimación de probabilidad empírica). Nunca lo he usado; Trataré de explicar si es necesario. De lo contrario no estoy seguro.

Charles Pehlivanian