Tengo algunas preguntas conceptuales simples que me gustaría aclarar con respecto a MLE (Estimación de máxima verosimilitud), y qué vínculo tiene, si lo hay, con EM (Maximización de expectativas).
Según tengo entendido, si alguien dice "Usamos el MLE", ¿significa eso automáticamente que tienen un modelo explícito del PDF de sus datos? Me parece que la respuesta a esto es sí. Dicho de otra manera, si en algún momento alguien dice "MLE", es justo preguntarles qué PDF están asumiendo. ¿Sería esto correcto?
Por último, en EM, entiendo que en EM, en realidad no sabemos, o necesitamos saber, el PDF subyacente de nuestros datos. Este es mi entendimiento.
Gracias.
Respuestas:
El método MLE se puede aplicar en casos en los que alguien conoce la forma funcional básica del pdf (por ejemplo, es gaussiano, log-normal, exponencial o lo que sea), pero no los parámetros subyacentes; por ejemplo, no conocen los valores de y en el pdf: o cualquier otro tipo de pdf que estén asumiendo. El trabajo del método MLE es elegir los mejores valores (es decir, los más plausibles) para los parámetros desconocidos, dadas las mediciones de datos particulares que realmente se observaron . Entonces, para responder a su primera pregunta, sí, siempre tiene derecho a preguntarle a alguien quéσ f ( x | μ , σ ) = 1μ σ x1,x2,x3,. . .
El algoritmo EM, como lo he visto aplicado en el pasado, es más bien una especie de meta algoritmo, en el que faltan algunos de los metadatos, y también hay que estimarlo. Entonces, por ejemplo, tal vez tengo un pdf que es una mezcla de varios gaussianos, por ejemplo: Superficialmente, excepto el Además del parámetro de amplitud , esto se parece mucho al problema anterior, pero ¿qué pasa si te digo que ni siquiera sabemos el valor de (es decir, el número de modos en la mezcla gaussiana) y queremos estimar que a partir de las mediciones de datos
En este caso, tiene un problema, porque cada posible valor de (esta es la parte "meta" a la que aludía anteriormente) realmente genera un modelo diferente, en cierto sentido. Si , entonces tiene un modelo con tres parámetros ( , , ) mientras que si , entonces tiene un modelo con seis parámetros ( , , , , , ). Los mejores valores de ajuste que obtenga para ( , , ) enN = 1 A 1norte norte= 1 UN1 σ 1 N = 2μ1 σ1 norte= 2 UN1 UN2 μ1 μ2 σ1 σ2 A1 μ1 σ1 N=1 modelo no se puede comparar directamente con los mejores valores de ajuste que obtiene para esos mismos parámetros en el modelo , porque son modelos diferentes con un número diferente de grados de libertad .N=2
El papel del algoritmo EM es proporcionar un mecanismo para hacer ese tipo de comparaciones (por lo general mediante la imposición de una "pena de complejidad" que prefiere los valores más pequeños de ), de modo que podemos elegir el mejor valor para .N N
Entonces, para responder a su pregunta original, el algoritmo EM requiere una especificación menos precisa de la forma del pdf; se podría decir que considera un rango de opciones alternativas (por ejemplo, la opción donde , , , etc.) pero aún así requiere que especifique algo sobre la forma matemática básica de esas opciones: todavía tiene que especificar una "familia" de archivos PDF posibles, en cierto sentido, a pesar de que está dejando que el algoritmo decida por usted qué "miembro" de la familia proporciona el mejor ajuste a los datos.N=1 N=2 N=3
fuente
MLE requiere conocimiento de al menos las distribuciones marginales. Cuando usamos MLE, generalmente estimamos los parámetros de una distribución conjunta haciendo una suposición iid, luego factorizando la distribución conjunta como un producto de los marginales, lo que sabemos. Hay variaciones, pero esta es la idea en la mayoría de los casos. Entonces MLE es un método paramétrico.
El algoritmo EM es un método para maximizar las funciones de probabilidad que surgen como parte de un algoritmo MLE. A menudo (¿usualmente?) Se usa para soluciones numéricas.
Cada vez que usamos MLE, necesitamos al menos las distribuciones marginales, y algunas suposiciones sobre cómo se relaciona la articulación con los marginales (independencia, etc.). Por lo tanto, ambos métodos se basan en el conocimiento de las distribuciones.
fuente