Me pregunto si alguna vez se utilizó la estimación de máxima verosimilitud en las estadísticas. Aprendemos el concepto, pero me pregunto cuándo se usa realmente. Si asumimos la distribución de los datos, encontramos dos parámetros, uno para la media y otro para la varianza, pero ¿realmente lo usa en situaciones reales?
¿Alguien puede decirme un caso simple en el que se utiliza?
estimation
maximum-likelihood
usuario122358
fuente
fuente
Respuestas:
¡Ciertamente! En realidad bastante, pero no siempre.
Cuando las personas tienen un modelo de distribución paramétrico, a menudo eligen usar la estimación de máxima verosimilitud. Cuando el modelo es correcto, hay varias propiedades útiles de los estimadores de máxima verosimilitud.
Por ejemplo, el uso de modelos lineales generalizados está bastante extendido y en ese caso los parámetros que describen la media se estiman por máxima probabilidad.
Puede suceder que algunos parámetros se estimen por la máxima probabilidad y otros no. Por ejemplo, considere un GLM de Poisson sobredispersado: el parámetro de dispersión no se estimará con la máxima probabilidad, porque el MLE no es útil en ese caso.
Bueno, a veces puede tener dos, pero a veces tiene un parámetro, a veces tres o cuatro o más.
¿Estás pensando en un modelo particular quizás? Este no es siempre el caso. Considere estimar el parámetro de una distribución exponencial o una distribución de Poisson, o una distribución binomial. En cada uno de esos casos, hay un parámetro y la varianza es una función del parámetro que describe la media.
O considere una distribución gamma generalizada , que tiene tres parámetros. O una distribución beta de cuatro parámetros , que tiene (tal vez como era de esperar) cuatro parámetros. Tenga en cuenta también que (dependiendo de la parametrización particular) la media o la varianza o ambas pueden no estar representadas por un solo parámetro sino por las funciones de varios de ellos.
Por ejemplo, la distribución gamma, para la cual hay tres parametrizaciones que se ven bastante comunes, las dos más comunes tienen la media y la varianza como funciones de dos parámetros.
Típicamente en un modelo de regresión o un GLM, o un modelo de supervivencia (entre muchos otros tipos de modelos), el modelo puede depender de múltiples predictores, en cuyo caso la distribución asociada con cada observación bajo el modelo puede tener uno de sus propios parámetros (o incluso varios parámetros) que están relacionados con muchas variables predictoras ("variables independientes").
fuente
Si bien los estimadores de máxima probabilidad pueden parecer sospechosos dados los supuestos sobre la distribución de datos, a menudo se usan los estimadores de cuasi máxima verosimilitud. La idea es comenzar asumiendo una distribución y resolver el MLE, luego eliminar el supuesto de distribución explícito y, en cambio, observar cómo funciona su estimador en condiciones más generales. Por lo tanto, el Cuasi MLE se convierte en una forma inteligente de obtener un estimador, y la mayor parte del trabajo deriva las propiedades del estimador. Dado que los supuestos de distribución se descartan, el cuasi MLE generalmente no tiene buenas propiedades de eficiencia.
fuente
La estimación de máxima verosimilitud se usa a menudo en el aprendizaje automático para entrenar:
Tenga en cuenta que en algunos casos se prefiere agregar cierta regularización, que a veces es equivalente a la estimación máxima a posteriori , por ejemplo, ¿ por qué la penalización de Lasso es equivalente al doble exponencial (Laplace) anterior? .
fuente
Un caso muy típico es en regresión logística. La regresión logística es una técnica utilizada a menudo en el aprendizaje automático para clasificar puntos de datos. Por ejemplo, la regresión logística se puede usar para clasificar si un correo electrónico es spam o no, o para clasificar si una persona tiene o no una enfermedad.
fuente
Estamos usando MLE todo el tiempo, pero es posible que no lo sintamos. Daré dos ejemplos simples para mostrar.
Ejemplo 1
Si observamos el resultado del lanzamiento de la moneda, con8 salir de 10 volteretas (suponiendo iid. de Bernoulli), cómo adivinar el parámetro θ (problema de la cabeza) de la moneda? Podemos decirθ = 0.8 , utilizando "contar".
¿Por qué usar contar? ¡Esto está usando implícitamente MLE! Donde esta el problema
Para resolver la ecuación, necesitaremos algunos cálculos, pero la conclusión es contar.
Ejemplo 2
¿Cómo estimaríamos los parámetros de distribución gaussianos a partir de los datos? Utilizamos la media empírica como media estimada y la varianza empírica como varianza estimada, ¡que también proviene de MLE !.
fuente
Algunos usos de máxima probabilidad en la comunicación inalámbrica:
fuente