¿Cuáles son las ventajas y desventajas de ambos métodos?
maximum-likelihood
predictive-models
optimization
gradient-descent
GeorgeOfTheRF
fuente
fuente
Respuestas:
La estimación de máxima verosimilitud es un enfoque general para estimar parámetros en modelos estadísticos al maximizar lafunción de verosimilitud definida como
es decir, la probabilidad de obtener datos dado algún valor del parámetro θ . Conociendo la función de probabilidad para un problema dado, puede buscar tal θ que maximice la probabilidad de obtener los datos que tiene. A veces tenemos estimadores conocidos, por ejemplo, la media aritmética es un estimador MLE para el parámetro μ para distribución normal , pero en otros casos puede usar diferentes métodos que incluyen el uso de algoritmos de optimización. El enfoque de ML no le dice cómo encontrar el valor óptimo de θ , simplemente puede hacer conjeturas y usar la probabilidad de comparar qué conjetura fue mejor, solo le dice cómo puede comparar si un valor deX θ θ μ θ es "más probable" que el otro.θ
El descenso de gradiente es un algoritmo de optimización . Puede usar este algoritmo para encontrar el mínimo (o máximo, entonces se llama ascenso de gradiente ) de muchas funciones diferentes. Al algoritmo realmente no le importa cuál es la función que minimiza, solo hace lo que se le pidió. Entonces, con el uso del algoritmo de optimización, debe saber de alguna manera cómo podría saber si un valor del parámetro de interés es "mejor" que el otro. Debes proporcionar a tu algoritmo alguna función para minimizar y el algoritmo se ocupará de encontrar su mínimo.
Puede obtener estimaciones de máxima verosimilitud utilizando diferentes métodos y el uso de un algoritmo de optimización es uno de ellos. Por otro lado, el descenso de gradiente también se puede utilizar para maximizar funciones distintas de la función de probabilidad.
fuente
f
Pero la función de probabilidad de regresión logística no es una solución de forma cerrada de esta manera. Entonces tenemos que usar otro método, como
gradient descent
.fuente
likelihood function
+gradient descent
(que para obtener la solución de la función de probabilidad) sigue siendo una forma de hacer MLE.Unlike linear regression, we can no longer write down the MLE in closed form. Instead, we need to use an optimization algorithm to compute it. For this, we need to derive the gradient and Hessian.
de Machine Learning: una perspectiva probabilística, Kevin Murphy.