¿Cuál es la diferencia entre la estimación de máxima verosimilitud y el descenso de gradiente?

¿Cuáles son las ventajas y desventajas de ambos métodos?

maximum-likelihood predictive-models optimization gradient-descent GeorgeOfTheRF
fuente

No busco solo la definición de estos dos métodos que ya tengo en la búsqueda de Google. Estoy tratando de entender qué método se prefiere en cada caso. Por ejemplo: Para bigdata será un trabajo mejor que otro, etc. No pude encontrar ningún material de buena que habla sobre los aspectos prácticos etc.

GeorgeOfTheRF

¿Cómo es un cuervo como un escritorio?

whuber

@ML_Pro GD no se relaciona de ninguna manera con el modelado estadístico, es un algoritmo. Probablemente podría comenzar con un manual introductorio de estadísticas para obtener una mejor comprensión de la inferencia estadística antes de comenzar a aprender las herramientas (como GD) para resolver problemas estadísticos.

Tim

¿Quería preguntar la diferencia entre Descenso de gradiente y Maximización de expectativa (que generalmente se usa para resolver el problema de optimización en MLE)?

Sobi

Respuestas:

La estimación de máxima verosimilitud es un enfoque general para estimar parámetros en modelos estadísticos al maximizar lafunción de verosimilitud definida como

L (θ | X) = f (X | θ)

$L(\theta|X) = f(X|\theta)$

es decir, la probabilidad de obtener datos dado algún valor del parámetro . Conociendo la función de probabilidad para un problema dado, puede buscar tal que maximice la probabilidad de obtener los datos que tiene. A veces tenemos estimadores conocidos, por ejemplo, la media aritmética es un estimador MLE para el parámetro para distribución normal , pero en otros casos puede usar diferentes métodos que incluyen el uso de algoritmos de optimización. El enfoque de ML no le dice cómo encontrar el valor óptimo de , simplemente puede hacer conjeturas y usar la probabilidad de comparar qué conjetura fue mejor, solo le dice cómo puede comparar si un valor de $X$ $\theta$ $\theta$ $\mu$ $\theta$ es "más probable" que el otro. $\theta$

El descenso de gradiente es un algoritmo de optimización . Puede usar este algoritmo para encontrar el mínimo (o máximo, entonces se llama ascenso de gradiente ) de muchas funciones diferentes. Al algoritmo realmente no le importa cuál es la función que minimiza, solo hace lo que se le pidió. Entonces, con el uso del algoritmo de optimización, debe saber de alguna manera cómo podría saber si un valor del parámetro de interés es "mejor" que el otro. Debes proporcionar a tu algoritmo alguna función para minimizar y el algoritmo se ocupará de encontrar su mínimo.

Puede obtener estimaciones de máxima verosimilitud utilizando diferentes métodos y el uso de un algoritmo de optimización es uno de ellos. Por otro lado, el descenso de gradiente también se puede utilizar para maximizar funciones distintas de la función de probabilidad.

Tim
fuente

@ML_Pro Proporcioné dos enlaces donde puede encontrar información detallada, no creo que sea necesario duplicar estas respuestas.

Tim

@ML_Pro como escribí en mi respuesta, son cosas diferentes y no puedes compararlas ...

Tim

Sí, pero MLE es un enfoque general y GD es solo un algoritmo que puede usar para minimizar una serie de funciones diferentes. Es como si hubieras comparado álgebra con calculadora de bolsillo ...

Tim

MLE especifica la función objetivo (la función de probabilidad); GD encuentra la solución óptima a un problema una vez que se especifica la función objetivo. Puede usar GD (u otros algoritmos de optimización) para resolver un problema de máxima verosimilitud, y el resultado será el estimador de máxima verosimilitud.

jbowman

@ML_Pro esto se describe en los enlaces que proporcioné en mi respuesta. En resumen: sí, es un producto de pdf. Producto porque suponemos que los datos son iid. Se define en términos de pdf porque estamos hablando del modelo de probabilidad.

Tim

-3

f = l (θ)

$f = l(\theta)$

\frac{d f}{d θ} = 0

$\frac{ df }{ d\theta } = 0$

θ

$\theta$ f

Pero la función de probabilidad de regresión logística no es una solución de forma cerrada de esta manera. Entonces tenemos que usar otro método, como gradient descent.

Belter
fuente

@Tim, puedes ver algo desde aquí, cursos.cs.washington.edu/courses/cse446/13sp/slides/…

Belter

"Los coeficientes de regresión generalmente se estiman usando la estimación de máxima verosimilitud" ( en.wikipedia.org/wiki/Logistic_regression )

Tim

La estimación de máxima verosimilitud es un tipo de método para estimar los coeficientes de regresión, pero tenemos varias formas de encontrar la solución de MLE. Por lo tanto, usar likelihood function+ gradient descent(que para obtener la solución de la función de probabilidad) sigue siendo una forma de hacer MLE.

Belter

También puede ver esta oración

Unlike linear regression, we can no longer write down the MLE in closed form. Instead, we need to use an optimization algorithm to compute it. For this, we need to derive the gradient and Hessian.

de Machine Learning: una perspectiva probabilística, Kevin Murphy.

Belter

... entonces la redacción de su respuesta es confusa ya que parece que está diciendo que para la regresión logística no estamos usando ML y en su lugar usamos GD.

Tim