Estimación de parámetros con modelos lineales generalizados.

9

Por defecto, cuando usamos una glmfunción en R, usa el método de mínimos cuadrados reponderados iterativamente (IWLS) para encontrar la estimación de máxima verosimilitud de los parámetros. Ahora tengo dos preguntas.

¿Las estimaciones de IWLS garantizan el máximo global de la función de probabilidad? Basado en la última diapositiva de esta presentación, ¡creo que no! Solo quería asegurarme de eso.
¿Podemos decir que la razón de la pregunta 1 anterior se debe al hecho de que casi todos los métodos de optimización numérica pueden quedarse en un máximo local en lugar de un máximo global?

r estimation generalized-linear-model maximum-likelihood optimization Stat
fuente

6

Cuando intenta estimar parámetros, siempre desea que haya una solución de forma cerrada. Sin embargo, uno no siempre existe (supongo que es posible que en algunos casos pueda haber uno, pero actualmente se desconoce). Cuando no existe una solución de forma cerrada, se debe emplear alguna estrategia heurística para buscar en el espacio de parámetros las mejores estimaciones de parámetros posibles para usar. Existen muchas estrategias de búsqueda de este tipo (p. Ej. R, En ? Optim enumera 6 métodos de propósito general). El IRWLS es una versión simplificada del algoritmo Newton-Raphson .

Lamentablemente, la respuesta a su [ 1 ] es que no se garantiza que ninguna estrategia de búsqueda heurística encuentre el mínimo global (máximo). Hay tres razones por las cuales ese es el caso:

Como se señaló en la diapositiva 9 de su presentación vinculada, no puede existir una solución única. Ejemplos de esto podrían ser la multicolinealidad perfecta , o cuando hay más parámetros para estimar que datos .
Como se señaló en la diapositiva 10 (creo que esa presentación es bastante buena), la solución puede ser infinita. Esto puede suceder en la regresión logística, por ejemplo, cuando tiene una separación perfecta .
También puede darse el caso de que haya un mínimo global finito (máximo), pero que el algoritmo no lo encuentre. Estos algoritmos (especialmente IRWLS y NR) tienden a comenzar desde una ubicación específica y "mirar alrededor" para ver si moverse en alguna dirección constituye "ir cuesta abajo" (es decir, mejorar el ajuste). Si es así, se volverá a ajustar a cierta distancia en esa dirección y se repetirá hasta que la mejora adivinada / pronosticada sea inferior a algún umbral. Por lo tanto, puede haber dos formas de no alcanzar el mínimo global:
1. La velocidad de descenso desde la ubicación actual hacia el mínimo global (máximo) es demasiado baja para cruzar el umbral y el algoritmo no llega a la solución.
2. Existe un mínimo local (máximo) entre la ubicación actual y el mínimo global (máximo), de modo que al algoritmo le parece que un mayor movimiento conduciría a un peor ajuste.

Con respecto a su [ 2 ], tenga en cuenta que las diferentes estrategias de búsqueda tienen diferentes tendencias para captar en los mínimos locales. Incluso la misma estrategia a veces se puede adaptar o comenzar desde un punto de partida diferente para abordar los dos últimos problemas.

gung - Restablece a Monica
fuente

Gracias gung. Una pregunta más, ¿cómo podemos seleccionar un buen punto de partida al optimizar?

Estadísticas

No sé si necesariamente hay una mejor manera. A veces tienes que probar un par de puntos de partida diferentes, si no logra converger o si no estás seguro de que estás en el mínimo global. Creo que una forma común en que los programas eligen un punto de partida es usar las estimaciones de OLS, a pesar de que no son apropiadas y sabes que tendrás que avanzar desde allí.

gung - Restablece a Monica

6

Tiene razón en que, en general, IWLS, como otros métodos de optimización numérica, solo puede garantizar la convergencia a un máximo local, incluso si convergen. Aquí hay un buen ejemplo donde el valor inicial estaba fuera del dominio de convergencia para el algoritmo utilizado por glm () en R. Sin embargo, vale la pena señalar que para GLM con el enlace canónico, la probabilidad es cóncava, ver aquí . Por lo tanto, si el algoritmo converge, ¡habrá convergido al modo global!

El último problema señalado en la diapositiva es un problema en el que el MLE para un parámetro está en el infinito. Esto puede ocurrir en una regresión logística donde existe una separación completa. En tal caso, recibirá un mensaje de advertencia de que las probabilidades ajustadas son numéricamente 0 o 1. Es importante tener en cuenta que cuando esto ocurre, el algoritmo no ha convergido al modo, por lo que esto no tiene que ver con que el algoritmo esté atrapado en un máximo local.

jsk
fuente

Estimación de parámetros con modelos lineales generalizados.

Respuestas: