Mis preguntas son:
- ¿Se garantiza que los modelos lineales generalizados (GLM) converjan a un máximo global? Si es así, ¿por qué?
- Además, ¿qué restricciones hay en la función de enlace para asegurar la convexidad?
Mi comprensión de los GLM es que maximizan una función de probabilidad altamente no lineal. Por lo tanto, me imagino que hay varios máximos locales y el conjunto de parámetros al que converge depende de las condiciones iniciales para el algoritmo de optimización. Sin embargo, después de investigar un poco, no he encontrado una sola fuente que indique que hay múltiples máximos locales. Además, no estoy tan familiarizado con las técnicas de optimización, pero sé que el método Newton-Raphson y el algoritmo IRLS son muy propensos a los máximos locales.
¡Por favor explique si es posible, tanto de forma intuitiva como matemática!
EDITAR: dksahuji respondió mi pregunta original, pero quiero agregar la pregunta de seguimiento [ 2 ] anterior. ("¿Qué restricciones hay en la función de enlace para asegurar la convexidad?")
fuente
Respuestas:
La definición de familia exponencial es:
donde es la función de partición de registro. Ahora se puede demostrar que las siguientes tres cosas son válidas para el caso 1D (y se generalizan a dimensiones más altas; puede examinar las propiedades de las familias exponenciales o la partición de registro):A(θ)
El resultado anterior demuestra que es convexo (como c o v ( ϕ ( x ) ) es semidefinido positivo). Ahora echamos un vistazo a la función de probabilidad para MLE:A(θ) cov(ϕ(x))
Ahora es lineal en theta y - A ( θ ) es cóncavo. Por lo tanto, hay un máximo global único.θT[ϕ(D)] −A(θ)
Hay una versión generalizada llamada familia exponencial curva que también sería similar. Pero la mayoría de las pruebas están en forma canónica.
fuente