¿La probabilidad de registro en GLM ha garantizado la convergencia a máximos globales?

16

Mis preguntas son:

  1. ¿Se garantiza que los modelos lineales generalizados (GLM) converjan a un máximo global? Si es así, ¿por qué?
  2. Además, ¿qué restricciones hay en la función de enlace para asegurar la convexidad?

Mi comprensión de los GLM es que maximizan una función de probabilidad altamente no lineal. Por lo tanto, me imagino que hay varios máximos locales y el conjunto de parámetros al que converge depende de las condiciones iniciales para el algoritmo de optimización. Sin embargo, después de investigar un poco, no he encontrado una sola fuente que indique que hay múltiples máximos locales. Además, no estoy tan familiarizado con las técnicas de optimización, pero sé que el método Newton-Raphson y el algoritmo IRLS son muy propensos a los máximos locales.

¡Por favor explique si es posible, tanto de forma intuitiva como matemática!

EDITAR: dksahuji respondió mi pregunta original, pero quiero agregar la pregunta de seguimiento [ 2 ] anterior. ("¿Qué restricciones hay en la función de enlace para asegurar la convexidad?")

DankMasterDan
fuente
Creo que se deben exigir algunas restricciones antes de que pueda ser así. ¿Cuál es la fuente de la declaración?
Glen_b: reinstala a Monica
Varios sitios parecían implicarlo, sin embargo, no pude encontrar nada que lo mencionara directamente, ¡así que también agradezco su prueba!
DankMasterDan
siempre y cuando la probabilidad esté bien definida en todas partes en el dominio (e ignorando algunos problemas numéricos tangenciales), creo que sí. En esas condiciones, el hessian es <0 en todas partes en el dominio, por lo que la similitud es globalmente cóncava. Por cierto, la función no es 'altamente no lineal' en los parámetros y eso es lo que importa.
usuario603
@ user603 ¿cuál es su fuente / prueba de que el hessian es <0 en todas partes?
DankMasterDan
Las regresiones logísticas, de Poisson y gaussianas a menudo son convexas dada una función de enlace "buena". Sin embargo, con la función de enlace arbitrario, no son convexos.
Memming

Respuestas:

11

La definición de familia exponencial es:

p(x|θ)=h(x)exp(θTϕ(x)A(θ)),

donde es la función de partición de registro. Ahora se puede demostrar que las siguientes tres cosas son válidas para el caso 1D (y se generalizan a dimensiones más altas; puede examinar las propiedades de las familias exponenciales o la partición de registro):A(θ)

  1. dAdθ=E[ϕ(x)]

  2. d2Adθ2=E[ϕ2(x)]E[ϕ(x)]2=var(ϕ(x))

  3. 2Aθiθj=E[ϕi(x)ϕj(x)]E[ϕi(x)]E[ϕj(x)]=cov(ϕ(x))Δ2A(θ)=cov(ϕ(x))

El resultado anterior demuestra que es convexo (como c o v ( ϕ ( x ) ) es semidefinido positivo). Ahora echamos un vistazo a la función de probabilidad para MLE: A(θ)cov(ϕ(x))

p(D|θ)=[i=1Nh(xi)] exp(θT[i=1Nϕ(xi)]NA(θ))log(p(D|θ))=θT[i=1Nϕ(xi)]NA(θ)=θT[ϕ(D)]NA(θ)

Ahora es lineal en theta y - A ( θ ) es cóncavo. Por lo tanto, hay un máximo global único.θT[ϕ(D)]A(θ)

Hay una versión generalizada llamada familia exponencial curva que también sería similar. Pero la mayoría de las pruebas están en forma canónica.

dksahuji
fuente
Entonces, ¿esto significa que GLM tiene un nomatter de mínimos globales único qué función de enlace se elige (incluidas las no canónicas)?
DankMasterDan
1
Trataré de responder hasta donde lo perciba. es el caso del que estás hablando. Esto todavía es cóncavo en η pero puede no estar en θ, por lo que η debería ser tal que toda la probabilidad de registro sea cóncava en θ . p(x|θ)=h(x)exp(η(θ)Tϕ(x)A(η(θ)))ηθηθ
dksahuji
Tenga en cuenta que la pregunta se refiere a la convergencia, en lugar de solo la existencia, pero con algunas restricciones, eso también puede ser factible.
Glen_b: reinstala a Mónica
@Glen_b ¿Puedes dar más detalles? No conozco tales restricciones. Tal vez algo como restricciones en el tamaño de pasos en un optimizador basado en gradiente para garantizar la convergencia en caso de función cóncava.
dksahuji
1
@Glen_b Eso podría ser cierto en general, pero no puedo ver ninguna razón para que la función cóncava no converja con los valores óptimos dentro de un pequeño valor tolerable. Pero diría que no tengo ninguna experiencia práctica con estos y que acabo de comenzar. :)
dksahuji