¿Puede dar una explicación intuitiva simple del método IRLS para encontrar el MLE de un GLM?

12

Antecedentes:

Estoy tratando de seguir la revisión de Princeton de la estimación de MLE para GLM .

Entiendo los conceptos básicos de la estimación MLE: likelihood, score, observada y esperada Fisher informationy la Fisher scoringtécnica. Y sé cómo justificar la regresión lineal simple con la estimación MLE .


La pregunta:

Ni siquiera puedo entender la primera línea de este método :(

¿Cuál es la intuición detrás de las variables de trabajo definidas como:zi

zi=η^i+(yiμ^i)dηidμi

¿Por qué se usan en lugar de para estimar ?yiβ

¿Y cuál es su relación con el response/link functioncual es la conexión entre yημ

Si alguien tiene una explicación simple o me puede dirigir a un texto de nivel más básico sobre esto, estaría agradecido.

ihadanny
fuente
1
Como nota al margen, para mí aprendí sobre IRLS en el contexto de la estimación robusta (M-) antes de escuchar sobre todo el marco "GLM" (que todavía no entiendo completamente). Para una perspectiva práctica de este enfoque, como una generalización simple de mínimos cuadrados, recomendaría la fuente que encontré por primera vez: el Apéndice B del libro de Richard Szeliski, Computer Vision (E- gratis) (las primeras 4 páginas, en realidad, aunque estas enlazan con algunos buenos ejemplos también).
GeoMatt22

Respuestas:

15

Hace algunos años escribí un artículo sobre esto para mis alumnos (en español), así que puedo intentar reescribir esas explicaciones aquí. Examinaré IRLS (mínimos cuadrados repesados ​​de forma iterativa) a través de una serie de ejemplos de complejidad creciente. Para el primer ejemplo, necesitamos el concepto de una familia de escala de ubicación. Deje ser una función de densidad centrada en cero en algún sentido. Podemos construir una familia de densidades definiendo donde es un parámetro de escala y f ( x ) = f ( x ; μ , σ ) = 1f0σ>0μf0N(μ,σ)

f(x)=f(x;μ,σ)=1σf0(xμσ)
σ>0μes un parámetro de ubicación En el modelo de error de medición, donde el término de error habitual se modela como una distribución normal, en lugar de esa distribución normal podemos usar una familia de escala de ubicación como se construyó anteriormente. Cuando es la distribución normal estándar, la construcción anterior da la familia .f0N(μ,σ)

Ahora usaremos IRLS en algunos ejemplos simples. Primero encontraremos los estimadores de ML (probabilidad máxima) en el modelo con la densidad la distribución de Cauchy la familia de ubicaciones (por lo que esta es una familia de ubicaciones). Pero primero alguna notación. El estimador de mínimos cuadrados ponderados de viene dado por donde es algunos pesos. Veremos que el estimador ML de puede expresarse de la misma forma, con

Y1,Y2,,Yni.i.d
f(y)=1π11+(yμ)2,yR,
μμ
μ=i=1nwiyii=1nwi.
wiμwialguna función de los residuos La función de probabilidad viene dada por y la función de verosimilitud viene dada por Su derivada con respecto a es donde . Escribir
ϵi=yiμ^.
L(y;μ)=(1π)ni=1n11+(yiμ)2
l(y)=nlog(π)i=1nlog(1+(yiμ)2).
μ
l(y)μ=0μlog(1+(yiμ)2)=2(yiμ)1+(yiμ)2(1)=2ϵi1+ϵi2
ϵi=yiμf0(ϵ)=1π11+ϵ2 y , obtenemos Encontramos donde usamos la definición f0(ϵ)=1π12ϵ(1+ϵ2)2
f0(ϵ)f0(ϵ)=12ϵ(1+ϵ2)211+ϵ2=2ϵ1+ϵ2.
l(y)μ=f0(ϵi)f0(ϵi)=f0(ϵi)f0(ϵi)(1ϵi)(ϵi)=wiϵi
wi=f0(ϵi)f0(ϵi)(1ϵi)=2ϵi1+ϵi2(1ϵi)=21+ϵi2.
Recordando que obtenemos la ecuación que es la ecuación de estimación de IRLS. Tenga en cuenta queϵi=yiμ
wiyi=μwi,
  1. Los pesos son siempre positivos.wi
  2. Si el residuo es grande, le damos menos peso a la observación correspondiente.

Para calcular el estimador de ML en la práctica, necesitamos un valor inicial , podríamos usar la mediana, por ejemplo. Usando este valor calculamos los residuos y los pesos El nuevo valor de viene dado por Continuando de esta manera, definimos y El valor estimado en el paso del algoritmo se convierte en μ^(0)

ϵi(0)=yiμ^(0)
wi(0)=21+ϵi(0).
μ^
μ^(1)=wi(0)yiwi(0).
ϵi(j)=yiμ^(j)
wi(j)=21+ϵi(j).
j+1
μ^(j+1)=wi(j)yiwi(j).
Continuando hasta que la secuencia converja.
μ^(0),μ^(1),,μ^(j),

Ahora estudiamos este proceso con una ubicación más general y una familia de escalas, , con menos detalles. Deje que sean independientes con la densidad anterior. Defina también . La función de verosimilitud es Al escribir , tenga en cuenta que y Cálculo de la derivada de verosimilitud f(y)=1σf0(yμσ)Y1,Y2,,Ynϵi=yiμσ

l(y)=n2log(σ2)+log(f0(yiμσ)).
ν=σ2
ϵiμ=1σ
ϵiν=(yiμ)(1ν)=(yiμ)12σ3.
l(y)μ=f0(ϵi)f0(ϵi)ϵiμ=f0(ϵi)f0(ϵi)(1σ)=1σfo(ϵi)f0(ϵi)(1ϵi)(ϵi)=1σwiϵi
e igualar esto a cero da la misma ecuación de estimación que el primer ejemplo. Luego buscando un estimador para : σ2
l(y)ν=n21ν+f0(ϵi)f0(ϵi)ϵiν=n21ν+f0(ϵi)f0(ϵi)((yiμ)2σ3)=n21ν121σ2f0(ϵi)f0(ϵi)ϵi=n21ν121νf0(ϵi)f0(ϵi)(1ϵi)(ϵi)ϵi=n21ν+121νwiϵi2=!0.
que conduce al estimador El algoritmo iterativo anterior también se puede utilizar en este caso.
σ2^=1nwi(yiμ^)2.

A continuación damos un ejemplo numérico usando R, para el modelo exponencial doble (con escala conocida) y con datos y <- c(-5,-1,0,1,5). Para estos datos, el valor verdadero del estimador ML es 0. El valor inicial será mu <- 0.5. Una pasada del algoritmo es

  iterest <- function(y, mu) {
               w <- 1/abs(y-mu)
               weighted.mean(y,w)
               }

con esta función puedes experimentar haciendo las iteraciones "a mano". Luego, el algoritmo iterativo puede hacerse

mu_0 <- 0.5
repeat {mu <- iterest(y,mu_0)
        if (abs(mu_0 - mu) < 0.000001) break
        mu_0 <- mu }

Ejercicio: si el modelo es una distribución con el parámetro de escala muestre que las iteraciones están dadas por el peso Ejercicio: si la densidad es logística, muestre que los pesos están dados por tkσw(ϵ)=1-eϵ

wi=k+1k+ϵi2.
w(ϵ)=1eϵ1+eϵ1ϵ.

Por el momento lo dejaré aquí, continuaré esta publicación.

kjetil b halvorsen
fuente
wow, gran introducción suave! pero siempre se está refiriendo a un único parámetro para todas las instancias y las fuentes que hablan de un diferente por instancia. ¿Es esto solo una modificación trivial? u iuui
ihadanny
1
¡Agregaré más a esto, justo a tiempo! Las ideas siguen siendo las mismas, pero los detalles se involucran más.
kjetil b halvorsen
2
vendrá a eso!
kjetil b halvorsen
1
Y gracias por el ejercicio que muestra los pesos para la densidad logística. Lo hice y aprendí mucho a través del proceso. No conozco la distribución , no pude encontrar nada al respecto ...tk
ihadanny
2
¿te importaría escribir una publicación de blog en algún lugar continuando esta explicación? realmente útil para mí y estoy seguro que será para otros ...
ihadanny