Antecedentes:
Estoy tratando de seguir la revisión de Princeton de la estimación de MLE para GLM .
Entiendo los conceptos básicos de la estimación MLE: likelihood
, score
, observada y esperada Fisher information
y la Fisher scoring
técnica. Y sé cómo justificar la regresión lineal simple con la estimación MLE .
La pregunta:
Ni siquiera puedo entender la primera línea de este método :(
¿Cuál es la intuición detrás de las variables de trabajo definidas como:
¿Por qué se usan en lugar de para estimar ?
¿Y cuál es su relación con el response/link function
cual es la conexión entre y
Si alguien tiene una explicación simple o me puede dirigir a un texto de nivel más básico sobre esto, estaría agradecido.
Respuestas:
Hace algunos años escribí un artículo sobre esto para mis alumnos (en español), así que puedo intentar reescribir esas explicaciones aquí. Examinaré IRLS (mínimos cuadrados repesados de forma iterativa) a través de una serie de ejemplos de complejidad creciente. Para el primer ejemplo, necesitamos el concepto de una familia de escala de ubicación. Deje ser una función de densidad centrada en cero en algún sentido. Podemos construir una familia de densidades definiendo donde es un parámetro de escala y f ( x ) = f ( x ; μ , σ ) = 1f0 σ>0μf0N(μ,σ)
Ahora usaremos IRLS en algunos ejemplos simples. Primero encontraremos los estimadores de ML (probabilidad máxima) en el modelo con la densidad la distribución de Cauchy la familia de ubicaciones (por lo que esta es una familia de ubicaciones). Pero primero alguna notación. El estimador de mínimos cuadrados ponderados de viene dado por donde es algunos pesos. Veremos que el estimador ML de puede expresarse de la misma forma, con
Para calcular el estimador de ML en la práctica, necesitamos un valor inicial , podríamos usar la mediana, por ejemplo. Usando este valor calculamos los residuos y los pesos El nuevo valor de viene dado por Continuando de esta manera, definimos y El valor estimado en el paso del algoritmo se convierte enμ^(0)
Ahora estudiamos este proceso con una ubicación más general y una familia de escalas, , con menos detalles. Deje que sean independientes con la densidad anterior. Defina también . La función de verosimilitud es Al escribir , tenga en cuenta que y Cálculo de la derivada de verosimilitudf(y)=1σf0(y−μσ) Y1,Y2,…,Yn ϵi=yi−μσ
A continuación damos un ejemplo numérico usando R, para el modelo exponencial doble (con escala conocida) y con datos
y <- c(-5,-1,0,1,5)
. Para estos datos, el valor verdadero del estimador ML es 0. El valor inicial serámu <- 0.5
. Una pasada del algoritmo escon esta función puedes experimentar haciendo las iteraciones "a mano". Luego, el algoritmo iterativo puede hacerse
Ejercicio: si el modelo es una distribución con el parámetro de escala muestre que las iteraciones están dadas por el peso Ejercicio: si la densidad es logística, muestre que los pesos están dados portk σ w(ϵ)=1-eϵ
Por el momento lo dejaré aquí, continuaré esta publicación.
fuente