En un GLM, ¿la probabilidad logarítmica del modelo saturado es siempre cero?

14

Como parte de la salida de un modelo lineal generalizado, la desviación nula y residual se utilizan para evaluar el modelo. A menudo veo las fórmulas para estas cantidades expresadas en términos de la probabilidad de registro del modelo saturado, por ejemplo: /stats//a/113022/22199 , Regresión logística: cómo obtener un modelo saturado

El modelo saturado, por lo que yo entiendo, es el modelo que se adapta perfectamente a la respuesta observada. Por lo tanto, en la mayoría de los lugares que he visto, la probabilidad logarítmica del modelo saturado siempre se da como cero.

Sin embargo, la forma en que se da la fórmula para la desviación sugiere que a veces esta cantidad no es cero. (Como si siempre fuera cero, ¿por qué molestarse en incluirlo?)

¿En qué casos puede ser distinto de cero? Si nunca es distinto de cero, ¿por qué incluirlo en la fórmula para la desviación?

Alex
fuente

Respuestas:

18

Si realmente quisiste decir log-verosimilitud , entonces la respuesta es: no siempre es cero.

Por ejemplo, considere los datos de Poisson: . El log-verosimilitud para Y = ( y 1 , ... , y n ) viene dado por: ( μ ; Y ) = - n i = 1 μ i + n i = 1 y i log μyiPoisson(μi),i=1,,nY=(y1,,yn)

()(μ;Y)=i=1nμi+i=1nyilogμii=1nlog(yi!).

Diferenciar en ( ) con respecto a μ i y establecerlo en 0 (así es como obtenemos el MLE para el modelo saturado): - 1 + y i(μ;Y)()μi0 0 resolver esto porμipara obtener μ i=yi, sustituyendo μ ide nuevo en(*)paraμida que el diario de probabilidad del modelo saturado es: ( μ ;Y)=n i=1yi(logyi-1)-n i=

-1+yyoμyo=0.
μyoμ^yo=yyoμ^yo()μyo a menosyquetoman valores muy especiales.
(μ^;Y)=yo=1norteyyo(Iniciar sesiónyyo-1)-yo=1norteIniciar sesión(yyo!)0 0
yyo

En la página de ayuda de la Rfunción glm, debajo del elemento deviance, el documento explica este problema de la siguiente manera:

deviance hasta una constante, menos el doble de la probabilidad de registro maximizada. Donde sea sensible, la constante se elige de modo que un modelo saturado tenga una desviación cero.

Observe que mencionó que la desviación , en lugar de la probabilidad logarítmica del modelo saturado, se elige como cero.

Probablemente, lo que realmente quería confirmar es que "la desviación del modelo saturado siempre se da como cero", lo cual es cierto, ya que la desviación, por definición (véase la Sección 4.5.1 del Análisis de datos categóricos (2ª edición) por Alan Agresti) es la estadística de razón de probabilidad de un GLM especificado al modelo saturado. Lo constantmencionado en la documentación de R es en realidad el doble de la probabilidad de registro maximizada del modelo saturado.

Con respecto a su afirmación "Sin embargo, la forma en que se da la fórmula para la desviación sugiere que a veces esta cantidad no es cero", probablemente se deba al abuso del uso del término desviación . Por ejemplo, en R, el estadístico de la razón de probabilidad de comparar dos modelos arbitrarios (anidados) y M 2 también se conoce como desviación, que se llamaría con mayor precisión como la diferencia entre la desviación de M 1 y la desviación de M 2 , si seguimos de cerca la definición dada en el libro de Agresti.METRO1METRO2METRO1METRO2

Conclusión

  1. La probabilidad logarítmica del modelo saturado en general no es cero.

  2. La desviación (en su definición original) del modelo saturado es cero.

  3. La salida de desviación del software (como R) en general no es cero, ya que en realidad significa algo más (la diferencia entre dispositivos).


Los siguientes son la derivación para el caso general de la familia exponencial y otro ejemplo concreto. Suponga que los datos provienen de una familia exponencial (vea Estadísticas modernas aplicadas con S , Capítulo ): f ( y i ; θ i , φ ) = exp [ A i ( y i θ i - γ ( θ i ) ) / φ + τ ( y i , φ / A i ) ] .7 7

(1)F(yyo;θyo,φ)=Exp[UNyo(yyoθyo-γ(θyo))/ /φ+τ(yyo,φ/ /UNyo)].
donde son pesos anteriores conocidos y φ son parámetros de dispersión / escala (para muchos casos como binomial y Poisson, este parámetro es conocido, mientras que para otros casos como normal y Gamma, este parámetro es desconocido). Entonces el log-verosimilitud viene dado por: ( θ , φ ; Y ) = n i = 1 A i ( y i θ i - γ ( θ i ) ) / φ + n i = 1 τUNyoφ Como en el ejemplo de Poisson, los parámetros del modelo saturado se pueden estimar resolviendo la siguientefunción depuntuación: 0 = U ( θ i ) = ( θ , φ ; Y )
(θ,φ;Y)=yo=1norteUNyo(yyoθyo-γ(θyo))/ /φ+yo=1norteτ(yyo,φ/ /UNyo).
0 0=U(θyo)=(θ,φ;Y)θyo=UNyo(yyo-γ(θyo))φ

Denotar la solución de la ecuación anterior por θ i , entonces la forma general de la log-probabilidad de que el modelo saturado (tratar el parámetro de escala como constante) es: ( θ , φ ; Y ) = n Σ i = 1 A i ( y i θ i - γ ( θ i ) ) / φ + n Σ i = 1 τ ( y i , φθ^yo

()(θ^,φ;Y)=yo=1norteUNyo(yyoθ^yo-γ(θ^yo))/ /φ+yo=1norteτ(yyo,φ/ /UNyo).

()Γ(α,β)


F(y;α,β)=βαΓ(α)mi-βyyα-1,y>0 0,α>0 0,β>0 0,
F(1)
φ=1α,θ=-βα,
F
F(y;θ,φ)=Exp[θy-(-Iniciar sesión(-θ))φ+τ(y,φ)],
τ(y,φ)=-Iniciar sesiónφφ+(1φ-1)Iniciar sesióny-Iniciar sesiónΓ(φ-1).
θ^yo=-1yyo
yo=1norte1φ[θ^yoyyo-(-Iniciar sesión(-θ^yo))]=yo=1norte1φ[-1-Iniciar sesión(yyo)]0 0,
yyo
Zhanxiong
fuente
1
¿La probabilidad de loglitud es cero si y solo si el modelo puede asignar el 100% de probabilidad a cada uno de los posibles resultados?
Alex
0 0τ0 0
Su derivación es muy buena, pero la prueba formal está un poco por encima de mi cabeza en este momento. Gracias por su ejemplo con el modelo de Poisson. Lo que saqué de este ejemplo es que el modelo de Poisson no puede asignar un 100% de probabilidad al resultado observado dado cualquier valor para la media de Poisson, por lo tanto, la probabilidad no puede ser cero.
Alex
100%y1,...,ynorteYPAG(Y=y1)+PAG(Y=y2)++PAG(Y=ynorte)<1
1
YPAG(Y=yyo)<1yo
4

0 0

(1)L(y;X,β)=yo=1norteF(yyo;Xyo,β)=yo=1norteπyoyyo(1-πyo)1-yyo=yo=1norte(πyo1-πyo)yyo(1-πyo)
πyo=invlogit(Xyoβ)

Iniciar sesiónL(y;X,β)=yo=1norteyyoIniciar sesión(πyo1-πyo)+Iniciar sesión(1-πyo)=yo=1norteyyologit(πyo)+Iniciar sesión(1-πyo)=yo=1norteyyoXyoβ+Iniciar sesión(1-invlogit(Xyoβ))=yo=1norteyyoXyoβ+Iniciar sesión(invlogit(-Xyoβ))=yo=1norteyyoXyoβ-Iniciar sesión(1+Exp[Xyoβ]))

Si toma las derivadas con respecto a todos los coeficientes que obtiene

(2)(β)=yo=1norteyyoXyo-Exp[Xyoβ](1+Exp[Xyoβ])Xyo.

Establecer esta expresión igual a 0 0 y resolviendo para βte dará tu respuesta. Por lo general, esto no se puede hacer analíticamente, lo que explica la popularidad / necesidad de usar algoritmos iterativos para ajustarse a este modelo, pero en el caso de un modelo saturado, es posible.

Para encontrar el modelo saturado, le damos a cada fila su propio coeficiente. EntoncesβRnorte y la matriz de diseño multiplicada por el vector coeficiente es

Xβ=[10 00 00 010 00 00 01][β1β2βnorte].

Tenga en cuenta que en particular, Xyoβ=βyo.

Entonces tomando el jla fila de la ecuación (2) nos da

yo=1norteyyoXyo,j=yo=1norteExp[Xyoβ](1+Exp[Xyoβ])Xyo,j

que solo puede ser cierto si para cada observación yo:

yyo=invlogit(βyo)
o en otras palabras cada βyo es más o menos infinito (si yyo es 1 o 0 0, respectivamente). Podemos volver a conectar estos parámetros a (1) para obtener la probabilidad máxima:
yo=1norteπ^yoyyo(1-π^yo)1-yyo=1norte=1)
Claramente, el registro de esto es 0 0.

Taylor
fuente
Pero esto supone datos desagrupados . Si tienes grupos connorteyo>1(y los mismos valores de covariables) (en R, por ejemplo usando el formulario glm( cbind(k, n-k) ~ x + ... ), entonces el modelo saturado no tiene probabilidad de logl cero.
kjetil b halvorsen
@kjetilbhalvorsen oh buen punto. Nunca intenté eso, déjame comprobar
Taylor
1

@ Alex: sí, es cierto. al menos para distribuciones discretas. para distribuciones continuas, se reduciría a dejar que la densidad sea igual a 1, lo que no es necesariamente significativo y, por lo tanto, no es una cosa sensata para tratar de lograr. un poco más generalmente, la probabilidad logarítmica del modelo saturado le brinda un límite superior para el rendimiento de cualquier modelo que siga su suposición de la familia de distribución subyacente. En otras palabras, la probabilidad logarítmica de un modelo binomial saturado es "tan buena como es posible" para el conjunto de datos dado (X, Y) suponiendo que Y es binomial. Tiene sentido comparar su modelo glm con este límite superior en lugar de, por ejemplo, 100% (o similar), ya que su modelo está inherentemente limitado por su suposición sobre la distribución de la respuesta.

bettmensch88
fuente