Si realmente quisiste decir log-verosimilitud , entonces la respuesta es: no siempre es cero.
Por ejemplo, considere los datos de Poisson: . El log-verosimilitud para Y = ( y 1 , ... , y n ) viene dado por:
ℓ ( μ ; Y ) = - n ∑ i = 1 μ i + n ∑ i = 1 y i log μyi∼Poisson(μi),i=1,…,nY=(y1,…,yn)
ℓ(μ;Y)=−∑i=1nμi+∑i=1nyilogμi−∑i=1nlog(yi!).(∗)
Diferenciar en ( ∗ ) con respecto a μ i y establecerlo en 0 (así es como obtenemos el MLE para el modelo saturado):
- 1 + y iℓ(μ;Y)(∗)μi0
resolver esto porμipara obtener μ i=yi, sustituyendo μ ide nuevo en(*)paraμida que el diario de probabilidad del modelo saturado es:
ℓ( μ ;Y)=n ∑ i=1yi(logyi-1)-n ∑ i=
- 1 + yyoμyo= 0.
μyoμ^yo= yyoμ^i(∗)μyo
a menos
yquetoman valores muy especiales.
ℓ ( μ^; Y) = ∑i = 1norteyyo( registroyyo- 1 ) - ∑i = 1norteIniciar sesión( yyo! ) ≠ 0
yi
En la página de ayuda de la R
función glm
, debajo del elemento deviance
, el documento explica este problema de la siguiente manera:
deviance
hasta una constante, menos el doble de la probabilidad de registro maximizada. Donde sea sensible, la constante se elige de modo que un modelo saturado tenga una desviación cero.
Observe que mencionó que la desviación , en lugar de la probabilidad logarítmica del modelo saturado, se elige como cero.
Probablemente, lo que realmente quería confirmar es que "la desviación del modelo saturado siempre se da como cero", lo cual es cierto, ya que la desviación, por definición (véase la Sección 4.5.1 del Análisis de datos categóricos (2ª edición) por Alan Agresti) es la estadística de razón de probabilidad de un GLM especificado al modelo saturado. Lo constant
mencionado en la documentación de R es en realidad el doble de la probabilidad de registro maximizada del modelo saturado.
Con respecto a su afirmación "Sin embargo, la forma en que se da la fórmula para la desviación sugiere que a veces esta cantidad no es cero", probablemente se deba al abuso del uso del término desviación . Por ejemplo, en R, el estadístico de la razón de probabilidad de comparar dos modelos arbitrarios (anidados) y M 2 también se conoce como desviación, que se llamaría con mayor precisión como la diferencia entre la desviación de M 1 y la desviación de M 2 , si seguimos de cerca la definición dada en el libro de Agresti.METRO1METRO2METRO1METRO2
Conclusión
La probabilidad logarítmica del modelo saturado en general no es cero.
La desviación (en su definición original) del modelo saturado es cero.
La salida de desviación del software (como R) en general no es cero, ya que en realidad significa algo más (la diferencia entre dispositivos).
Los siguientes son la derivación para el caso general de la familia exponencial y otro ejemplo concreto. Suponga que los datos provienen de una familia exponencial (vea Estadísticas modernas aplicadas con S , Capítulo ):
f ( y i ; θ i , φ ) = exp [ A i ( y i θ i - γ ( θ i ) ) / φ + τ ( y i , φ / A i ) ] .7 7
F( yyo; θyo, φ ) = exp[ Ayo( yyoθyo- γ( θyo) ) / φ + τ( yyo, φ / Ayo) ] .(1)
donde
son pesos anteriores conocidos y
φ son parámetros de dispersión / escala (para muchos casos como binomial y Poisson, este parámetro es conocido, mientras que para otros casos como normal y Gamma, este parámetro es desconocido). Entonces el log-verosimilitud viene dado por:
ℓ ( θ , φ ; Y ) = n ∑ i = 1 A i ( y i θ i - γ ( θ i ) ) / φ + n ∑ i = 1 τUNyoφ
Como en el ejemplo de Poisson, los parámetros del modelo saturado se pueden estimar resolviendo la siguientefunción de
puntuación:
0 = U ( θ i ) = ∂ ℓ ( θ , φ ; Y )ℓ ( θ , φ ; Y) = ∑i = 1norteUNyo( yyoθyo- γ( θyo) ) / φ + ∑i = 1norteτ( yyo, φ / Ayo) .
0 = U( θyo) = ∂ℓ ( θ , φ ; Y)∂θyo= Ayo( yyo- γ′( θyo) )φ
Denotar la solución de la ecuación anterior por θ i , entonces la forma general de la log-probabilidad de que el modelo saturado (tratar el parámetro de escala como constante) es:
ℓ ( θ , φ ; Y ) = n Σ i = 1 A i ( y i θ i - γ ( θ i ) ) / φ + n Σ i = 1 τ ( y i , φθ^yo
ℓ ( θ^, φ ; Y) = ∑i = 1norteUNyo( yyoθ^yo- γ( θ^yo) ) / φ + ∑i = 1norteτ( yyo, φ / Ayo) .( ∗ ∗ )
( ∗ ∗ )Γ ( α , β)
F( y; α , β) = βαΓ ( α )mi- βyyα - 1,y> 0 , α > 0 , β> 0 ,
F( 1 )φ = 1α,θ = - βα,
FF( y; θ , φ ) = exp[ θ y- ( - log( - θ ) )φ+ τ( y, φ ) ] ,
τ(y, φ ) = - logφφ+ ( 1φ- 1 ) registroy- registroΓ ( φ- 1) .
θ^yo= - 1yyo∑i = 1norte1φ[ θ^yoyyo- ( - log( - θ^yo) ) ] = ∑i = 1norte1φ[ - 1 - log( yyo) ] ≠ 0 ,
yyo
Si toma las derivadas con respecto a todos los coeficientes que obtiene∇ ℓ ( β ) = ∑i = 1norteyyoXyo- exp[ x⊺yoβ ]( 1 + exp[ x⊺yoβ ] )Xyo.(2)
Establecer esta expresión igual a0 0 y resolviendo para β te dará tu respuesta. Por lo general, esto no se puede hacer analíticamente, lo que explica la popularidad / necesidad de usar algoritmos iterativos para ajustarse a este modelo, pero en el caso de un modelo saturado, es posible.
Para encontrar el modelo saturado, le damos a cada fila su propio coeficiente. Entoncesβ ∈ Rnorte y la matriz de diseño multiplicada por el vector coeficiente es
X β = ⎡⎣⎢⎢⎢⎢⎢10 0⋮0 00 01⋮0 0⋯⋯⋱⋯0 00 0⋮1⎤⎦⎥⎥⎥⎥⎥⎡⎣⎢⎢⎢⎢β1β2⋮βnorte⎤⎦⎥⎥⎥⎥.
Tenga en cuenta que en particular,X⊺yoβ = βyo .
Entonces tomando elj la fila de la ecuación (2) nos da
∑i = 1norteyyoXi , j= ∑i = 1norteExp[ x⊺yoβ ]( 1 + exp[ x⊺yoβ ] )Xi , j
que solo puede ser cierto si para cada observaciónyo :
fuente
glm( cbind(k, n-k) ~ x + ...
), entonces el modelo saturado no tiene probabilidad de logl cero.@ Alex: sí, es cierto. al menos para distribuciones discretas. para distribuciones continuas, se reduciría a dejar que la densidad sea igual a 1, lo que no es necesariamente significativo y, por lo tanto, no es una cosa sensata para tratar de lograr. un poco más generalmente, la probabilidad logarítmica del modelo saturado le brinda un límite superior para el rendimiento de cualquier modelo que siga su suposición de la familia de distribución subyacente. En otras palabras, la probabilidad logarítmica de un modelo binomial saturado es "tan buena como es posible" para el conjunto de datos dado (X, Y) suponiendo que Y es binomial. Tiene sentido comparar su modelo glm con este límite superior en lugar de, por ejemplo, 100% (o similar), ya que su modelo está inherentemente limitado por su suposición sobre la distribución de la respuesta.
fuente