Sobre si existe un término de error en la regresión logística (y su distribución supuesta), he leído en varios lugares que:
- no existe término de error
- el término de error tiene una distribución binomial (de acuerdo con la distribución de la variable de respuesta)
- el término de error tiene una distribución logística
¿Alguien puede aclarar?
logistic
binomial
bernoulli-distribution
logistic-distribution
usuario61124
fuente
fuente
Respuestas:
En la regresión lineal, se supone que las observaciones siguen una distribución gaussiana con un parámetro medio condicional a los valores predictores. Si resta la media de las observaciones, obtiene el error : una distribución gaussiana con media cero e independiente de los valores predictores, es decir, los errores en cualquier conjunto de valores predictores siguen la misma distribución.
En las observaciones de regresión logística se supone que siguen una distribución de Bernoulli † con un parámetro medio (una probabilidad) condicional en los valores predictores. Entonces, para cualquier valor predictivo determinado que determine una media π , solo hay dos posibles errores: 1 - π que ocurre con probabilidad π , y 0 - π que ocurre con probabilidad 1 - π . Para otros valores predictores, los errores serán 1 - π ′ que ocurre con probabilidad π ′y∈ { 0 , 1 } π 1 - π π 0 - π 1 - π 1 - π′ π′ , & ocurre con probabilidad 1 - π ′ . Por lo tanto, no hay una distribución de error común independiente de los valores predictores, por lo que la gente dice "no existe un término de error" (1).0 - π′ 1 - π′
"El término de error tiene una distribución binomial" (2) es solo descuido: "los modelos gaussianos tienen errores gaussianos, los modelos binomiales ergo tienen errores binomiales". (O, como señala @whuber, podría entenderse que significa "la diferencia entre una observación y su expectativa tiene una distribución binomial traducida por la expectativa").
"El término de error tiene una distribución logística" (3) surge de la derivación de la regresión logística del modelo donde observa si una variable latente con errores después de una distribución logística excede algún umbral. Entonces no es el mismo error definido anteriormente. (Parecería extraño decir IMO fuera de ese contexto, o sin referencia explícita a la variable latente).
† Si tiene observaciones con los mismos valores predictores, dando la misma probabilidad π para cada uno, entonces su suma ∑ y sigue una distribución binomial con probabilidad π y no. juicios k . Considerando ∑ y - k π como el error lleva a las mismas conclusiones.k π ∑ y π k ∑ y- k π
fuente
Esto ha sido cubierto antes. Un modelo que está limitado a tener valores predichos en no puede tener un término de error aditivo que haga que las predicciones salgan fuera [ 0 , 1 ] . Piense en el ejemplo más simple de un modelo logístico binario: un modelo que contiene solo una intersección. Esto es equivalente al problema de una muestra de Bernoulli, a menudo llamado (en este caso simple) el problema binomial porque (1) toda la información está contenida en el tamaño de la muestra y el número de eventos o (2) la distribución de Bernoulli es un caso especial de la distribución binomial con n = 1[0,1] [0,1] n=1 . Los datos sin procesar en esta situación son una serie de valores binarios, y cada uno tiene una distribución de Bernoulli con un parámetro desconocido representa la probabilidad del evento. No hay término de error en la distribución de Bernoulli, solo hay una probabilidad desconocida. El modelo logístico es un modelo de probabilidad.θ
fuente
Para mí, la unificación de la regresión logística, lineal, de Poisson, etc. siempre ha sido en términos de especificación de la media y la varianza en el marco del Modelo lineal generalizado. Comenzamos especificando una distribución de probabilidad para nuestros datos, normal para datos continuos, Bernoulli para dicotómicos, Poisson para conteos, etc. Luego especificamos una función de enlace que describe cómo se relaciona la media con el predictor lineal:
Para regresión lineal, .g(μi)=μi
Lo único que uno podría considerar en términos de escribir un término de error sería decir:
fuente
fuente