Regresión logística: término de error y su distribución

31

Sobre si existe un término de error en la regresión logística (y su distribución supuesta), he leído en varios lugares que:

  1. no existe término de error
  2. el término de error tiene una distribución binomial (de acuerdo con la distribución de la variable de respuesta)
  3. el término de error tiene una distribución logística

¿Alguien puede aclarar?

usuario61124
fuente
66
Con la regresión logística, o de hecho los GLM en general, generalmente no es útil pensar en términos de la observación como "media + error". Es mejor pensar en términos de distribución condicional. No iría tan lejos como para decir 'no existe un término de error' ya que 'simplemente no es útil pensar en esos términos'. Por lo tanto, no diría que es una elección entre 1. o 2. como diría que generalmente es mejor decir "ninguno de los anteriores". Sin embargo, independientemente del grado en que se pueda argumentar a favor de "1". o "2.", sin embargo, "3." Definitivamente está mal. ¿Dónde viste eso? yi|X
Glen_b -Reinstale a Monica el
1
@Glen_b: ¿Podría alguien discutir por (2)? He conocido personas que lo dicen pero nunca lo defienden cuando se cuestiona.
Scortchi - Restablece a Monica
3
@Glen_b Las tres declaraciones tienen interpretaciones constructivas en las que son ciertas. (3) se trata en en.wikipedia.org/wiki/Logistic_distribution#Applications y en.wikipedia.org/wiki/Discrete_choice#Binary_Choice .
whuber
@whuber: he corregido mi respuesta wrt (3), que no fue bien pensada; pero aún desconcertado en qué sentido (2) podría ser correcto.
Scortchi - Restablece a Monica
2
@Scortchi Aunque tiene razón en que (2) es incorrecto, si lo interpretamos como si dijera que la diferencia entre una observación y su expectativa tiene una distribución binomial traducida por la expectativa , entonces será (trivialmente) correcta. La observación entre paréntesis en (2) sugiere fuertemente que esta es la interpretación prevista. Tenga en cuenta que se pueden definir otros "términos de error" útil, también, por ejemplo los términos y la desviación de error descritos en Hosmer y Lemeshow (y, sujeto a advertencias adecuadas discutido allí, sus cuadrados tienen aproximada χ 2 distribuciones). χ2χ2
whuber

Respuestas:

25

En la regresión lineal, se supone que las observaciones siguen una distribución gaussiana con un parámetro medio condicional a los valores predictores. Si resta la media de las observaciones, obtiene el error : una distribución gaussiana con media cero e independiente de los valores predictores, es decir, los errores en cualquier conjunto de valores predictores siguen la misma distribución.

En las observaciones de regresión logística se supone que siguen una distribución de Bernoulli con un parámetro medio (una probabilidad) condicional en los valores predictores. Entonces, para cualquier valor predictivo determinado que determine una media π , solo hay dos posibles errores: 1 - π que ocurre con probabilidad π , y 0 - π que ocurre con probabilidad 1 - π . Para otros valores predictores, los errores serán 1 - π ′ que ocurre con probabilidad π y{0 0,1}π1-ππ0 0-π1-π1-ππ, & ocurre con probabilidad 1 - π . Por lo tanto, no hay una distribución de error común independiente de los valores predictores, por lo que la gente dice "no existe un término de error" (1).0 0-π1-π

"El término de error tiene una distribución binomial" (2) es solo descuido: "los modelos gaussianos tienen errores gaussianos, los modelos binomiales ergo tienen errores binomiales". (O, como señala @whuber, podría entenderse que significa "la diferencia entre una observación y su expectativa tiene una distribución binomial traducida por la expectativa").

"El término de error tiene una distribución logística" (3) surge de la derivación de la regresión logística del modelo donde observa si una variable latente con errores después de una distribución logística excede algún umbral. Entonces no es el mismo error definido anteriormente. (Parecería extraño decir IMO fuera de ese contexto, o sin referencia explícita a la variable latente).

† Si tiene observaciones con los mismos valores predictores, dando la misma probabilidad π para cada uno, entonces su suma y sigue una distribución binomial con probabilidad π y no. juicios k . Considerando y - k π como el error lleva a las mismas conclusiones.kπyπky-kπ

Scortchi - Restablece a Monica
fuente
1
¿Podría proporcionar un ejemplo simple con respecto a la parte 'no existe término de error'? Tengo problemas para entenderlo de la forma en que está escrito.
quirik
@Scortchi Tengo problemas para seguir el caso cuando en la práctica el modelo se usa con algún umbral, digamos 0.5. Entonces el error es 1 o 0. ¿Puede considerarse esto una variable aleatoria de Bernoulli con el parámetro 1- cuando la etiqueta verdadera es 1? π
wabbit
17

Esto ha sido cubierto antes. Un modelo que está limitado a tener valores predichos en no puede tener un término de error aditivo que haga que las predicciones salgan fuera [ 0 , 1 ] . Piense en el ejemplo más simple de un modelo logístico binario: un modelo que contiene solo una intersección. Esto es equivalente al problema de una muestra de Bernoulli, a menudo llamado (en este caso simple) el problema binomial porque (1) toda la información está contenida en el tamaño de la muestra y el número de eventos o (2) la distribución de Bernoulli es un caso especial de la distribución binomial con n = 1[0,1][0,1]n=1. Los datos sin procesar en esta situación son una serie de valores binarios, y cada uno tiene una distribución de Bernoulli con un parámetro desconocido representa la probabilidad del evento. No hay término de error en la distribución de Bernoulli, solo hay una probabilidad desconocida. El modelo logístico es un modelo de probabilidad.θ

Frank Harrell
fuente
9

Para mí, la unificación de la regresión logística, lineal, de Poisson, etc. siempre ha sido en términos de especificación de la media y la varianza en el marco del Modelo lineal generalizado. Comenzamos especificando una distribución de probabilidad para nuestros datos, normal para datos continuos, Bernoulli para dicotómicos, Poisson para conteos, etc. Luego especificamos una función de enlace que describe cómo se relaciona la media con el predictor lineal:

g(μi)=α+xiTβ

Para regresión lineal, .g(μi)=μi

g(μi)=log(μi1μi)

g(μi)=log(μi)

Lo único que uno podría considerar en términos de escribir un término de error sería decir:

yi=g1(α+xiTβ)+eiE(ei)=0Var(ei)=σ2(μi)σ2(μi)=μi(1μi)=g1(α+xiTβ)(1g1(α+xiTβ))ei

ei

hard2fathom
fuente
0
  1. No existen errores ¡Estamos modelando la media! La media es solo un número verdadero.
  2. Esto no tiene sentido para mí.
  3. Piense en la variable de respuesta como una variable latente. Si supone que el término de error se distribuye normalmente, el modelo se convierte en un modelo probit. Si supone que la distribución del término de error es logística, el modelo es regresión logística.
Liu Jim
fuente
2
No veo cómo esto ayuda a comprender un modelo de probabilidad. Los modelos de probabilidad son más simples de lo que parece.
Frank Harrell