¿Existe una suposición sobre regresión logística?

18

¿Existe alguna suposición sobre la variable de respuesta de regresión logística?

Por ejemplo, supongamos que tenemos puntos de datos. Parece que la respuesta proviene de una distribución de Bernoulli con . Por lo tanto, deberíamos tener distribuciones de Bernoulli, con diferentes parámetros .Y i p i = logit ( β 0 + β 1 x i ) 1000 p1000Yipi=logit(β0+β1xi)1000p

Por lo tanto, son "independientes", pero no son "idénticos".

Estoy en lo cierto?


PD. Aprendí la regresión logística de la literatura de "aprendizaje automático", donde optimizamos la función objetivo y verificamos si es buena para probar datos, sin hablar demasiado de suposiciones.

Mi pregunta comenzó con esta publicación Comprender la función de enlace en el modelo lineal generalizado donde trato de aprender más sobre supuestos estadísticos.

Haitao Du
fuente
1
Una "suposición" es algo que puede tener un teorema. La regresión lineal tiene una "suposición" de los errores de iid (¡no se supone que y es iid en la regresión lineal! Son los errores) en el sentido de que el teorema de Gauss-Markov tiene esta suposición. Ahora, ¿hay algún teorema de que uno tiene una mente para la regresión logística? Si no, entonces no hay "suposiciones".
ameba dice Reinstate Monica
77
@Amoeba, hxd es correcto al señalar que las distribuciones no son idénticas: "iid" no se aplica. Si uno usa la regresión logística solo para su ajuste, entonces (mientras escribe) tal vez se necesiten algunas suposiciones; pero tan pronto como se hace uso de la matriz de covarianza estimada de los coeficientes o se desea construir intervalos de predicción (o, para el caso, validar de forma cruzada los valores pronosticados), eso requiere suposiciones probabilísticas. La habitual es que las respuestas son independientes.
whuber
44
@amoeba, una vez que desee realizar inferencia (pruebas de hipótesis, intervalos de confianza, etc.) en lugar de simplemente calcular estimaciones de parámetros, hará una serie de suposiciones (algunas más críticas que otras) para poder derivar la distribución nula relevante de prueba estadística o los cálculos necesarios para un intervalo con la cobertura deseada. Incluso los procedimientos de suposición relativamente baja todavía tienen suposiciones, y si nos preocupamos por nuestras inferencias, nos preocuparemos por si es probable que tengan algo cerca de sus propiedades nominales.
Glen_b -Reinstala a Monica
1
@amoeba, me gusta un teorema que muestra la normalidad asintótica del MLE. También me gusta la prueba de razón de probabilidad.
Gammer
2
Sus distribuciones marginales no son idénticas a menos que todas tengan el mismo valor predictor, en cuyo caso solo tiene pruebas de IID bernoulli. Sus distribuciones condicionales (dado el predictor) son todas iguales, pero no creo que normalmente diga que en este caso son IID. Yi
Gammer

Respuestas:

11

Desde su pregunta anterior aprendió que GLM se describe en términos de distribución de probabilidad, lineal predictor y la función de enlace g y se describe comoηg

η=XβE(Y|X)=μ=g1(η)

donde es una función de enlace logit y se supone que Y sigue una distribución de BernoulligY

YiB(μi)

cada sigue distribución de Bernoulli con el mismo de la propia media μ i que está condicionada a X . Estamos no Suponiendo que cada Y i viene de la misma distribución, con la misma media (esto sería la intersección-único modelo Y i = g - 1 ( μ ) ), pero que todos ellos tienen diferentes medios. Suponemos que los Y i son independientes , es decir, no tenemos que preocuparnos por cosas como la autocorrelación entre los valores Y i posteriores , etc.Yi μiXYiYi=g1(μ)YiYi

La suposición de iid está relacionada con errores en la regresión lineal (es decir, GLM gaussiana), donde el modelo es

yi=β0+β1xi+εi=μi+εi

donde , por lo que tenemos ruido iid alrededor de . Es por esto que está interesado en residuales diagnóstico y prestar atención a los residuos vs. equipada trama . Ahora, en el caso de la regresión logística de GLM, no es tan simple ya que no existe un término de ruido aditivo como con el modelo gaussiano (ver aquí , aquí y aquí ). Todavía queremos que los residuos sean "aleatorios" alrededor de cero y no queremos ver ninguna tendencia en ellos porque sugerirían que hay algunos efectos que no se tienen en cuenta en el modelo, pero no asumimos que lo sean. normal y / oεiN(0,σ2)μiIID . Ver también la importancia del supuesto iid en el hilo de aprendizaje estadístico .

Como nota al margen, tenga en cuenta que incluso podemos dejar de suponer que cada proviene del mismo tipo de distribución. Hay (no-GLM) modelos que asumen que diferente Y i 's puede tener diferentes distribuciones con diferentes parámetros, es decir, que sus datos proviene de una mezcla de diferentes distribuciones . En tal caso, también supondríamos que los valores Y i son independientes , ya que los valores dependientes, que provienen de diferentes distribuciones con diferentes parámetros (es decir, datos típicos del mundo real) es algo que en la mayoría de los casos sería demasiado complicado de modelar (a menudo imposible) .YiYiYi

Tim
fuente
6

Como se ha dicho, si bien a menudo consideramos el caso de los errores de iid en la regresión lineal, esto no tiene un equivalente directo en la mayoría de los modelos lineales generalizados (incluida la regresión logística). En la regresión logística, generalmente empleamos el supuesto de independencia de los resultados que tienen una relación muy estricta (es decir, efectos lineales en las probabilidades de registro). Pero estos resultan en variables aleatorias que no son idénticas, ni se pueden descomponer en un término constante más un error de iid como es el caso de la regresión lineal.

Si realmente quieres mostrar que las respuestas tienen algún tipo de relación iid, sígueme para el siguiente párrafo. Solo sé que esta idea está un poco fuera de lo común; es posible que no obtenga crédito completo por esta respuesta en una final si a su profesor le falta paciencia.

XFXXquniform(0,1)X=FX1(q)p=expit(βo+β1x)FY(y|p)pYi

pi=expit(βo+β1xi)

qiuniform(0,1)

Yi=F1(qi|pi)

qi

Acantilado
fuente
1
qiYiB(pi)Yipiqi
@Tim: sí, la segunda parte de la respuesta es más una nota al margen interesante que una respuesta concisa. Pero puede ser una forma útil de verlo; después de todo, ¡así es básicamente cómo su computadora simula datos de estos modelos!
Cliff AB