¿Existe alguna suposición sobre la variable de respuesta de regresión logística?
Por ejemplo, supongamos que tenemos puntos de datos. Parece que la respuesta proviene de una distribución de Bernoulli con . Por lo tanto, deberíamos tener distribuciones de Bernoulli, con diferentes parámetros .Y i p i = logit ( β 0 + β 1 x i ) 1000 p
Por lo tanto, son "independientes", pero no son "idénticos".
Estoy en lo cierto?
PD. Aprendí la regresión logística de la literatura de "aprendizaje automático", donde optimizamos la función objetivo y verificamos si es buena para probar datos, sin hablar demasiado de suposiciones.
Mi pregunta comenzó con esta publicación Comprender la función de enlace en el modelo lineal generalizado donde trato de aprender más sobre supuestos estadísticos.
fuente
Respuestas:
Desde su pregunta anterior aprendió que GLM se describe en términos de distribución de probabilidad, lineal predictor y la función de enlace g y se describe comoη g
donde es una función de enlace logit y se supone que Y sigue una distribución de Bernoullig Y
cada sigue distribución de Bernoulli con el mismo de la propia media μ i que está condicionada a X . Estamos no Suponiendo que cada Y i viene de la misma distribución, con la misma media (esto sería la intersección-único modelo Y i = g - 1 ( μ ) ), pero que todos ellos tienen diferentes medios. Suponemos que los Y i son independientes , es decir, no tenemos que preocuparnos por cosas como la autocorrelación entre los valores Y i posteriores , etc.Yi μi X Yi Yi=g−1(μ) Yi Yi
La suposición de iid está relacionada con errores en la regresión lineal (es decir, GLM gaussiana), donde el modelo es
donde , por lo que tenemos ruido iid alrededor de . Es por esto que está interesado en residuales diagnóstico y prestar atención a los residuos vs. equipada trama . Ahora, en el caso de la regresión logística de GLM, no es tan simple ya que no existe un término de ruido aditivo como con el modelo gaussiano (ver aquí , aquí y aquí ). Todavía queremos que los residuos sean "aleatorios" alrededor de cero y no queremos ver ninguna tendencia en ellos porque sugerirían que hay algunos efectos que no se tienen en cuenta en el modelo, pero no asumimos que lo sean. normal y / oεi∼N(0,σ2) μi IID . Ver también la importancia del supuesto iid en el hilo de aprendizaje estadístico .
Como nota al margen, tenga en cuenta que incluso podemos dejar de suponer que cada proviene del mismo tipo de distribución. Hay (no-GLM) modelos que asumen que diferente Y i 's puede tener diferentes distribuciones con diferentes parámetros, es decir, que sus datos proviene de una mezcla de diferentes distribuciones . En tal caso, también supondríamos que los valores Y i son independientes , ya que los valores dependientes, que provienen de diferentes distribuciones con diferentes parámetros (es decir, datos típicos del mundo real) es algo que en la mayoría de los casos sería demasiado complicado de modelar (a menudo imposible) .Yi Yi Yi
fuente
Como se ha dicho, si bien a menudo consideramos el caso de los errores de iid en la regresión lineal, esto no tiene un equivalente directo en la mayoría de los modelos lineales generalizados (incluida la regresión logística). En la regresión logística, generalmente empleamos el supuesto de independencia de los resultados que tienen una relación muy estricta (es decir, efectos lineales en las probabilidades de registro). Pero estos resultan en variables aleatorias que no son idénticas, ni se pueden descomponer en un término constante más un error de iid como es el caso de la regresión lineal.
Si realmente quieres mostrar que las respuestas tienen algún tipo de relación iid, sígueme para el siguiente párrafo. Solo sé que esta idea está un poco fuera de lo común; es posible que no obtenga crédito completo por esta respuesta en una final si a su profesor le falta paciencia.
fuente