Residuos para regresión logística y distancia de Cook

10

¿Existen supuestos particulares con respecto a los errores para la regresión logística, como la variación constante de los términos de error y la normalidad de los residuos?
También típicamente cuando tiene puntos que tienen una distancia de Cook mayor a 4 / n, ¿los elimina? Si los elimina, ¿cómo puede saber si el modelo con los puntos eliminados es mejor?

regression logistic residuals diagnostic cooks-distance señor12
fuente

12

No sé si puedo darte una respuesta completa, pero puedo darte algunas ideas que pueden ser útiles. Primero, todos los modelos / pruebas estadísticas tienen supuestos. Sin embargo, la regresión logística no supone que los residuos estén distribuidos normalmente ni que la varianza sea constante. Más bien, se supone que los datos se distribuyen como un binomio, , es decir, con el número de ensayos de Bernoulli igual al número de observaciones en ese conjunto exacto de valores de covariables y con el probabilidad asociada con ese conjunto de valores covariables. Recuerde que la varianza de un binomio es $\mathcal{B}(n_{x_i},p_{x_i})$ . Por lo tanto, si las varían en diferentes niveles de la covariable, las variaciones también lo harán. Además, si alguna de las covariables está relacionada con la variable de respuesta, entonces las probabilidades variarán y, por lo tanto, también lo harán las variaciones. Estos son hechos importantes sobre la regresión logística. $np(1-p)$ $n$

$R^2$ $R^2$ $R^2$ $R^2$ $R^2$ $R^2$ sy las distribuciones jackknifed, porque seleccionó esos datos para excluirlos porque parecen extremos.

gung - Restablece a Monica
fuente

8

1) ¿Existen supuestos particulares con respecto a los errores para la regresión logística, como la variación constante de los términos de error y la normalidad de los residuos?

Los modelos de regresión logística no tienen "errores" en el sentido tradicional. Es a la vez contraintuitivo y metodológicamente inconsistente. Los resultados del modelo son probabilidades o riesgos ajustados, mientras que los resultados observados son indicadores de eventos 0/1. Metodológicamente, tenderías a enfatizar los dominios de probabilidades ajustadas muy altas o muy bajas (contribuyendo cantidades muy pequeñas a la distancia residual), mientras que el algoritmo de ajuste del modelo otorga una importancia considerablemente mayor a tales regiones. La distancia al cuadrado es generalmente una forma pobre de calibrar un modelo de regresión logística.

Una prueba alternativa de bondad de ajuste es la prueba de Hosmer-Lemeshow en la que los valores ajustados se utilizan para crear particiones agrupadas basadas en deciles de riesgo ajustado. Puede leer sobre esta prueba en el Análisis de datos categóricos de Alan Agresti o en el libro Registic Logistic by Hosmer and Lemeshow. Otro proceso es usar los Residuos Studentizados donde la relación de varianza media se usa para revalorar los residuos por su varianza inversa ajustada . Para la regresión logística esto es

r_{s t u d} = \frac{Y - μ}{\sqrt{μ (1 - μ)}}

$r_{stud} = \frac{Y - \mu}{\sqrt{\mu(1-\mu)}}$

2) También típicamente cuando tienes puntos que tienen una distancia de Cook mayor a 4 / n, ¿los eliminas? Si los elimina, ¿cómo puede saber si el modelo con los puntos eliminados es mejor?

Nunca elimino puntos basados en análisis de sensibilidad. Si hago una muestra aleatoria de 100 personas y sus ingresos y 1 persona es multimillonaria, entonces mi suposición más segura es que 1 multimillonario representa 1/100 de la población.

AdamO
fuente

¿Por qué asumirías que el 1 multimillonario representa 1/100 de la población? ¡Probablemente pueda obtener una estimación externa de la proporción de multimillonarios en la población!

kjetil b halvorsen

6

Estoy de acuerdo con el comentario de AdamO anterior en general, suponiendo que 1 billonario representa 1/100 de la población está totalmente bien. Sin embargo, si la presencia del 1 billonario distorsiona tanto los datos que la predicción para las otras 99 personas se ve afectada, eliminaría al 1 billonario. Prefiero estar equivocado con la predicción de un valor atípico que todos los demás.

Dicho esto, si elimina los puntos de datos utilizando los valores D de Cook (es decir, cualquier cosa> 4 / df), podría usar el área bajo las curvas ROC para ambos modelos para verificar la mejora.

Sanjay Saravanan
fuente

1

(+1) Modelar la relación entre las probabilidades de registro de la respuesta y el ingreso con una spline natural, quizás transformando el ingreso de antemano, es otra forma de evitar las predicciones que afectan demasiado al multimillonario para los demás. Eliminarlo sugiere que está contento de no hacer predicciones para otros multimillonarios (lo suficientemente justo) en lugar de contento de hacer predicciones erróneas sobre ellos.

Scortchi - Restablece a Monica

Irónicamente, cuando se trata de predecir eventos binarios, es cierto que excluir las observaciones influyentes puede conducir a una mejor calibración de las predicciones de riesgo. Sin embargo, excluir las observaciones influyentes reducirá la discriminación de las predicciones de riesgo. Este último es posiblemente más importante. Cuando se trata de predecir el riesgo de un determinado evento (que es 0 o 1, no valorado continuamente), el mejor tipo de predicción empujará las predicciones de los casos más cerca de 1 y las predicciones de los controles más cerca de 0. Los puntos de influencia altos a menudo son efectivos Al hacer esto.

AdamO

Residuos para regresión logística y distancia de Cook

Respuestas: