No sé si puedo darte una respuesta completa, pero puedo darte algunas ideas que pueden ser útiles. Primero, todos los modelos / pruebas estadísticas tienen supuestos. Sin embargo, la regresión logística no supone que los residuos estén distribuidos normalmente ni que la varianza sea constante. Más bien, se supone que los datos se distribuyen como un binomio, , es decir, con el número de ensayos de Bernoulli igual al número de observaciones en ese conjunto exacto de valores de covariables y con el probabilidad asociada con ese conjunto de valores covariables. Recuerde que la varianza de un binomio es n p (si( nXyo, pXyo) . Por lo tanto, si las n varían en diferentes niveles de la covariable, las variaciones también lo harán. Además, si alguna de las covariables está relacionada con la variable de respuesta, entonces las probabilidades variarán y, por lo tanto, también lo harán las variaciones. Estos son hechos importantes sobre la regresión logística. n p ( 1 - p )norte
R2R2R2R2R2R2sy las distribuciones jackknifed, porque seleccionó esos datos para excluirlos porque parecen extremos.
gung - Restablece a Monica
fuente
Estoy de acuerdo con el comentario de AdamO anterior en general, suponiendo que 1 billonario representa 1/100 de la población está totalmente bien. Sin embargo, si la presencia del 1 billonario distorsiona tanto los datos que la predicción para las otras 99 personas se ve afectada, eliminaría al 1 billonario. Prefiero estar equivocado con la predicción de un valor atípico que todos los demás.
Dicho esto, si elimina los puntos de datos utilizando los valores D de Cook (es decir, cualquier cosa> 4 / df), podría usar el área bajo las curvas ROC para ambos modelos para verificar la mejora.
fuente