Actualmente estoy modelando algunos datos usando una regresión logística binaria. La variable dependiente tiene una buena cantidad de casos positivos y negativos, no es escasa. También tengo un gran conjunto de entrenamiento (> 100,000) y el número de efectos principales que me interesan es de aproximadamente 15, así que no me preocupa un problema p> n.
Lo que me preocupa es que muchas de mis variables predictoras, si son continuas, son cero la mayor parte del tiempo, y si son nominales, son nulas la mayor parte del tiempo. Cuando estas variables predictoras dispersas toman un valor> 0 (o no son nulas), sé que, debido a la familiaridad con los datos, deberían ser importantes para predecir mis casos positivos. He estado tratando de buscar información sobre cómo la escasez de estos predictores podría estar afectando a mi modelo.
En particular, no quisiera que el efecto de una variable escasa pero importante no se incluyera en mi modelo si hay otra variable predictora que no es escasa y está correlacionada pero que en realidad no hace un buen trabajo al predecir los casos positivos .
Para ilustrar un ejemplo, si estaba tratando de modelar si alguien terminó siendo aceptado o no en una universidad de la liga de hiedra en particular y mis tres predictores fueron puntaje SAT, GPA y "donación> 1 millón de dólares" como binario, tengo razón creer que "donación> 1 millón de dólares", cuando sea cierto, va a ser muy predictivo de aceptación, más que un GPA o SAT alto, pero también es muy escaso. ¿Cómo, si es que afecta, afectará mi modelo logístico? ¿Necesito hacer ajustes para esto? Además, ¿otro tipo de modelo (por ejemplo, árbol de decisión, bosque aleatorio, etc.) manejaría esto mejor?
fuente