Sé que el tamaño de la muestra afecta la potencia en cualquier método estadístico. Hay reglas para determinar cuántas muestras necesita una regresión para cada predictor.
También escucho a menudo que el número de muestras en cada categoría en la variable dependiente de una regresión logística es importante. ¿Por qué es esto?
¿Cuáles son las consecuencias reales del modelo de regresión logística cuando el número de muestras en una de las categorías es pequeño (eventos raros)?
¿Existen reglas generales que incorporen tanto el número de predictores como el número de muestras en cada nivel de la variable dependiente?
logistic
assumptions
rare-events
Genial38
fuente
fuente
Respuestas:
La regla general estándar para la regresión lineal (OLS) es que necesita al menos datos por variable o se acercará a la saturación . Sin embargo, para la regresión logística, la regla general correspondiente es que desea datos de la categoría menos común para cada variable.10 15
El problema aquí es que los datos binarios simplemente no contienen tanta información como los datos continuos. Además, puede tener predicciones perfectas con muchos datos, si solo tiene un par de eventos reales. Para hacer un ejemplo que es bastante extremo, pero que debe quedar claro de inmediato, considere un caso en el que tiene , y por lo tanto trató de ajustar un modelo con predictores, pero solo tuvo eventos. Simplemente no se puede incluso estimar la asociación entre la mayor parte de sus variables- y .N=300 30 3 X Y
fuente