Tengo un conjunto de datos en el que la tasa de eventos es muy baja (40,000 de ). Estoy aplicando regresión logística en esto. He tenido una discusión con alguien donde se descubrió que la regresión logística no daría una buena matriz de confusión en datos de tan baja tasa de eventos. Pero debido al problema comercial y la forma en que se ha definido, no puedo aumentar el número de eventos de 40,000 a un número mayor, aunque estoy de acuerdo en que puedo eliminar alguna población no existente.
Cuéntame tu opinión sobre esto, específicamente:
- ¿La precisión de la regresión logística depende de la tasa de eventos o hay una tasa mínima de eventos que se recomienda?
- ¿Existe alguna técnica especial para los datos de baja tasa de eventos?
- ¿Eliminar mi población sin eventos sería bueno para la precisión de mi modelo?
Soy nuevo en el modelado estadístico, así que perdone mi ignorancia y aborde cualquier problema asociado en el que pueda pensar.
Gracias,
Respuestas:
Voy a responder sus preguntas fuera de servicio:
Cada observación proporcionará información adicional sobre el parámetro (a través de la función de probabilidad). Por lo tanto, no tiene sentido eliminar datos, ya que simplemente estaría perdiendo información.
Técnicamente, sí: una observación rara es mucho más informativa (es decir, la función de probabilidad será más pronunciada). Si su índice de eventos fuera 50:50, obtendría bandas de confianza mucho más ajustadas (o intervalos creíbles si está siendo bayesiano) por la misma cantidad de datos . Sin embargo, no puede elegir su tasa de eventos (a menos que esté haciendo un estudio de casos y controles), por lo que tendrá que conformarse con lo que tiene.
El mayor problema que puede surgir es la separación perfecta : esto ocurre cuando alguna combinación de variables da todos los no eventos (o todos los eventos): en este caso, las estimaciones del parámetro de máxima verosimilitud (y sus errores estándar) se acercarán al infinito (aunque generalmente el algoritmo se detendrá de antemano). Hay dos posibles soluciones:
a) eliminar predictores del modelo: aunque esto hará que su algoritmo converja, eliminará la variable con el mayor poder explicativo, por lo que esto solo tiene sentido si su modelo estaba sobreajustado para comenzar (como ajustar demasiadas interacciones complicadas) .
b) utilice algún tipo de penalización, como una distribución previa, que reducirá las estimaciones a valores más razonables.
fuente
glm
función de R. En el peor de los casos, supongo que es como tirar parte de cada punto de datos con peso reducido, pero en realidad no es lo mismo. 2) Como dije, hay compensaciones asociadas con esta decisión. Probablemente tenga más sentido en contextos en los que la población de la muestra no está bien definida y, para empezar, la verdadera tasa de eventos no es significativa. Ciertamente no lo recomendaría en todos los ámbitos.Hay una mejor alternativa para eliminar no eventos para datos temporales o espaciales: puede agregar sus datos a través del tiempo / espacio, y modelar los recuentos como Poisson. Por ejemplo, si su evento es "la erupción volcánica ocurre el día X", entonces no muchos días tendrán una erupción volcánica. Sin embargo, si agrupa los días en semanas o meses, por ejemplo, "número de erupciones volcánicas en el mes X", habrá reducido el número de eventos y más eventos tendrán valores distintos de cero.
fuente