Aplicando regresión logística con baja tasa de eventos

15

Tengo un conjunto de datos en el que la tasa de eventos es muy baja (40,000 de ). Estoy aplicando regresión logística en esto. He tenido una discusión con alguien donde se descubrió que la regresión logística no daría una buena matriz de confusión en datos de tan baja tasa de eventos. Pero debido al problema comercial y la forma en que se ha definido, no puedo aumentar el número de eventos de 40,000 a un número mayor, aunque estoy de acuerdo en que puedo eliminar alguna población no existente.12105 5

Cuéntame tu opinión sobre esto, específicamente:

  1. ¿La precisión de la regresión logística depende de la tasa de eventos o hay una tasa mínima de eventos que se recomienda?
  2. ¿Existe alguna técnica especial para los datos de baja tasa de eventos?
  3. ¿Eliminar mi población sin eventos sería bueno para la precisión de mi modelo?

Soy nuevo en el modelado estadístico, así que perdone mi ignorancia y aborde cualquier problema asociado en el que pueda pensar.

Gracias,

ayush biyani
fuente
3
40000 / 12e5 = 3.3%, esto no me parece una tasa muy baja.
GaBorgulya
1
Gracias, en caso de que las personas necesiten más contexto para decidir la tasa de eventos baja y alta, estos datos son del sector de seguros.
ayush biyani
3
Quizás le interese la regresión logística en datos de eventos raros .
Bernd Weiss

Respuestas:

11

Voy a responder sus preguntas fuera de servicio:

3 ¿Eliminar mi población sin eventos sería bueno para la precisión de mi modelo?

Cada observación proporcionará información adicional sobre el parámetro (a través de la función de probabilidad). Por lo tanto, no tiene sentido eliminar datos, ya que simplemente estaría perdiendo información.

1 ¿La precisión de la regresión logística depende de la tasa de eventos o hay una tasa mínima de eventos que se recomienda?

Técnicamente, sí: una observación rara es mucho más informativa (es decir, la función de probabilidad será más pronunciada). Si su índice de eventos fuera 50:50, obtendría bandas de confianza mucho más ajustadas (o intervalos creíbles si está siendo bayesiano) por la misma cantidad de datos . Sin embargo, no puede elegir su tasa de eventos (a menos que esté haciendo un estudio de casos y controles), por lo que tendrá que conformarse con lo que tiene.

2 ¿Existe alguna técnica especial para los datos de baja tasa de eventos?

El mayor problema que puede surgir es la separación perfecta : esto ocurre cuando alguna combinación de variables da todos los no eventos (o todos los eventos): en este caso, las estimaciones del parámetro de máxima verosimilitud (y sus errores estándar) se acercarán al infinito (aunque generalmente el algoritmo se detendrá de antemano). Hay dos posibles soluciones:

a) eliminar predictores del modelo: aunque esto hará que su algoritmo converja, eliminará la variable con el mayor poder explicativo, por lo que esto solo tiene sentido si su modelo estaba sobreajustado para comenzar (como ajustar demasiadas interacciones complicadas) .

b) utilice algún tipo de penalización, como una distribución previa, que reducirá las estimaciones a valores más razonables.

Simon Byrne
fuente
+1 También agregaría que he visto contextos en los que las personas han vuelto a ponderar sus datos a 50:50. La compensación parece ser una mejora en la capacidad del modelo para clasificar (suponiendo que se elija un buen umbral) frente a alguna pérdida de información sobre la prevalencia general y alguna dificultad adicional para interpretar los coeficientes.
David J. Harris
1
@David: También he oído hablar de personas que vuelven a ponderar y usan esquemas complicados de pseudo-bootstrap donde solo vuelven a muestrear la clase de alta frecuencia. Para todas estas técnicas, finalmente está desechando (o inventando) datos. Yo diría que si esto mejora su modelo, entonces probablemente esté ajustando el modelo incorrecto. Vea también mis comentarios aquí: stats.stackexchange.com/questions/10356/…
Simon Byrne
1) Perdón si no estaba claro: estaba hablando de cambiar la influencia relativa de los eventos y no eventos, como con el argumento de "pesos" en la glmfunción de R. En el peor de los casos, supongo que es como tirar parte de cada punto de datos con peso reducido, pero en realidad no es lo mismo. 2) Como dije, hay compensaciones asociadas con esta decisión. Probablemente tenga más sentido en contextos en los que la población de la muestra no está bien definida y, para empezar, la verdadera tasa de eventos no es significativa. Ciertamente no lo recomendaría en todos los ámbitos.
David J. Harris
2

Hay una mejor alternativa para eliminar no eventos para datos temporales o espaciales: puede agregar sus datos a través del tiempo / espacio, y modelar los recuentos como Poisson. Por ejemplo, si su evento es "la erupción volcánica ocurre el día X", entonces no muchos días tendrán una erupción volcánica. Sin embargo, si agrupa los días en semanas o meses, por ejemplo, "número de erupciones volcánicas en el mes X", habrá reducido el número de eventos y más eventos tendrán valores distintos de cero.

charles.y.zheng
fuente
66
Tengo que decir que este consejo no responde a la pregunta en absoluto. 1) No hay nada en la pregunta que sugiera que el OP está tratando con datos espaciales o temporales. 2) ¿Cómo agregaría los datos ayudaría a identificar relaciones significativas (utiliza menos información que las unidades originales!)
Andy W
2
También como nota, para que cualquier relación observada ocurra a nivel agregado, debe estar presente en el nivel de las unidades originales, aunque una relación en el nivel agregado no necesariamente refleja cuál es la relación entre las dos variables en el desagregado nivel. Ver qmrg.org.uk/files/2008/11/38-maup-openshaw.pdf
Andy W
De acuerdo con Andy.
Ayush Biyani 03 de