Me gustaría estudiar eventos raros en una población finita. Como no estoy seguro de qué estrategia es la más adecuada, agradecería consejos y referencias relacionadas con este asunto, aunque soy consciente de que se ha cubierto en gran medida. Simplemente no sé por dónde empezar.
Mi problema es de ciencias políticas y tengo una población finita que comprende 515,843 registros. Están asociados a una variable dependiente binaria con 513,334 "0" sy 2,509 "1" s. Puedo acuñar mis "1" como eventos raros ya que representan solo el 0,49% de la población.
Tengo un conjunto de alrededor de 10 variables independientes con las que me gustaría construir un modelo para explicar la presencia de "1". Como muchos de nosotros, leí el artículo de King & Zeng de 2001 sobre la corrección de eventos raros. Su enfoque consistía en utilizar un diseño de control de casos para reducir el número de "0", y luego aplicar la corrección a la intercepción.
Sin embargo, esta publicación dice que el argumento de King y Zeng no era necesario si ya recopilaba mis datos sobre toda la población, que es mi caso. Por lo tanto, tengo que usar el modelo logit clásico. Desafortunadamente para mí, aunque obtengo buenos coeficientes significativos, mi modelo es completamente inútil en términos de predicción (no puede predecir el 99.48% de mis "1" s).
Después de leer el artículo de King & Zeng, quería probar un diseño de control de casos y seleccioné solo el 10% de los "0" con todos los "1". Con casi los mismos coeficientes, el modelo fue capaz de predecir casi un tercio de los "1" cuando se aplicó a toda la población. Por supuesto, hay muchos falsos positivos.
Por lo tanto, tengo tres preguntas que me gustaría hacerle:
1) Si el enfoque de King & Zeng es perjudicial cuando se tiene un conocimiento completo de la población, ¿por qué utilizan una situación en la que conocen a la población en su artículo para demostrar su punto?
2) Si tengo coeficientes buenos y significativos en una regresión logit, pero un poder predictivo muy pobre, ¿eso significa que la variación explicada por estas variables no tiene sentido?
3) ¿Cuál es el mejor enfoque para lidiar con eventos raros? Leí sobre el modelo de relogit de King, el enfoque de Firth, el logit exacto, etc. Debo confesar que estoy perdido entre todas estas soluciones.
fuente
Respuestas:
(1) Si tiene "pleno conocimiento de una población", ¿por qué necesita un modelo para hacer predicciones? Sospecho que los estás considerando implícitamente como una muestra de una hipotética superpoblación: mira aquí y aquí . Entonces, ¿debería descartar las observaciones de su muestra? No. King y Zeng no defienden esto:
La situación de la que creo que está hablando es el ejemplo "Selección de en datos de disputas interestatales militarizadas". K. y Z. utilícelo para demostrar su punto: en este ejemplo, si un investigador hubiera intentado economizar mediante la recopilación de todos los 1 y una proporción de los 0, sus estimaciones serían similares a las de una muestra de todos los 1 y 0 disponibles. ¿De qué otra manera ilustrarías eso?Y
(2) El problema principal aquí es el uso de una regla de puntuación incorrecta para evaluar el rendimiento predictivo de su modelo. Suponga que su modelo es verdadero , de modo que para cualquier individuo usted conozca la probabilidad de un evento raro, digamos que lo mordió una serpiente en el próximo mes. ¿Qué más aprende al estipular un corte de probabilidad arbitrario y predecir que los que están arriba serán mordidos y los que están debajo no? Si logra el límite del 50%, es probable que prediga que nadie será mordido. Si lo hace lo suficientemente bajo, puede predecir que todos serán mordidos. ¿Y qué? La aplicación sensata de un modelo requiere discriminación, ¿a quién se le debe dar el único frasco de anti-veneno? O calibración, ¿para quién vale la pena comprar botas, dado su costo en relación con el de una mordedura de serpiente?
fuente
En un nivel, me pregunto cuánto de la inexactitud de su modelo es simplemente que su proceso es difícil de predecir, y sus variables no son suficientes para hacerlo. ¿Hay otras variables que podrían explicar más?
Por otro lado, si puede emitir su variable dependiente como un problema de conteo / ordinal (como víctimas del conflicto o duración del conflicto), puede intentar modelos de regresión de conteo o obstáculo inflados a cero. Estos pueden tener el mismo problema de mala definición entre 0 y 1, pero algunos conflictos con los que se correlacionan sus variables podrían alejarse de cero.
fuente
Además de reducir el muestreo de la población mayoritaria, también puede sobremuestrear los eventos raros, pero tenga en cuenta que el muestreo excesivo de la clase minoritaria puede conducir a un sobreajuste, así que verifique las cosas con cuidado.
Este documento puede proporcionar más información al respecto: Yap, Bee Wah, et al. "Una aplicación de sobremuestreo, submuestreo, embolsado y refuerzo en el manejo de conjuntos de datos desequilibrados". pdf
Además, me gustaría vincular esta pregunta ya que también trata el mismo problema
fuente
Su pregunta se reduce a cómo puedo persuadir la regresión logit para encontrar una mejor solución. Pero, ¿estás seguro de que existe una mejor solución? Con solo diez parámetros, ¿pudo encontrar una solución mejor?
Intentaría un modelo más complicado, por ejemplo, agregando términos de producto en la entrada, o agregando una capa de máximo rendimiento en el lado del objetivo (de modo que esencialmente tenga múltiples regresores logísticos para varios subconjuntos descubiertos adaptativamente del objetivo 1).
fuente
Gran pregunta
En mi opinión, el problema es si estás tratando de hacer inferencia (¿estás interesado en lo que te dicen tus coeficientes?) O predicción. Si es lo último, entonces podría tomar prestados modelos de Machine Learning (BART, randomForest, árboles potenciados, etc.) que casi seguramente harán un mejor trabajo en la predicción que logit. Si está haciendo inferencia y tiene tantos puntos de datos, intente incluir términos de interacción sensibles, términos polinómicos, etc. Alternativamente, podría hacer inferencia de BART, como en este documento:
http://artsandsciences.sc.edu/people/kernh/publications/Green%20and%20Kern%20BART.pdf
Recientemente he estado trabajando en eventos raros y no tenía idea de antemano cuántos casos raros pueden afectar el análisis. El muestreo descendente de los casos 0 es imprescindible. Una estrategia para encontrar la proporción ideal de muestra descendente sería
Espero que esto ayude. JS
fuente