Estrategia para lidiar con eventos raros de regresión logística

27

Me gustaría estudiar eventos raros en una población finita. Como no estoy seguro de qué estrategia es la más adecuada, agradecería consejos y referencias relacionadas con este asunto, aunque soy consciente de que se ha cubierto en gran medida. Simplemente no sé por dónde empezar.

Mi problema es de ciencias políticas y tengo una población finita que comprende 515,843 registros. Están asociados a una variable dependiente binaria con 513,334 "0" sy 2,509 "1" s. Puedo acuñar mis "1" como eventos raros ya que representan solo el 0,49% de la población.

Tengo un conjunto de alrededor de 10 variables independientes con las que me gustaría construir un modelo para explicar la presencia de "1". Como muchos de nosotros, leí el artículo de King & Zeng de 2001 sobre la corrección de eventos raros. Su enfoque consistía en utilizar un diseño de control de casos para reducir el número de "0", y luego aplicar la corrección a la intercepción.

Sin embargo, esta publicación dice que el argumento de King y Zeng no era necesario si ya recopilaba mis datos sobre toda la población, que es mi caso. Por lo tanto, tengo que usar el modelo logit clásico. Desafortunadamente para mí, aunque obtengo buenos coeficientes significativos, mi modelo es completamente inútil en términos de predicción (no puede predecir el 99.48% de mis "1" s).

Después de leer el artículo de King & Zeng, quería probar un diseño de control de casos y seleccioné solo el 10% de los "0" con todos los "1". Con casi los mismos coeficientes, el modelo fue capaz de predecir casi un tercio de los "1" cuando se aplicó a toda la población. Por supuesto, hay muchos falsos positivos.

Por lo tanto, tengo tres preguntas que me gustaría hacerle:

1) Si el enfoque de King & Zeng es perjudicial cuando se tiene un conocimiento completo de la población, ¿por qué utilizan una situación en la que conocen a la población en su artículo para demostrar su punto?

2) Si tengo coeficientes buenos y significativos en una regresión logit, pero un poder predictivo muy pobre, ¿eso significa que la variación explicada por estas variables no tiene sentido?

3) ¿Cuál es el mejor enfoque para lidiar con eventos raros? Leí sobre el modelo de relogit de King, el enfoque de Firth, el logit exacto, etc. Debo confesar que estoy perdido entre todas estas soluciones.

Damien
fuente
El número suena familiar ... ¿por casualidad un conjunto de datos sobre conflicto étnico? Si es una serie de tiempo: utilicé un modelo de supervivencia con gran éxito en un estudio de conflicto étnico ...
Christian Sauer
Suficientemente cerca. Es un conjunto de datos sobre la ubicación de los eventos de conflicto en África. Sin embargo, estudio la ubicación de estos eventos sin tener en cuenta el tiempo.
Damien
1
Ah, muchos de mis casos provienen de África, ya que los conflictos étnicos son desenfrenados allí. ¿Da usted estudio geográfico? ¿Sería un gran problema dar cuenta del tiempo? Lo encontré realmente útil, especialmente debido al hecho de que ciertas variables están cambiando con el tiempo (sistema político, guerra fría, etc.)
Christian Sauer
Estoy usando el conjunto de datos GED de UCDP que cubre el período 1989-2010. Estoy interesado en los factores geográficos que pueden desempeñar un papel en la ubicación de los eventos de conflicto. Las variaciones de tiempo ciertamente tienen mucho que decir, pero las preguntas respondidas son diferentes. Además, muchas de mis variables independientes no están disponibles para diferentes períodos (cobertura del suelo) o no cambiaron en absoluto (topografía)
Damien
1
"(no puede predecir el 99.48% de mis" 1 "s". Esto suena como si estuviera utilizando alguna regla de corte arbitraria [por ejemplo, 0.5!] para clasificar, mientras que la idea de la regresión logística es que el resultado es una probabilidad: depende de usted decidir el umbral para equilibrar falsos positivos / negativos
seanv507

Respuestas:

17

(1) Si tiene "pleno conocimiento de una población", ¿por qué necesita un modelo para hacer predicciones? Sospecho que los estás considerando implícitamente como una muestra de una hipotética superpoblación: mira aquí y aquí . Entonces, ¿debería descartar las observaciones de su muestra? No. King y Zeng no defienden esto:

[...] en campos como las relaciones internacionales, el número de 1 observables (como las guerras) es estrictamente limitado, por lo que en la mayoría de las aplicaciones es mejor recolectar todos los 1 disponibles o una gran muestra de ellos. Entonces, la única decisión real es cuántos ceros hay que recolectar. Si recolectar 0 no tiene costo, deberíamos recolectar tantos como podamos, ya que más datos siempre son mejores.

La situación de la que creo que está hablando es el ejemplo "Selección de en datos de disputas interestatales militarizadas". K. y Z. utilícelo para demostrar su punto: en este ejemplo, si un investigador hubiera intentado economizar mediante la recopilación de todos los 1 y una proporción de los 0, sus estimaciones serían similares a las de una muestra de todos los 1 y 0 disponibles. ¿De qué otra manera ilustrarías eso?Y

(2) El problema principal aquí es el uso de una regla de puntuación incorrecta para evaluar el rendimiento predictivo de su modelo. Suponga que su modelo es verdadero , de modo que para cualquier individuo usted conozca la probabilidad de un evento raro, digamos que lo mordió una serpiente en el próximo mes. ¿Qué más aprende al estipular un corte de probabilidad arbitrario y predecir que los que están arriba serán mordidos y los que están debajo no? Si logra el límite del 50%, es probable que prediga que nadie será mordido. Si lo hace lo suficientemente bajo, puede predecir que todos serán mordidos. ¿Y qué? La aplicación sensata de un modelo requiere discriminación, ¿a quién se le debe dar el único frasco de anti-veneno? O calibración, ¿para quién vale la pena comprar botas, dado su costo en relación con el de una mordedura de serpiente?

Scortchi - Restablece a Monica
fuente
Gracias por tu respuesta. Con respecto a (1), ¿sería más apropiado hablar sobre una muestra de las observaciones que conocemos hasta ahora para dar cuenta de la posibilidad de eventos futuros? Con respecto a (2), pasé un momento tratando de descubrir qué es una regla de puntuación. Si entiendo correctamente el artículo de Wikipedia, debería variar la función de puntuación en diferentes valores de probabilidad para la cual se espera que ocurra el evento, luego elegir como valor de corte la probabilidad que tuvo la puntuación más alta. Si elijo la regla de puntuación logarítmica, ¿cómo se supone que implemente el valor esperado?
Damien
1
(1) Sí, imaginando que son muestreados de una población de la que se extraerán eventos futuros. (2) Olvídate de los puntos de corte. El área bajo la curva característica de funcionamiento del receptor es útil para evaluar la discriminación pura; Para el rendimiento general, utilice una métrica que tenga en cuenta la magnitud de la diferencia entre las predicciones y los resultados; por ejemplo, puntuaciones de Brier (cuadráticas) o (logarítmicas) de Nagelkerke . R2
Scortchi - Restablece a Monica
@Scortchi; entonces, ¿recomendaría usar o no la regresión logística para el número de observaciones / casos como en las operaciones (digamos con ~ 10 predictores continuos), si se requiere una probabilidad de un caso, lo que parece subestimado? gracias
user2957945
3

En un nivel, me pregunto cuánto de la inexactitud de su modelo es simplemente que su proceso es difícil de predecir, y sus variables no son suficientes para hacerlo. ¿Hay otras variables que podrían explicar más?

Por otro lado, si puede emitir su variable dependiente como un problema de conteo / ordinal (como víctimas del conflicto o duración del conflicto), puede intentar modelos de regresión de conteo o obstáculo inflados a cero. Estos pueden tener el mismo problema de mala definición entre 0 y 1, pero algunos conflictos con los que se correlacionan sus variables podrían alejarse de cero.

Gregmacfarlane
fuente
44
(+1) Buenas sugerencias. Sin embargo, me gustaría insistir en que la "inexactitud" del modelo es simplemente un fracaso para predecir muchas probabilidades superiores al 50%. Si los "1" suelen tener probabilidades pronosticadas del 10% al 40%, en comparación con un poco menos del 0,5% para los "0", eso se consideraría un fuerte rendimiento predictivo en muchas aplicaciones.
Scortchi - Restablece a Monica
2

Además de reducir el muestreo de la población mayoritaria, también puede sobremuestrear los eventos raros, pero tenga en cuenta que el muestreo excesivo de la clase minoritaria puede conducir a un sobreajuste, así que verifique las cosas con cuidado.

Este documento puede proporcionar más información al respecto: Yap, Bee Wah, et al. "Una aplicación de sobremuestreo, submuestreo, embolsado y refuerzo en el manejo de conjuntos de datos desequilibrados". pdf

Además, me gustaría vincular esta pregunta ya que también trata el mismo problema

Alexey Grigorev
fuente
0

Su pregunta se reduce a cómo puedo persuadir la regresión logit para encontrar una mejor solución. Pero, ¿estás seguro de que existe una mejor solución? Con solo diez parámetros, ¿pudo encontrar una solución mejor?

Intentaría un modelo más complicado, por ejemplo, agregando términos de producto en la entrada, o agregando una capa de máximo rendimiento en el lado del objetivo (de modo que esencialmente tenga múltiples regresores logísticos para varios subconjuntos descubiertos adaptativamente del objetivo 1).

Neil G
fuente
Gracias por tu respuesta. Definitivamente intentaré combinar mis variables de diferentes maneras. Pero antes, quiero saber si el bajo rendimiento de mi modelo proviene de problemas técnicos o de otro lugar
Damien
-1

Gran pregunta

En mi opinión, el problema es si estás tratando de hacer inferencia (¿estás interesado en lo que te dicen tus coeficientes?) O predicción. Si es lo último, entonces podría tomar prestados modelos de Machine Learning (BART, randomForest, árboles potenciados, etc.) que casi seguramente harán un mejor trabajo en la predicción que logit. Si está haciendo inferencia y tiene tantos puntos de datos, intente incluir términos de interacción sensibles, términos polinómicos, etc. Alternativamente, podría hacer inferencia de BART, como en este documento:

http://artsandsciences.sc.edu/people/kernh/publications/Green%20and%20Kern%20BART.pdf

Recientemente he estado trabajando en eventos raros y no tenía idea de antemano cuántos casos raros pueden afectar el análisis. El muestreo descendente de los casos 0 es imprescindible. Una estrategia para encontrar la proporción ideal de muestra descendente sería

  1. Tome todos sus 1s, digamos que tiene n1 de ellos.
  2. Establezca algún valor z = múltiplo del n1 que dibujará; quizás comience en 5 y reduzca a 1.
  3. dibujar z * n1 0 observaciones
  4. Estime su modelo en una muestra de datos de su subconjunto, asegurándose de validar en forma cruzada todo el conjunto de datos
  5. Guarde las medidas de ajuste relevantes que le interesan: coeficientes de interés, AUC de una curva ROC, valores relevantes en una matriz de confusión, etc.
  6. Repita los pasos 2: 5 para zs sucesivamente más pequeños. Probablemente encontrará que a medida que reduce la muestra, la relación de falso negativo a falso positivo (en su conjunto de prueba) disminuirá. Es decir, comenzará a predecir más 1s, es de esperar que sean genuinamente 1s, pero también muchos que en realidad son 0s. Si hay un punto de partida en esta clasificación errónea, entonces esa sería una buena relación de muestra descendente.

Espero que esto ayude. JS

Jim
fuente
1
(-1) No es necesario reducir la muestra para la regresión logística. Mira aquí ; seleccionar en la respuesta solo cambia la intersección esperada, por lo que el muestreo descendente solo reduce la precisión de las razones de probabilidad estimadas. La regresión logística le brinda probabilidades pronosticadas, que puede usar para clasificar usando los puntos de corte calculados para tener en cuenta los costos de los diferentes tipos de clasificación errónea, o para clasificar a las personas, o estar interesado en su propio derecho.
Scortchi - Restablece a Monica
Notarás que no mencioné el uso de la regresión logística y, en cambio, sugerí que hay métodos (como BART con muestras reducidas) que probablemente sean más apropiados para casos raros.
Jim
La pregunta es acerca de la regresión logística, y si se debe reducir la muestra al hacerlo, y parece que está discutiendo la regresión logística cuando escribe sobre "incluir términos de interacción sensibles, términos polinómicos"; por lo tanto, no está claro que sus consejos sobre muestreo descendente solo estén destinados a usarse con métodos alternativos: tal vez considere la posibilidad de editar su respuesta para que quede clara.
Scortchi - Restablece a Monica