¿Cómo predecimos eventos raros?

11

Estoy trabajando en el desarrollo de un modelo predictivo de riesgo de seguro. Estos modelos son de "eventos raros" como predicción de ausencia de aerolínea, detección de fallas de hardware, etc. Mientras preparaba mi conjunto de datos, traté de aplicar la clasificación, pero no pude obtener clasificadores útiles debido a la alta proporción de casos negativos .

No tengo mucha experiencia en estadísticas y datos de modelado más allá de un curso de estadística de secundaria, así que estoy un poco confundido.

Como pensé por primera vez, he estado pensando en usar un modelo de proceso de Poisson no homogéneo. Lo clasifiqué en función de los datos del evento (fecha, lat, lon) para obtener una buena estimación de la posibilidad de un riesgo en un momento determinado en un día en particular en un lugar en particular.

Me gustaría saber, ¿cuáles son las metodologías / algoritmos para predecir eventos raros?
¿Qué recomienda como enfoque para abordar este problema?

usuario3378649
fuente

Respuestas:

9

El enfoque estándar es la " teoría del valor extremo ", hay un excelente libro sobre el tema de Stuart Coles (aunque el precio actual parece bastante, err ... extremo).

La razón por la que es poco probable que obtenga buenos resultados usando métodos de clasificación o regresión es que estos métodos generalmente dependen de la predicción de la media condicional de los datos, y los eventos extremos generalmente son causados ​​por la conjunción de factores "aleatorios" todos alineados en la misma dirección, entonces están en la cola de la distribución de resultados plausibles, que generalmente están muy lejos de la media condicional. Lo que puede hacer es predecir toda la distribución condicional, en lugar de solo su media, y obtener información sobre la probabilidad de un evento extremo integrando la cola de la distribución por encima de algún umbral. Encontré que esto funcionó bien en una aplicación sobre reducción de escala estadística de fuertes precipitaciones .

Dikran Marsupial
fuente
1
¿Hay alguna implementación de esta teoría en python?
user3378649
Lo siento, no programo en Python (todavía), así que no puedo ayudar allí.
Dikran Marsupial
yX1,...,Xnortey>Y0 0PAG(y>Y0 0El |X1,...,Xnorte)mi(yEl |X1,...,Xnorte)y>Y0 0PAG(y>Y0 0El |X1,...,Xnorte)
Sí, puede hacerlo, sin embargo, la función de costo que está minimizando no se enfoca en acertar en la distribución, por lo que si eso es lo que le interesa, es mejor intentar modelar los eventos en las colas más explícitamente. .
Dikran Marsupial