¿Cómo elegir el ancho óptimo del contenedor mientras se calibran los modelos de probabilidad?

12

Antecedentes: Aquí hay algunas preguntas / respuestas excelentes sobre cómo calibrar modelos que predicen las probabilidades de que ocurra un resultado. Por ejemplo

  1. Puntuación de Brier , y su descomposición en resolución, incertidumbre y fiabilidad .
  2. Gráficos de calibración y regresión isotónica .

Estos métodos a menudo requieren el uso de un método de agrupamiento en las probabilidades pronosticadas, de modo que el comportamiento del resultado (0, 1) se suaviza sobre el bin al tomar el resultado medio.

Problema: Sin embargo, no puedo encontrar nada que me indique cómo elegir el ancho del contenedor.

Pregunta: ¿Cómo elijo el ancho óptimo del contenedor?

Intento: dos anchos de compartimiento comunes en uso parecen ser:

  1. Binning de ancho igual, por ejemplo, 10 bins cada uno cubriendo el 10% del intervalo [0, 1].
  2. Método de binning de Tukey discutido aquí .

¿Pero estas elecciones de los contenedores son las más óptimas si uno estuviera interesado en encontrar intervalos en las probabilidades predichas que están más mal calibradas?

Alex
fuente
1
Si el resultado "1" es raro, vale la pena considerar dividirlo en contenedores con igual número de "1" en lugar de igual número de muestras. Esto puede ayudar a mantener la discriminación (AUC) del modelo después de la calibración
ihadanny

Respuestas:

4

Cualquier método estadístico que utiliza binning se ha considerado en última instancia obsoleto. La estimación continua de la curva de calibración ha sido común desde mediados de la década de 1990. Los métodos más utilizados son loess (con la detección de valores atípicos desactivada), la calibración logística lineal y la calibración logística spline. Entro en detalle en mi libro de Estrategias de modelado de regresión y en las notas del curso. Ver http://www.fharrell.com/p/blog-page.html . El rmspaquete R facilita la obtención de curvas suaves de calibración no paramétrica, ya sea usando una muestra externa independiente o usando el bootstrap en la muestra de desarrollo del modelo original.

Frank Harrell
fuente
0

En mi experiencia, el binning es bueno para visualizar distribuciones de probabilidad, pero generalmente es una mala idea, si se quiere usar if para pruebas estadísticas y / o inferencia de parámetros. Principalmente porque uno limita inmediatamente la precisión por el ancho del contenedor. Otro problema común es cuando la variable no está ligada, es decir, uno tiene que introducir límites bajos y altos.

Trabajar con distribuciones acumulativas en el espíritu de Kolmogorov-Smirnov evita muchos de estos problemas. También hay muchos buenos métodos estadísticos disponibles en este caso. (ver, por ejemplo, https://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test )

Vadim
fuente