Incorporación de la distribución de probabilidad de clase previa en la regresión logística

9

Me sorprende que no pueda encontrar ningún artículo / conferencia sobre cómo uno puede incorporar Distribuciones de probabilidad de clase previa en clasificadores como Regresión logística o Bosque aleatorio.


Entonces mi pregunta es:

¿Cómo se puede incorporar la distribución de probabilidad de clase previa en la regresión logística o los bosques aleatorios?

¿La incorporación de la distribución de probabilidad de la clase anterior implica que debo usar maquinaria bayesiana?


Me enfrento a una tarea de clasificación en la que sé que la clase a es mucho más probable que la clase b.

Una solución ad hoc sería incluir más muestras para la clase a en el conjunto de entrenamiento, pero ¿hay algún resultado teórico al respecto?

Una cosa en la que pensé fue cambiar el umbral de decisión de 0.5 a un valor teniendo en cuenta este desequilibrio previo. Pero ni siquiera estoy seguro de si eso tiene sentido teóricamente, porque en el momento en que estoy listo para tomar una decisión, ya miré todos los valores de las características, por lo que no debería importarme la probabilidad anterior sino la probabilidad condicional de la clase.

usuario695652
fuente

Respuestas:

5

Dejar Y ser la variable de respuesta binaria y X el vector de predictores con densidad F(que sería continuo, discreto o una combinación de ambos). Tenga en cuenta que

PAGS(Y=1X=X)PAGS(Y=0 0X=X)=PAGS(Y=1)FXY=1(X)PAGS(Y=0 0)FXY=0 0(X)

y entonces

Iniciar sesión(PAGS(Y=1X=X)PAGS(Y=0 0X=X))=Iniciar sesión(PAGS(Y=1)PAGS(Y=0 0))+Iniciar sesión(FXY=1(X)FXY=0 0(X)).

Esto significa que, bajo un modelo de regresión logística, el logaritmo de las probabilidades anteriores del evento {Y=1}aparece como una constante aditiva en las probabilidades de registro condicionales. Lo que podría considerar entonces es un ajuste de intercepción en el que reste el logit de las probabilidades empíricas y agregue el logit de las probabilidades anteriores. Pero, suponiendo que la probabilidad previa sea precisa, esto no espera tener un gran efecto en el modelo. Este tipo de ajuste se realiza principalmente después de un procedimiento de muestreo que altera artificialmente la proporción de eventos en los datos.

dsaxton
fuente
3

Para bosque aleatorio, el valor predeterminado anterior es la distribución de clase empírica del conjunto de entrenamiento. Desea ajustar esto antes, cuando espera que la distribución de la clase del conjunto de entrenamiento esté lejos de coincidir con las nuevas observaciones de prueba. El previo se puede ajustar por estratificación / disminución de resolución o pesos de clase.

Stratifictaion / downsampling no significa que algunas observaciones se descartan, sino que se incluirán en menos nodos raíz.

Además de ajustar lo anterior, también es posible obtener predicciones probabilísticas del modelo de bosque aleatorio y elegir un umbral de certeza.

En la práctica, encuentro una combinación de ajustes previos por estratificación y elegir el mejor umbral como la mejor solución de rendimiento. Use las gráficas ROC para decidir los umbrales. El ajuste de class_weights probablemente proporcionará un rendimiento similar, pero es menos transparente, en lo que se convierte el anterior efectivo. Para la estratificación, la relación de estratificación es simplemente el nuevo prior.

Vea también esta respuesta para más detalles.

Soren Havelund Welling
fuente