Me sorprende que no pueda encontrar ningún artículo / conferencia sobre cómo uno puede incorporar Distribuciones de probabilidad de clase previa en clasificadores como Regresión logística o Bosque aleatorio.
Entonces mi pregunta es:
¿Cómo se puede incorporar la distribución de probabilidad de clase previa en la regresión logística o los bosques aleatorios?
¿La incorporación de la distribución de probabilidad de la clase anterior implica que debo usar maquinaria bayesiana?
Me enfrento a una tarea de clasificación en la que sé que la clase a es mucho más probable que la clase b.
Una solución ad hoc sería incluir más muestras para la clase a en el conjunto de entrenamiento, pero ¿hay algún resultado teórico al respecto?
Una cosa en la que pensé fue cambiar el umbral de decisión de 0.5 a un valor teniendo en cuenta este desequilibrio previo. Pero ni siquiera estoy seguro de si eso tiene sentido teóricamente, porque en el momento en que estoy listo para tomar una decisión, ya miré todos los valores de las características, por lo que no debería importarme la probabilidad anterior sino la probabilidad condicional de la clase.
fuente