¿Existe una metodología existente para aplicar un modelo de aprendizaje supervisado a un conjunto de datos incierto? Por ejemplo, supongamos que tenemos un conjunto de datos con clases A y B:
+----------+----------+-------+-----------+
| FeatureA | FeatureB | Label | Certainty |
+----------+----------+-------+-----------+
|        2 |        3 | A     | 50%       |
|        3 |        1 | B     | 80%       |
|        1 |        1 | A     | 100%      |
+----------+----------+-------+-----------+
¿Cómo podríamos entrenar un modelo de aprendizaje automático en esto? Gracias.

En lugar de tener etiquetas A o B, puede reemplazarlas con valores continuos de certeza; por ejemplo, corresponde a algo que está seguro es , corresponde a algo que está seguro es y corresponde a algo que 're 40% seguro que es . Luego, tenga un modelo que, en lugar de predecir la clase o obtenga un puntaje entre y función de cuánto cree que es uno u otro (y limite este puntaje en función de si es> o <1/2). Esto convierte su problema de clasificación en un problema de regresión (que usted umbral para volver a un clasificador).A 0 B 0.6 A A B 0 11 A 0 B 0.6 A A B 0 1 
Por ejemplo, podría ajustar un modelo lineal a como (donde es la certeza anterior). Luego, cuando desee probar algunos datos, conéctelos al modelo y etiqueta si y contrario. β0+β T 1 xp(A|x)Aβ0+β T 1 x>0Blogp(A|x)p(B|x)=logp(A|x)1−P(A|x) β0+βT1x p(A|x) A β0+βT1x>0 B 
fuente