¿Existe una metodología existente para aplicar un modelo de aprendizaje supervisado a un conjunto de datos incierto? Por ejemplo, supongamos que tenemos un conjunto de datos con clases A y B:
+----------+----------+-------+-----------+
| FeatureA | FeatureB | Label | Certainty |
+----------+----------+-------+-----------+
| 2 | 3 | A | 50% |
| 3 | 1 | B | 80% |
| 1 | 1 | A | 100% |
+----------+----------+-------+-----------+
¿Cómo podríamos entrenar un modelo de aprendizaje automático en esto? Gracias.
En lugar de tener etiquetas A o B, puede reemplazarlas con valores continuos de certeza; por ejemplo, corresponde a algo que está seguro es , corresponde a algo que está seguro es y corresponde a algo que 're 40% seguro que es . Luego, tenga un modelo que, en lugar de predecir la clase o obtenga un puntaje entre y función de cuánto cree que es uno u otro (y limite este puntaje en función de si es> o <1/2). Esto convierte su problema de clasificación en un problema de regresión (que usted umbral para volver a un clasificador).A 0 B 0.6 A A B 0 11 A 0 B 0.6 A A B 0 1
Por ejemplo, podría ajustar un modelo lineal a como (donde es la certeza anterior). Luego, cuando desee probar algunos datos, conéctelos al modelo y etiqueta si y contrario. β0+β T 1 xp(A|x)Aβ0+β T 1 x>0Blogp(A|x)p(B|x)=logp(A|x)1−P(A|x) β0+βT1x p(A|x) A β0+βT1x>0 B
fuente