¿Qué es la verdad fundamental?

30

En el contexto de Machine Learning , he visto que el término Ground Truth se usaba mucho. He buscado mucho y encontré la siguiente definición en Wikipedia :

En el aprendizaje automático, el término "verdad fundamental" se refiere a la precisión de la clasificación del conjunto de entrenamiento para las técnicas de aprendizaje supervisado. Esto se usa en modelos estadísticos para probar o refutar hipótesis de investigación. El término "verificación de terreno" se refiere al proceso de recopilación de los datos objetivos (comprobables) adecuados para esta prueba. Comparar con el estándar de oro.

El filtrado de spam bayesiano es un ejemplo común de aprendizaje supervisado. En este sistema, el algoritmo enseña manualmente las diferencias entre spam y no spam. Esto depende de la verdad básica de los mensajes utilizados para entrenar el algoritmo: las inexactitudes en la verdad básica se correlacionarán con las inexactitudes en los veredictos resultantes de spam / no spam.

El punto es que realmente no puedo entender lo que significa. ¿Es esa la etiqueta utilizada para cada objeto de datos o la función de destino que le da una etiqueta a cada objeto de datos , o tal vez algo más?

Medios de comunicación
fuente

Respuestas:

25

La verdad básica es lo que midió para su variable objetivo para los ejemplos de entrenamiento y prueba.

Casi todo el tiempo puedes tratar esto de la misma manera que la etiqueta.

En algunos casos, no es exactamente lo mismo que la etiqueta. Por ejemplo, si aumenta su conjunto de datos, existe una sutil diferencia entre la verdad básica (sus mediciones reales) y cómo los ejemplos aumentados se relacionan con las etiquetas que ha asignado. Sin embargo, esta distinción no suele ser un problema.

La verdad fundamental puede estar equivocada. Es una medida, y puede haber errores en ella. En algunos escenarios de LA también puede ser una medición subjetiva donde es difícil definir una verdad objetiva subyacente, por ejemplo, opinión o análisis de expertos, que espera automatizar. Cualquier modelo de ML que entrenes estará limitado por la calidad de la verdad básica utilizada para entrenarlo y probarlo, y eso es parte de la explicación en la cita de Wikipedia. También es la razón por la cual los artículos publicados sobre ML deberían incluir descripciones completas de cómo se recopilaron los datos.

Neil Slater
fuente
Durante el entrenamiento, ¿se puede modificar o crear gt (p. Ej., En problemas de segmentación) dada la información obtenida (p. Ej. De los mapas de puntaje) de las características?
Alex
@Alex: generalmente no. Puede haber algunas circunstancias en las que una salida revisada o un proceso semiautomático produzca la verdad fundamental para el siguiente algoritmo en una tubería. Sin embargo, si te refieres a un algoritmo que revisa sus propios objetivos a través de alguna regla, entonces eso generalmente no se considera una nueva verdad básica; en cambio, la verdad básica serían las segmentaciones originales proporcionadas para el entrenamiento. En su lugar, cualquier refinamiento automatizado inteligente sería parte del modelo.
Neil Slater
Un refinamiento con la interacción humana, o los datos originales que no se refieren a la imagen (por ejemplo, algunas imágenes fuente se generan usando el modelo 3D, por lo que pueden crear una segmentación "verdadera" mucho mejor) podría ser una nueva verdad fundamental. Aunque quizás desee separar la idea de la verdad básica de la generación 1 utilizada para construir el primer modelo de la verdad básica de la generación 2 que ha pasado por una iteración, y utilizada para construir un segundo modelo, incluso si el segundo modelo es la misma arquitectura solo capacitado en retroalimentación.
Neil Slater
'capacitado en retroalimentación': cercano, pero no exactamente. Si ha visto el modelo FCN, la última capa es el mapa de puntuación que se conecta en la función de pérdida de log softmax junto con el mapa gt. Lo que hago es tomar el mapa de puntuación, extraer algunos datos de él (por ejemplo, número de blobs binarios argmax) y (de alguna manera) modificar la máscara gt antes de conectarla en la función de pérdida. ¿Cuán legítimo es esto?
Alex
@Alex: Eso es parte de su modelo, y no una nueva verdad básica. A menos que decida, arbitrariamente, que el objetivo de un nuevo modelo es aprender su función combinada. En cuyo caso, es la verdad fundamental para el nuevo modelo; sin embargo, definitivamente debe tener en cuenta la fuente compleja de estos datos, ya que se ha modificado a partir de la medición original de forma automatizada.
Neil Slater
2

Verdad fundamental: esa es la realidad que desea que su modelo prediga.

Puede tener algo de ruido, pero desea que su modelo aprenda el patrón subyacente en los datos que están causando esta verdad fundamental. Prácticamente, su modelo nunca podrá predecir la verdad sobre el terreno, ya que la verdad sobre el terreno también tendrá algo de ruido y ningún modelo ofrece una precisión del cien por ciento, pero desea que su modelo esté lo más cerca posible.

Vivek Khetan
fuente