Supervisión distante: supervisada, semi-supervisada, o ambas?

20

La "supervisión distante" es un esquema de aprendizaje en el que se aprende un clasificador dado un conjunto de entrenamiento débilmente etiquetado (los datos de entrenamiento se etiquetan automáticamente según la heurística / reglas). Creo que tanto el aprendizaje supervisado como el aprendizaje semi-supervisado pueden incluir tal "supervisión distante" si sus datos etiquetados se etiquetan de forma heurística / automática. Sin embargo, en esta página , "supervisión a distancia" se define como "aprendizaje semi-supervisado" (es decir, limitado a "semi-supervisión").

Entonces mi pregunta es, ¿la "supervisión distante" se refiere exclusivamente a la semi-supervisión? En mi opinión, se puede aplicar tanto al aprendizaje supervisado como al semi-supervisado. Proporcione referencias confiables si las hay.

AM2
fuente

Respuestas:

22

Un algoritmo de supervisión distante generalmente tiene los siguientes pasos:
1] Puede tener algunos datos de entrenamiento etiquetados
2] "tiene" acceso a un conjunto de datos no etiquetados
3] Tiene un operador que le permite tomar muestras de estos datos no etiquetados y etiquetarlos y se espera que este operador sea ruidoso en sus etiquetas
4] El algoritmo utiliza colectivamente los datos de entrenamiento etiquetados originales si los hubiera y estos nuevos datos ruidosamente etiquetados para dar el resultado final.

Ahora, para responder a su pregunta, tanto usted como el sitio están en lo correcto. Estás viendo el cuarto paso del algoritmo y notas que en el cuarto paso puedes usar cualquier algoritmo al que el usuario tenga acceso. De ahí su punto, "se puede aplicar tanto al aprendizaje supervisado como al semi-supervisado" .

Mientras que el sitio está mirando todos los pasos 1-4 colectivamente y se da cuenta de que los datos etiquetados ruidosamente se obtienen de un conjunto de datos no etiquetados (con o sin el uso de algunos datos de capacitación etiquetados preexistentes) y este proceso de obtención de etiquetas ruidosas es un componente esencial para cualquier algoritmo de supervisión distante, por lo tanto, es un algoritmo semi-supervisado.

TenaliRaman
fuente