He estado buscando métodos de aprendizaje semi-supervisados y he encontrado el concepto de "pseudo-etiquetado".
Según tengo entendido, con pseudo-etiquetado tiene un conjunto de datos etiquetados, así como un conjunto de datos sin etiquetar. Primero entrena un modelo solo con los datos etiquetados. Luego usa esos datos iniciales para clasificar (adjuntar etiquetas provisionales) los datos sin etiquetar. Luego, ingresa los datos etiquetados y no etiquetados nuevamente en su entrenamiento modelo, (re) ajustando tanto a las etiquetas conocidas como a las etiquetas predichas. (Itere este proceso y vuelva a etiquetar con el modelo actualizado).
Los beneficios reclamados son que puede usar la información sobre la estructura de los datos sin etiquetar para mejorar el modelo. A menudo se muestra una variación de la siguiente figura, "demostrando" que el proceso puede tomar un límite de decisión más complejo en función de dónde se encuentran los datos (sin etiquetar).
Imagen de Wikimedia Commons por Techerin CC BY-SA 3.0
Sin embargo, no estoy comprando esa explicación simplista. Ingenuamente, si el resultado original del entrenamiento etiquetado solo fuera el límite superior de decisión, las pseudo-etiquetas se asignarían en función de ese límite de decisión. Es decir que la mano izquierda de la curva superior estaría pseudo-etiquetada en blanco y la mano derecha de la curva inferior estaría pseudo-etiquetada en negro. No obtendría el límite de decisión curvo agradable después del reentrenamiento, ya que las nuevas pseudo-etiquetas simplemente reforzarían el límite de decisión actual.
O para decirlo de otra manera, el límite de decisión actual solo etiquetado tendría una precisión de predicción perfecta para los datos no etiquetados (ya que eso es lo que solíamos hacer). No hay una fuerza impulsora (sin gradiente) que nos haga cambiar la ubicación de ese límite de decisión simplemente agregando los datos pseudo etiquetados.
¿Estoy en lo cierto al pensar que falta la explicación que representa el diagrama? ¿O hay algo que me falta? Si no, ¿cuál es el beneficio de las pseudo-etiquetas, dado que el límite de decisión previo al reentrenamiento tiene una precisión perfecta sobre las pseudo-etiquetas?
Advertencia, no soy un experto en este procedimiento. Mi incapacidad para producir buenos resultados no es prueba de que la técnica no pueda funcionar. Además, su imagen tiene la descripción general del aprendizaje "semi-supervisado", que es un área amplia con una variedad de técnicas.
Estoy de acuerdo con su intuición, no veo cómo una técnica como esta podría funcionar de forma inmediata. En otras palabras, creo que necesitaría mucho esfuerzo para que funcione bien para una aplicación específica, y ese esfuerzo no necesariamente sería útil en otras aplicaciones.
Probé dos instancias diferentes, una con un conjunto de datos en forma de banana como el de la imagen de ejemplo, y otra con un conjunto de datos más fácil con dos clústeres distribuidos normales simples. En ambos casos no pude mejorar el clasificador inicial.
Como un pequeño intento de alentar las cosas, agregué ruido a todas las probabilidades predichas con la esperanza de que esto causaría mejores resultados.
El primer ejemplo recreé la imagen de arriba tan fielmente como pude. No creo que el etiquetado de psuedo pueda ayudar en absoluto aquí.
El segundo ejemplo es mucho más fácil, pero incluso aquí no mejora en el clasificador inicial. Elegí específicamente el punto etiquetado desde el centro de la clase izquierda, y el lado derecho de la clase derecha con la esperanza de que cambiara en la dirección correcta, no hubo suerte.
Código para el ejemplo 1 (el ejemplo 2 es lo suficientemente similar como para no duplicarlo aquí):
fuente
Aquí está mi suposición (tampoco sé mucho sobre este tema, solo quería agregar mis dos centavos a esta discusión).
Creo que tiene razón, no tiene sentido entrenar un modelo clásico y usar sus predicciones como datos, porque como usted dice, no hay ningún incentivo para que el optimizador lo haga mejor. Supongo que es más probable que los algoritmos de inicio aleatorio encuentren el mismo óptimo porque estarían "más seguros" de que el óptimo encontrado previamente es correcto, debido al mayor conjunto de datos, pero esto es irrelevante.
Dicho esto, la primera respuesta que recibió tiene un punto: ese ejemplo en Wikipedia habla sobre la agrupación, y creo que eso hace toda la diferencia. Cuando tiene datos sin etiquetar, esencialmente tiene un montón de puntos sin etiquetar que se encuentran en algún "espacio de características latentes" compartido como los otros etiquetados. Solo puede hacerlo mejor que un algoritmo de clasificación entrenado en los datos etiquetados, si puede descubrir el hecho de que los puntos no etiquetados pueden separarse y luego clasificarse según la clase a la que pertenecen los puntos etiquetados, en este espacio de características latentes.
Lo que quiero decir es que debes hacer esto:
... y luego repita con datos no etiquetados. Aquí, los límites de clúster aprendidos no serán los mismos, porque el clúster no se preocupa por las etiquetas de clase, todo lo que explica es transformar el espacio de características. La agrupación genera un espacio de características latentes, en el que se aprende el límite de clasificación, y esto depende solo de los datos etiquetados.
Los algoritmos que no realizan ningún tipo de agrupación, creo, no podrán cambiar su óptimo en función del conjunto de datos no etiquetados.
Por cierto, la imagen que vinculaste hace un trabajo justo, creo que explica lo que está sucediendo aquí; Se aprende un límite de decisión basado únicamente en el algoritmo de agrupamiento. No tienes idea de cuáles son las clases correctas , puede ser que todas sean aleatorias, no lo sabemos. Todo lo que podemos hacer ahora es que parece haber cierta estructura en el espacio de características, y parece haber cierta asignación del espacio de características a las etiquetas de clase.
Realmente no tengo referencias, pero en esta publicación de Reddit , según tengo entendido, hay una discusión sobre un GAN que realiza un aprendizaje semi-supervisado. Es una corazonada mía que implícitamente realiza una agrupación, seguida de una clasificación.
fuente