Estoy tratando de entender qué significa la suposición múltiple en el aprendizaje semi-supervisado. ¿Alguien puede explicar de una manera simple? No puedo tener la intuición detrás de esto.
Dice que sus datos se encuentran en una variedad de baja dimensión incrustada en un espacio de mayor dimensión. No entendí lo que eso significa.
Respuestas:
Imagine que tiene un montón de semillas aseguradas en una placa de vidrio, que descansa horizontalmente sobre una mesa. Debido a la forma en que normalmente pensamos sobre el espacio, sería seguro decir que estas semillas viven en un espacio bidimensional, más o menos, porque cada semilla puede identificarse por los dos números que dan las coordenadas de esa semilla en la superficie de el cristal.
Ahora imagine que toma la placa y la inclina diagonalmente hacia arriba, de modo que la superficie del vidrio ya no sea horizontal con respecto al suelo. Ahora, si desea ubicar una de las semillas, tiene un par de opciones. Si decide ignorar el vidrio, entonces cada semilla parecería estar flotando en el espacio tridimensional sobre la mesa, por lo que necesitaría describir la ubicación de cada semilla usando tres números, uno para cada dirección espacial. Pero con solo inclinar el vidrio, no ha cambiado el hecho de que las semillas aún viven en una superficie bidimensional. Entonces, podría describir cómo se encuentra la superficie del vidrio en el espacio tridimensional, y luego podría describir las ubicaciones de las semillas en el vidrio utilizando sus dos dimensiones originales.
En este experimento mental, la superficie de vidrio es similar a una variedad de baja dimensión que existe en un espacio de dimensión superior: no importa cómo se rota la placa en tres dimensiones, las semillas aún viven a lo largo de la superficie de un plano bidimensional.
Ejemplos
En términos más generales, una variedad de baja dimensión incrustada en un espacio de mayor dimensión es solo un conjunto de puntos que, por cualquier razón, se consideran conectados o son parte del mismo conjunto. En particular, el colector podría estar deformado de alguna manera en el espacio de dimensiones superiores (por ejemplo, tal vez la superficie del vidrio está deformada en forma de cuenco en lugar de forma de placa), pero el colector sigue siendo básicamente de baja dimensión. Especialmente en el espacio de alta dimensión, esta variedad podría tomar muchas formas y formas diferentes, pero debido a que vivimos en un mundo tridimensional, es difícil imaginar ejemplos que tengan más de tres dimensiones. Sin embargo, solo como muestra, considere estos ejemplos:
Los ejemplos comunes de variedades en el aprendizaje automático (o al menos conjuntos hipotéticos para vivir en variedades de baja dimensión) incluyen:
Aprendiendo lo múltiple
La suposición múltiple en el aprendizaje automático es que, en lugar de suponer que los datos en el mundo podrían provenir de cada parte del espacio posible (por ejemplo, el espacio de todas las imágenes posibles de 1 megapíxel, incluido el ruido blanco), tiene más sentido suponer que los datos de entrenamiento provienen de múltiples dimensiones relativamente bajas (como la placa de vidrio con las semillas). Entonces aprender la estructura de la variedad se convierte en una tarea importante; Además, esta tarea de aprendizaje parece posible sin el uso de datos de entrenamiento etiquetados.
Hay muchas, muchas formas diferentes de aprender la estructura de una variedad de baja dimensión. Uno de los enfoques más utilizados es el PCA, que supone que el colector consiste en una sola "gota" elipsoidal como una forma de panqueque o cigarro, incrustada en un espacio de dimensiones superiores. Técnicas más complicadas como isomap, ICA o codificación dispersa relajan algunos de estos supuestos de varias maneras.
Aprendizaje semi-supervisado
La razón por la cual el supuesto múltiple es importante en el aprendizaje semi-supervisado es doble. Para muchas tareas realistas (por ejemplo, determinar si los píxeles de una imagen muestran un 4 o un 5), hay muchos más datos disponibles en el mundo sin etiquetas (por ejemplo, imágenes que pueden tener dígitos) que con etiquetas (por ejemplo, imágenes que están explícitamente etiquetadas como "4" o "5"). Además, hay muchos órdenes de magnitud más información disponible en los píxeles de las imágenes que en las etiquetas de las imágenes que tienen etiquetas. Pero, como describí anteriormente, las imágenes naturales en realidad no se muestrean a partir de la distribución uniforme sobre las configuraciones de píxeles, por lo que parece probable que haya una variedad que capture la estructura de las imágenes naturales.colector, mientras que las imágenes que contienen 5 también se encuentran en un colector diferente pero cercano, entonces podemos tratar de desarrollar representaciones para cada uno de estos colectores usando solo los datos de píxeles, con la esperanza de que los diferentes colectores se representen usando diferentes características aprendidas de los datos. Luego, más tarde, cuando tengamos algunos bits de datos de etiquetas disponibles, podemos usar esos bits para simplemente aplicar etiquetas a los múltiples ya identificados.
La mayor parte de esta explicación proviene del trabajo en la literatura de aprendizaje profundo y característico. Yoshua Bengio y Yann LeCun - vea el Tutorial de Aprendizaje Basado en Energía tienen argumentos particularmente accesibles en esta área.
fuente
Primero, asegúrese de comprender qué es una incrustación. Es prestado de las matemáticas . En términos generales, es un mapeo de los datos en otro espacio (a menudo llamado espacio de incrustación o espacio de características ), conservando cierta estructura o propiedades de los datos. Tenga en cuenta que su dimensionalidad puede ser mayor o menor que el espacio de entrada. En la práctica, el mapeo es complejo y altamente no lineal. Algunos ejemplos:
Para ilustrar, tomaré un ejemplo de este artículo de Josh Tenenbaum:
Josh Tenenbaum luego analiza las dificultades de aprender tal mapeo desde la entrada hasta el espacio de características. Pero volvamos a la pregunta: estamos interesados en cómo se relacionan los espacios de entrada y función.
32*32 array of grey pixel values
es el espacio de entrada[x1=elevation, x2=azimuth]
espacio es el espacio de características (aunque simplista, puede considerarse como un espacio de inserción válido).Reexpresando la hipótesis múltiple (citando este gran artículo ):
Con este ejemplo, queda claro que la dimensionalidad del espacio de inclusión es mucho menor que el espacio de entrada: 2 frente a 1024. (Esta distinción se mantendrá incluso para las opciones de mayor dimensión, espacios de inclusión menos simplistas).
Para convencerse de que la incrustación forma una variedad, los invito a leer el resto del artículo en papel de Tenenbaum o el artículo de Colah .
Nota: esto es solo una ilustración de lo que significa la hipótesis múltiple, no un argumento de por qué sucede .
Relacionado: Explicación de vectores de palabras , papel de word2vec
fuente