¿Cuál es exactamente la diferencia entre el aprendizaje supervisado y el no supervisado?

28

Estoy tratando de entender los métodos de agrupamiento.

Lo que creo que entendí:

  1. En el aprendizaje supervisado, los datos de categorías / etiquetas a los que se les asigna se conocen antes del cálculo. Por lo tanto, las etiquetas, clases o categorías se están utilizando para "aprender" los parámetros que son realmente significativos para esos grupos.

  2. En el aprendizaje no supervisado, los conjuntos de datos se asignan a segmentos, sin que se conozcan los grupos.

¿Eso significa que, si ni siquiera sé qué parámetros son cruciales para una segmentación, prefiero el aprendizaje supervisado?

Prot
fuente
2
Tenga en cuenta que la agrupación no es el único tipo de aprendizaje no supervisado.
George
1
Se prefiere el aprendizaje supervisado cuando los datos de entrenamiento etiquetados están disponibles. Puede particionar sus datos utilizando métodos supervisados ​​o no supervisados. La principal diferencia es que en el entorno supervisado, conoce la segmentación CORRECTA para sus datos de entrenamiento.
Nick

Respuestas:

23

La diferencia es que en el aprendizaje supervisado se conocen las "categorías", "clases" o "etiquetas". En el aprendizaje no supervisado, no lo son, y el proceso de aprendizaje intenta encontrar "categorías" apropiadas. En ambos tipos de aprendizaje, se consideran todos los parámetros para determinar cuáles son los más apropiados para realizar la clasificación.

Si elige supervisado o no supervisado debe basarse en si sabe o no cuáles son las "categorías" de sus datos. Si lo sabe, use el aprendizaje supervisado. Si no lo sabe, use sin supervisión.

Como tiene una gran cantidad de parámetros y no sabe cuáles son relevantes, podría usar algo como el análisis de componentes principales para ayudar a determinar los relevantes.

Dave Clarke
fuente
13

Tenga en cuenta que hay más de 2 grados de supervisión. Por ejemplo, vea las páginas 24-25 (6-7) en la tesis doctoral de Christian Biemann, Procesamiento de lenguaje natural sin supervisión y sin conocimiento en el paradigma de estructura de descubrimiento, 2007.

La tesis identifica 4 grados: supervisado, semi-supervisado, débilmente supervisado y sin supervisión, y explica las diferencias, en un contexto de procesamiento del lenguaje natural. Aquí están las definiciones relevantes:

  • En los sistemas supervisados , los datos presentados a un algoritmo de aprendizaje automático están completamente etiquetados. Eso significa: todos los ejemplos se presentan con una clasificación que la máquina debe reproducir. Para esto, se aprende un clasificador de los datos, el proceso de asignación de etiquetas a instancias aún no vistas se llama clasificación.
  • En sistemas semi-supervisados , la máquina también puede tener en cuenta datos no etiquetados. Debido a una mayor base de datos, los sistemas semi-supervisados ​​a menudo superan a sus contrapartes supervisadas utilizando los mismos ejemplos etiquetados. La razón de esta mejora es que una mayor cantidad de datos no etiquetados permite al sistema modelar la estructura inherente de los datos con mayor precisión.
  • Bootstrapping, también llamado auto-entrenamiento, es una forma de aprendizaje que está diseñada para usar incluso menos ejemplos de entrenamiento, por lo tanto, a veces se llama débilmente supervisada . Bootstrapping comienza con algunos ejemplos de entrenamiento, entrena a un clasificador y usa ejemplos positivos como los que ofrece este clasificador para el reentrenamiento. A medida que crece el conjunto de ejemplos de capacitación, el clasificador mejora, siempre que no demasiados ejemplos negativos se clasifiquen erróneamente como positivos, lo que podría conducir al deterioro del rendimiento.
  • Los sistemas no supervisados no reciben ningún ejemplo de capacitación y agrupan conductas. Esta es la división de instancias de datos en varios grupos. Los resultados de los algoritmos de agrupación se basan en datos, por lo tanto, son más "naturales" y se adaptan mejor a la estructura subyacente de los datos. Esta ventaja también es su principal inconveniente: sin la posibilidad de decirle a la máquina qué hacer (como en la clasificación), es difícil juzgar la calidad de los resultados de la agrupación de manera concluyente. Pero la ausencia de preparación de ejemplos de entrenamiento hace que el paradigma no supervisado sea muy atractivo.
Erel Segal-Halevi
fuente
0

En el aprendizaje supervisado, las clases se conocen de antemano y también sus tipos, por ejemplo, dos clases de clientes buenos y malos. Cuando un nuevo objeto (cliente) se basa en sus atributos, el cliente puede asignarse a una clase de cliente mala o buena.

En el aprendizaje no supervisado, los grupos / clases aún no se conocen, tenemos objetos (clientes), por lo tanto, agrupe a los clientes que tienen hábitos de compra similares, por lo tanto, se forman diferentes grupos de los clientes, es decir, no se conocen sobre la base de hábitos de compra similares.

Saad Ullah Khan
fuente
0

En el aprendizaje supervisado, la salida (variable dependiente) depende de la variable de entrada (variable independiente). En algún conjunto de supervisiones dadas, el respondedor intenta calcular el objetivo deseado.

En el aprendizaje no supervisado no hay supervisión, por lo que el sistema trata de adaptarse a la situación y aprende manualmente de acuerdo con alguna medida.

Por ejemplo: maestro en una clase -supervisión -aprendizaje supervisado Un curso electivo de autoaprendizaje en clase-Sin supervisión Aprendizaje no supervisado

Cibe Sridharan
fuente