¿Agrupación o clasificación supervisada?

22

La segunda pregunta es que encontré en una discusión en alguna parte de la web hablando sobre "agrupación supervisada", que yo sepa, la agrupación no está supervisada, entonces, ¿cuál es exactamente el significado de "agrupación supervisada"? ¿Cuál es la diferencia con respecto a la "clasificación"?

Hay muchos enlaces que hablan de eso:

http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf

http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf

http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf

http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf

http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf

http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf

http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf

etc ...

shn
fuente
por favor dar enlace de "discusión en algún lugar de la web"
Atilla Ozgur
1
"Agrupación" es sinónimo de "clasificación no supervisada", por lo tanto, "agrupación supervisada" es un oxímoron. Sin embargo, se podría argumentar que los Mapas autoorganizados son una técnica supervisada utilizada para la clasificación no supervisada, que sería lo más parecido al "agrupamiento supervisado".
Digio
Hasta donde he entendido todavía es "Usamos el agrupamiento para organizar los datos para que estén listos para su posterior procesamiento o al menos para que estén listos para su posterior análisis", por lo que lo que hacemos en el agrupamiento es dividir los datos en Clase A, B, C y así sucesivamente ... Así que ahora estos datos se supervisan de alguna manera. Ahora depende del requisito qué desea hacer con estos datos o de qué manera pueden serle útiles estos datos, ya sea para operaciones de clasificación o de regresión. Corrígeme si estoy equivocado.
Sak

Respuestas:

2

Mi comprensión ingenua es que la clasificación se realiza cuando tiene un conjunto específico de clases y desea clasificar una nueva cosa / conjunto de datos en una de esas clases especificadas.

Alternativamente, el agrupamiento no tiene nada para comenzar y usted usa todos los datos (incluido el nuevo) para separarlos en grupos.

Ambos usan métricas de distancia para decidir cómo agrupar / clasificar. La diferencia es que la clasificación se basa en un conjunto de clases previamente definido, mientras que la agrupación decide los grupos en función de los datos completos.

Una vez más, mi ingenua comprensión es que la agrupación supervisada todavía se agrupa en función de los datos completos y, por lo tanto, sería una agrupación en lugar de una clasificación.

En realidad, estoy seguro de que la teoría detrás del agrupamiento y la clasificación están interrelacionadas.

adunaico
fuente
Estoy humildemente en desacuerdo. Está sugiriendo que la "clasificación" es por definición y por defecto un proceso supervisado, lo cual no es cierto. La clasificación se divide en casos supervisados ​​y no supervisados, siendo este último sinónimo de agrupamiento.
Digio
15

No creo que sepa más que tú, pero los enlaces que publicaste sugieren respuestas. Tomaré http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf como ejemplo. Básicamente afirman: 1) la agrupación depende de la distancia. 2) el uso exitoso de k-means requiere una distancia cuidadosamente elegida. 3) Dados los datos de entrenamiento en forma de conjuntos de elementos con su partición deseada, proporcionamos un método SVM estructural que aprende una medida de distancia para que k-means produzca las agrupaciones deseadas.En este caso, hay una etapa supervisada para la agrupación, con datos de capacitación y aprendizaje. El propósito de esta etapa es aprender una función de distancia para que la aplicación de la agrupación de k-medias con esta distancia sea óptima, dependiendo de qué tan bien los datos de entrenamiento se parezcan al dominio de la aplicación. Todavía se aplican todas las advertencias habituales apropiadas para el aprendizaje automático y la agrupación.

Cita adicional del artículo: la agrupación supervisada es la tarea de adaptar automáticamente un algoritmo de agrupación con la ayuda de un conjunto de entrenamiento que consiste en conjuntos de elementos y particiones completas de estos conjuntos de elementos. . Esa parece una definición razonable.

micanos
fuente
El problema es simplemente: ¿por qué quieres aprender una medida de distancia de un conjunto de datos de entrenamiento etiquetados y luego aplicar esta medida de distancia con un método de agrupamiento? por qué no solo usarías un método supervisado. En otras palabras, desea agrupar (es decir, dividir su conjunto de datos en grupos), pero asume que ya tiene la división completa deseada y que la usará para aprender una medida de distancia, luego aplique la agrupación en este conjunto de datos utilizando este aprendizaje distancia. ¡En el mejor de los casos, obtendrá las mismas particiones que utilizó para aprender la medida de distancia! Ya tienes
shn
Donde escriba "luego aplique la agrupación en este datase" sustituto "y luego aplique la agrupación en conjuntos de datos similares". Es este escenario: en el experimento X tenemos los datos A y B. A es para la agrupación, B ayuda a aprender la distancia. B establece un estándar de oro y es presumiblemente costoso de obtener. En experimentos posteriores X2, X3 ... obtenemos A pero no podemos permitirnos obtener B.
micans
Ok, ahora cuando dices "aprender una distancia" de un conjunto de datos B: ¿te refieres a "aprender algún valor de umbral de distancia" o "aprender una función métrica de distancia" (una especie de medida de disparidad parametrizada)?
shn
1
Me refiero a la segunda, "aprender una función métrica a distancia". Después de leer más, por cierto, mi simple formulación A y B anterior se puede encontrar en el manuscrito citado: "Dados ejemplos de capacitación de conjuntos de elementos con sus agrupamientos correctos, el objetivo es aprender una medida de similitud para que los conjuntos de elementos futuros se agrupen de una forma similar."
micans el
1
Bueno, parece que el "agrupamiento supervisado" es muy similar a lo que se denomina "agrupamiento semi-supervisado". Hasta ahora, realmente no veo ninguna diferencia. Por cierto, en algunos otros documentos, el "agrupamiento (semi) supervisado" no se refiere a "crear una función de distancia modificada" para usar para agrupar futuros conjuntos de datos de manera similar; ¡se trata más bien de "modificar el algoritmo de agrupamiento en sí mismo" sin cambiar la función de distancia!
shn
3

Algunas definiciones: la

agrupación supervisada se aplica en ejemplos clasificados con el objetivo de identificar las agrupaciones que tienen alta densidad de probabilidad para una sola clase.

La agrupación no supervisada es un marco de aprendizaje que utiliza funciones de objeto específicas, por ejemplo, una función que minimiza las distancias dentro de una agrupación para mantenerla apretada.

La agrupación semi-supervisada consiste en mejorar un algoritmo de agrupación mediante el uso de información secundaria en el proceso de agrupación.

Avances en las redes neuronales - ISNN 2010

Sin utilizar demasiada jerga ya que soy un novato en esta área, la forma en que entiendo el agrupamiento supervisado es más o menos así:

en el agrupamiento supervisado se comienza desde arriba hacia abajocon algunas clases predefinidas y luego, utilizando un enfoque de abajo hacia arriba , encontrará qué objetos se ajustan mejor a sus clases.

Por ejemplo, realizó un estudio sobre el tipo favorito de naranjas en una población.
De los muchos tipos de naranjas descubriste que un 'tipo' particular de naranjas es el preferido.
Sin embargo, ese tipo de naranja es muy delicado y lábil a las infecciones, el cambio climático y otros agentes ambientales.
Por lo tanto, desea cruzarlo con otras especies que sean muy resistentes a esos insultos.
Luego, va al laboratorio y encuentra algunos genes que son responsables del sabor jugoso y dulce de un tipo, y de las capacidades resistentes del otro tipo.
Realizas varios experimentos y terminas con, digamos, cientos de subtipos diferentes de naranjas.
Ahora está interesado solo en esos subtipos que se ajustan perfectamente a las propiedades descritas.
No desea volver a realizar el mismo estudio en su población ...
Conoce las propiedades que está buscando en su naranja perfecta.
Entonces ejecuta su análisis de clúster y selecciona los que mejor se adapten a sus expectativas.

Diego
fuente