La segunda pregunta es que encontré en una discusión en alguna parte de la web hablando sobre "agrupación supervisada", que yo sepa, la agrupación no está supervisada, entonces, ¿cuál es exactamente el significado de "agrupación supervisada"? ¿Cuál es la diferencia con respecto a la "clasificación"?
Hay muchos enlaces que hablan de eso:
http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf
http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf
http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf
http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf
http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf
http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf
http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf
etc ...
Respuestas:
Mi comprensión ingenua es que la clasificación se realiza cuando tiene un conjunto específico de clases y desea clasificar una nueva cosa / conjunto de datos en una de esas clases especificadas.
Alternativamente, el agrupamiento no tiene nada para comenzar y usted usa todos los datos (incluido el nuevo) para separarlos en grupos.
Ambos usan métricas de distancia para decidir cómo agrupar / clasificar. La diferencia es que la clasificación se basa en un conjunto de clases previamente definido, mientras que la agrupación decide los grupos en función de los datos completos.
Una vez más, mi ingenua comprensión es que la agrupación supervisada todavía se agrupa en función de los datos completos y, por lo tanto, sería una agrupación en lugar de una clasificación.
En realidad, estoy seguro de que la teoría detrás del agrupamiento y la clasificación están interrelacionadas.
fuente
No creo que sepa más que tú, pero los enlaces que publicaste sugieren respuestas. Tomaré http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf como ejemplo. Básicamente afirman: 1) la agrupación depende de la distancia. 2) el uso exitoso de k-means requiere una distancia cuidadosamente elegida. 3) Dados los datos de entrenamiento en forma de conjuntos de elementos con su partición deseada, proporcionamos un método SVM estructural que aprende una medida de distancia para que k-means produzca las agrupaciones deseadas.En este caso, hay una etapa supervisada para la agrupación, con datos de capacitación y aprendizaje. El propósito de esta etapa es aprender una función de distancia para que la aplicación de la agrupación de k-medias con esta distancia sea óptima, dependiendo de qué tan bien los datos de entrenamiento se parezcan al dominio de la aplicación. Todavía se aplican todas las advertencias habituales apropiadas para el aprendizaje automático y la agrupación.
Cita adicional del artículo: la agrupación supervisada es la tarea de adaptar automáticamente un algoritmo de agrupación con la ayuda de un conjunto de entrenamiento que consiste en conjuntos de elementos y particiones completas de estos conjuntos de elementos. . Esa parece una definición razonable.
fuente
Algunas definiciones: la
agrupación supervisada se aplica en ejemplos clasificados con el objetivo de identificar las agrupaciones que tienen alta densidad de probabilidad para una sola clase.
La agrupación no supervisada es un marco de aprendizaje que utiliza funciones de objeto específicas, por ejemplo, una función que minimiza las distancias dentro de una agrupación para mantenerla apretada.
La agrupación semi-supervisada consiste en mejorar un algoritmo de agrupación mediante el uso de información secundaria en el proceso de agrupación.
Avances en las redes neuronales - ISNN 2010
Sin utilizar demasiada jerga ya que soy un novato en esta área, la forma en que entiendo el agrupamiento supervisado es más o menos así:
en el agrupamiento supervisado se comienza desde arriba hacia abajocon algunas clases predefinidas y luego, utilizando un enfoque de abajo hacia arriba , encontrará qué objetos se ajustan mejor a sus clases.
Por ejemplo, realizó un estudio sobre el tipo favorito de naranjas en una población.
De los muchos tipos de naranjas descubriste que un 'tipo' particular de naranjas es el preferido.
Sin embargo, ese tipo de naranja es muy delicado y lábil a las infecciones, el cambio climático y otros agentes ambientales.
Por lo tanto, desea cruzarlo con otras especies que sean muy resistentes a esos insultos.
Luego, va al laboratorio y encuentra algunos genes que son responsables del sabor jugoso y dulce de un tipo, y de las capacidades resistentes del otro tipo.
Realizas varios experimentos y terminas con, digamos, cientos de subtipos diferentes de naranjas.
Ahora está interesado solo en esos subtipos que se ajustan perfectamente a las propiedades descritas.
No desea volver a realizar el mismo estudio en su población ...
Conoce las propiedades que está buscando en su naranja perfecta.
Entonces ejecuta su análisis de clúster y selecciona los que mejor se adapten a sus expectativas.
fuente