Agrupaciones que pueden ser causadas por K-means

8

Recibí la siguiente pregunta como pregunta de prueba para mi examen y simplemente no puedo entender la respuesta.

A continuación se muestra un diagrama de dispersión de los datos proyectados en los dos primeros componentes principales. Deseamos examinar si existe alguna estructura de grupo en el conjunto de datos. Para hacer esto, hemos ejecutado el algoritmo k-means con k = 2 usando la medida de distancia euclidiana. El resultado del algoritmo k-means puede variar entre ejecuciones dependiendo de las condiciones iniciales aleatorias. Ejecutamos el algoritmo varias veces y obtuvimos algunos resultados de agrupación diferentes.

Solo se pueden obtener tres de las cuatro agrupaciones mostradas ejecutando el algoritmo k-means en los datos. ¿Cuál no se puede obtener por medio k? (no hay nada especial sobre los datos)

4 posibles agrupaciones de datos

La respuesta correcta es D. ¿Puede alguno de ustedes explicar por qué?

pir
fuente
2
Sería bueno saber cómo su maestro o profesor explica esto
Andy Clifton
3
Esta es la respuesta dada por mi profesor: el algoritmo k-means continúa hasta la convergencia calculando la media de cada grupo y asignando objetos de datos al grupo más cercano. Si el agrupamiento en D fuera una solución, las dos medias del grupo estarían alrededor de -1.8 y 0 en el eje PC2, lo que forzaría a los objetos de datos entre -0.9 y -1.8 en el eje PC2 a agruparse en el primer grupo en el próxima iteración del algoritmo k-means. Por lo tanto, D no puede ser una solución.
pir

Respuestas:

7

Para poner un poco más de carne en la respuesta de Peter Flom, k-significa agrupación busca k grupos en los datos. El método supone que cada grupo tiene un centroide en un determinado (x,y). El algoritmo k-means minimiza la distancia de cada punto al centroide (esto podría ser una distancia euclidiana o manhattan dependiendo de sus datos).

Para identificar los grupos, se realiza una suposición inicial de qué puntos de datos pertenecen a qué grupo, y se calcula el centroide para cada grupo. Luego se calcula la métrica de distancia, y luego algunos puntos se intercambian entre grupos para ver si mejora el ajuste. Hay muchas variaciones en los detalles, pero fundamentalmente k-means es una solución de fuerza bruta que depende de las condiciones iniciales, ya que la solución de agrupamiento tiene mínimos locales.

Entonces, en su caso, parece que el caso A tenía condiciones iniciales que estaban ampliamente separadas xy, por lo tanto, los grupos se resuelven porque las distancias desde los centroides a los datos son pequeñas, y es una solución estable. Por el contrario, no puede obtener D porque ese único punto rojo está más cerca del centroide de los puntos azules que muchos otros, por lo que el punto rojo debería haberse convertido en parte del conjunto azul.

Por lo tanto, la única forma en que podría obtener D es si interrumpe el proceso de agrupación antes de que finalice (o el código que creó los grupos está roto).

Andy Clifton
fuente
2
Tanto la respuesta de Peter Flom como de Andy Clifton me dejaron más claro por qué no se puede obtener D de la agrupación en la publicación original. Sin embargo, creo que esta respuesta es la más completa, lo que puede hacer que alguien más la entienda más fácilmente. ¡Gracias por la ayuda!
pir
5

Debido a que el punto dentro de un círculo en D no está lejos de otros puntos en la dimensión PC1, la dimensión PC2 o la distancia euclidiana que los combina.

En A, el punto único está lejos de los demás en PC1

En B y C hay dos grandes grupos que son fácilmente separables. De hecho, B y C son el mismo grupo (a menos que me falte un punto) solo varían en términos de etiqueta

Peter Flom
fuente
44
Sí, y diría que es poco probable que cualquier análisis de conglomerados, no solo K-significa solo, dé la solución D (a menos que tal vez cuando esté sintonizado adecuadamente).
ttnphns
3

Como D contiene solo un punto, su centro está exactamente en este punto.

Para el resto de los datos, el centro debe estar cerca de 0,0 en esta proyección.

Al menos uno de los puntos azules está sustancialmente más cerca del centro rojo que del azul en los dos primeros componentes principales. El resultado no parece ser producido por las células Voronoi.

HA SALIDO - Anony-Mousse
fuente
1

Esta no es una respuesta directa a su pregunta, pero no entiendo cómo la configuración que sugiere su maestro, es decir, primero aplicar PCA y luego buscar grupos, tiene sentido:

Si el conjunto de datos tiene una estructura agrupada, no se garantiza que la reducción dimensional obtenida a través de PCA respete esta estructura en absoluto. En sus figuras, PC1 y PC2 solo le darán las variables (o combinaciones lineales de variables) que capturan la mayor variación en los datos.

Dicho de otra manera: si desde el principio cree que el conjunto de datos contiene grupos, las características más importantes son claramente las que discriminan entre grupos, que, en general, no coinciden con las direcciones de grandes variaciones en todo el conjunto de datos.

En tal escenario, lo que tiene más sentido es primero agrupar (sin ninguna reducción de dimensionalidad) y luego realizar LDA o XCA , o algo similar que conserve la información discriminatoria clase / cluster.

Zhubarb
fuente