Recibí la siguiente pregunta como pregunta de prueba para mi examen y simplemente no puedo entender la respuesta.
A continuación se muestra un diagrama de dispersión de los datos proyectados en los dos primeros componentes principales. Deseamos examinar si existe alguna estructura de grupo en el conjunto de datos. Para hacer esto, hemos ejecutado el algoritmo k-means con k = 2 usando la medida de distancia euclidiana. El resultado del algoritmo k-means puede variar entre ejecuciones dependiendo de las condiciones iniciales aleatorias. Ejecutamos el algoritmo varias veces y obtuvimos algunos resultados de agrupación diferentes.
Solo se pueden obtener tres de las cuatro agrupaciones mostradas ejecutando el algoritmo k-means en los datos. ¿Cuál no se puede obtener por medio k? (no hay nada especial sobre los datos)
La respuesta correcta es D. ¿Puede alguno de ustedes explicar por qué?
fuente
Respuestas:
Para poner un poco más de carne en la respuesta de Peter Flom, k-significa agrupación busca k grupos en los datos. El método supone que cada grupo tiene un centroide en un determinado
(x,y)
. El algoritmo k-means minimiza la distancia de cada punto al centroide (esto podría ser una distancia euclidiana o manhattan dependiendo de sus datos).Para identificar los grupos, se realiza una suposición inicial de qué puntos de datos pertenecen a qué grupo, y se calcula el centroide para cada grupo. Luego se calcula la métrica de distancia, y luego algunos puntos se intercambian entre grupos para ver si mejora el ajuste. Hay muchas variaciones en los detalles, pero fundamentalmente k-means es una solución de fuerza bruta que depende de las condiciones iniciales, ya que la solución de agrupamiento tiene mínimos locales.
Entonces, en su caso, parece que el caso A tenía condiciones iniciales que estaban ampliamente separadas
x
y, por lo tanto, los grupos se resuelven porque las distancias desde los centroides a los datos son pequeñas, y es una solución estable. Por el contrario, no puede obtener D porque ese único punto rojo está más cerca del centroide de los puntos azules que muchos otros, por lo que el punto rojo debería haberse convertido en parte del conjunto azul.Por lo tanto, la única forma en que podría obtener D es si interrumpe el proceso de agrupación antes de que finalice (o el código que creó los grupos está roto).
fuente
Debido a que el punto dentro de un círculo en D no está lejos de otros puntos en la dimensión PC1, la dimensión PC2 o la distancia euclidiana que los combina.
En A, el punto único está lejos de los demás en PC1
En B y C hay dos grandes grupos que son fácilmente separables. De hecho, B y C son el mismo grupo (a menos que me falte un punto) solo varían en términos de etiqueta
fuente
Como D contiene solo un punto, su centro está exactamente en este punto.
Para el resto de los datos, el centro debe estar cerca de 0,0 en esta proyección.
Al menos uno de los puntos azules está sustancialmente más cerca del centro rojo que del azul en los dos primeros componentes principales. El resultado no parece ser producido por las células Voronoi.
fuente
Esta no es una respuesta directa a su pregunta, pero no entiendo cómo la configuración que sugiere su maestro, es decir, primero aplicar PCA y luego buscar grupos, tiene sentido:
Si el conjunto de datos tiene una estructura agrupada, no se garantiza que la reducción dimensional obtenida a través de PCA respete esta estructura en absoluto. En sus figuras, PC1 y PC2 solo le darán las variables (o combinaciones lineales de variables) que capturan la mayor variación en los datos.
Dicho de otra manera: si desde el principio cree que el conjunto de datos contiene grupos, las características más importantes son claramente las que discriminan entre grupos, que, en general, no coinciden con las direcciones de grandes variaciones en todo el conjunto de datos.
En tal escenario, lo que tiene más sentido es primero agrupar (sin ninguna reducción de dimensionalidad) y luego realizar LDA o XCA , o algo similar que conserve la información discriminatoria clase / cluster.
fuente