Dado un conjunto de puntos de datos donde ejecutamos K-means en y obtenemos los grupos .
Ahora, si creamos un nuevo conjunto de datos donde y y ejecutamos K-means en para obtener los clústeres .
¿En qué condiciones de y estamos garantizado para conseguir los mismos grupos?
Supongamos que K-means utiliza la distancia euclidiana y tiene las mismas condiciones iniciales en ambos algoritmos, es decir, si los centros iniciales para X son entonces los centros iniciales para Y son donde .
Hasta ahora he pensado que tiene que ser de rango completo puede ser cualquier vector. Sin embargo, no he podido probarlo.
fuente