¿En qué condiciones es K-significa agrupación de transformación invariante?

8

Dado un conjunto de puntos de datos donde ejecutamos K-means en y obtenemos los grupos .X={X1,X2,...,Xmetro}XyoRreXC1,C2,...,Ck

Ahora, si creamos un nuevo conjunto de datos donde y y ejecutamos K-means en para obtener los clústeres .Y={y1,y2,...,ymetro}yyo=UNAXyo+siyyoRreYsol1,sol2,...solk

¿En qué condiciones de y estamos garantizado para conseguir los mismos grupos?UNAsi

Supongamos que K-means utiliza la distancia euclidiana y tiene las mismas condiciones iniciales en ambos algoritmos, es decir, si los centros iniciales para X son entonces los centros iniciales para Y son donde .C10 0,...,Ck0 0sol10 0,...,solk0 0solyo0 0=UNACyo0 0+si

Hasta ahora he pensado que tiene que ser de rango completo puede ser cualquier vector. Sin embargo, no he podido probarlo.UNAsi

Ana Echavarria
fuente

Respuestas:

6

La respuesta depende de su algoritmo K-means, pero lo que sigue debería funcionar para algoritmos estándar.

Obtendrá el mismo resultado si su transformación cumple dos condiciones:T

  1. Conserva distancias: , donde es su métrica,.re(z,w)=re(T(z),T(w))rere(z,w)=z-w
  2. Conserva promedios: si es una combinación convexa que .yopagsyozyoT(yopagsyozyo)=yopagsyoT(zyo)

Puede verificar esto revisando el algoritmo, mostrando que siempre toma las mismas decisiones.

Yuval Filmus
fuente
Gracias Yuval, esto tiene mucho sentido. ¿Significaría esto entonces que para la distancia euclidiana, A tendría que ser una matriz ortogonal para crear una transformación rígida?
Ana Echavarria
Parece que sí.
Yuval Filmus