¿Son necesarias la normalización media y el escalado de características para la agrupación de k-means?

Respuestas:

63

Si sus variables son de unidades incomparables (por ejemplo, altura en cm y peso en kg), entonces debería estandarizar las variables, por supuesto. Incluso si las variables son de las mismas unidades pero muestran variaciones bastante diferentes, sigue siendo una buena idea estandarizar antes de K-means. Verá, la agrupación K-significa es "isotrópica" en todas las direcciones del espacio y, por lo tanto, tiende a producir agrupaciones más o menos redondas (en lugar de alargadas). En esta situación, dejar varianzas desiguales es equivalente a poner más peso en las variables con menor varianza, por lo que los grupos tenderán a separarse a lo largo de las variables con mayor varianza.

ingrese la descripción de la imagen aquí

1

Aquí hay un razonamiento general sobre el tema de la estandarización de características en clúster u otro análisis multivariado.


1

ttnphns
fuente
2
La aleatorización, la repetición, el promedio y la ejecución final es un muy buen consejo. Gracias
pedrosaurio
1
¿Cómo k-means sería sensible al pedido?
SmallChess
1
@StudentT, agregué una nota al pie para eso. Gracias.
ttnphns
1
@ttnphns ¿cómo se determina cuantitativamente que las variables tienen "variaciones bastante diferentes"?
Herman Toothrot
1
@camillejr, comience por verificar esta Q: stats.stackexchange.com/q/418427/3277 .
ttnphns
4

Depende de tus datos, supongo. Si desea que las tendencias en sus datos se agrupen independientemente de la magnitud, debe centrarse. p.ej. digamos que tiene un perfil de expresión génica y desea ver las tendencias en la expresión génica, entonces, sin centrarse, sus genes de baja expresión se agruparán y se alejarán de los genes de alta expresión, independientemente de las tendencias. El centrado hace que los genes (tanto altos como bajos expresados) con patrones de expresión similares se agrupen.

Escritor nocturno
fuente
De hecho, estoy comparando diferentes características que tienen su propia escala. Por ejemplo, estoy comparando el contenido de GC que tiene un rango de aproximadamente 0.3 a 0.5 que puede parecer pequeño, pero la diferencia es bastante importante; algunas otras características tienen rangos más amplios, otras varían en escalas muy pequeñas.
pedrosaurio
Entonces, ¿estás agrupando diferentes factores? Tal vez podría usar algo de peso o transformación de valores.
Nightwriter
No, estoy comparando todas las variables continuas
pedrosaurio