¿Cuáles son los mejores pasos de preprocesamiento (recomendados) antes de realizar k-means?
clustering
normalization
k-means
pedrosaurio
fuente
fuente
Respuestas:
Si sus variables son de unidades incomparables (por ejemplo, altura en cm y peso en kg), entonces debería estandarizar las variables, por supuesto. Incluso si las variables son de las mismas unidades pero muestran variaciones bastante diferentes, sigue siendo una buena idea estandarizar antes de K-means. Verá, la agrupación K-significa es "isotrópica" en todas las direcciones del espacio y, por lo tanto, tiende a producir agrupaciones más o menos redondas (en lugar de alargadas). En esta situación, dejar varianzas desiguales es equivalente a poner más peso en las variables con menor varianza, por lo que los grupos tenderán a separarse a lo largo de las variables con mayor varianza.
Aquí hay un razonamiento general sobre el tema de la estandarización de características en clúster u otro análisis multivariado.
fuente
Depende de tus datos, supongo. Si desea que las tendencias en sus datos se agrupen independientemente de la magnitud, debe centrarse. p.ej. digamos que tiene un perfil de expresión génica y desea ver las tendencias en la expresión génica, entonces, sin centrarse, sus genes de baja expresión se agruparán y se alejarán de los genes de alta expresión, independientemente de las tendencias. El centrado hace que los genes (tanto altos como bajos expresados) con patrones de expresión similares se agrupen.
fuente