Aparentemente, en la agrupación jerárquica en la que la medida de la distancia es la distancia euclidiana, los datos primero deben normalizarse o estandarizarse para evitar que la covariable con la mayor varianza impulse la agrupación. ¿Por qué es esto? ¿No es deseable este hecho?
fuente

Si no estandariza sus datos, entonces las variables medidas en unidades de gran valor dominarán la diferencia calculada y las variables que se miden en unidades de poco valor contribuirán muy poco.
Podemos visualizar esto en R a través de:
dist1contiene las distancias euclidianas para las 100 observaciones basadas en las tres variables, mientras quedist2contiene la distancia euclidiana basadavar1solo.Observe cuán similares son las distribuciones de distancias, lo que indica poca contribución de
var2yvar3, y las distancias reales son muy similares:Si estandarizamos los datos
entonces hay un gran cambio en las distancias basadas solo en
var1las basadas en las tres variables:Como el agrupamiento jerárquico usa estas distancias, si es deseable estandarizar o no dependerá del tipo de datos / variables que tenga y si desea que las cosas grandes dominen las distancias y, por lo tanto, dominen la formación del agrupamiento. La respuesta a esto es específica del dominio y específica del conjunto de datos.
fuente
Anony-Mousse dio una excelente respuesta . Solo agregaría que la métrica de distancia que tiene sentido dependerá de la forma de las distribuciones multivariadas. Para Gaussian multivariante, la distancia de Mahalanobis es la medida adecuada.
fuente