Aparentemente, en la agrupación jerárquica en la que la medida de la distancia es la distancia euclidiana, los datos primero deben normalizarse o estandarizarse para evitar que la covariable con la mayor varianza impulse la agrupación. ¿Por qué es esto? ¿No es deseable este hecho?
fuente
Si no estandariza sus datos, entonces las variables medidas en unidades de gran valor dominarán la diferencia calculada y las variables que se miden en unidades de poco valor contribuirán muy poco.
Podemos visualizar esto en R a través de:
dist1
contiene las distancias euclidianas para las 100 observaciones basadas en las tres variables, mientras quedist2
contiene la distancia euclidiana basadavar1
solo.Observe cuán similares son las distribuciones de distancias, lo que indica poca contribución de
var2
yvar3
, y las distancias reales son muy similares:Si estandarizamos los datos
entonces hay un gran cambio en las distancias basadas solo en
var1
las basadas en las tres variables:Como el agrupamiento jerárquico usa estas distancias, si es deseable estandarizar o no dependerá del tipo de datos / variables que tenga y si desea que las cosas grandes dominen las distancias y, por lo tanto, dominen la formación del agrupamiento. La respuesta a esto es específica del dominio y específica del conjunto de datos.
fuente
Anony-Mousse dio una excelente respuesta . Solo agregaría que la métrica de distancia que tiene sentido dependerá de la forma de las distribuciones multivariadas. Para Gaussian multivariante, la distancia de Mahalanobis es la medida adecuada.
fuente