Considere el ejemplo R a continuación:
plot( hclust(dist(USArrests), "ave") )
¿Qué significa exactamente la "Altura" del eje y?
Mirando a Carolina del Norte y California (más bien a la izquierda). ¿California está "más cerca" de Carolina del Norte que Arizona? ¿Puedo hacer esta interpretación?
Hawaii (derecha) se une al grupo bastante tarde. Puedo ver esto ya que es "más alto" que otros estados. En general, ¿cómo puedo interpretar el hecho de que las etiquetas son "más altas" o "más bajas" en el dendrograma correctamente?
?hclust
.Respuestas:
1) El eje y es una medida de cercanía de puntos de datos individuales o grupos.
2) California y Arizona están igualmente distantes de Florida porque CA y AZ están en un grupo antes de unirse a FL.
3) Hawaii se une bastante tarde; aproximadamente 50. Esto significa que el grupo al que se une está más cerca antes de que HI se una. Pero no mucho más cerca. Tenga en cuenta que el clúster al que se une (el que está a la derecha) solo se forma a aproximadamente 45. El hecho de que HI se una a un clúster más tarde que cualquier otro estado simplemente significa que (usando cualquier métrica que haya seleccionado) HI no está tan cerca de cualquier estado particular
fuente
Tenía las mismas preguntas cuando intenté aprender el agrupamiento jerárquico y encontré que el siguiente pdf era muy, muy útil.
http://www.econ.upf.edu/~michael/stanford/maeb7.pdf
Incluso si Richard ya tiene claro el procedimiento, otros que examinen la pregunta probablemente puedan usar el pdf, es muy simple y claro especialmente para aquellos que no tienen suficientes conocimientos de matemáticas.
fuente
El eje horizontal representa los grupos. La escala vertical en el dendrograma representa la distancia o la diferencia. Cada unión (fusión) de dos grupos se representa en el diagrama mediante la división de una línea vertical en dos líneas verticales. La posición vertical de la división, que se muestra mediante una barra corta, proporciona la distancia (disimilitud) entre los dos grupos.
fuente