Cómo interpretar el dendrograma de un análisis de conglomerados jerárquico

25

Considere el ejemplo R a continuación:

plot( hclust(dist(USArrests), "ave") )
  1. ¿Qué significa exactamente la "Altura" del eje y?

  2. Mirando a Carolina del Norte y California (más bien a la izquierda). ¿California está "más cerca" de Carolina del Norte que Arizona? ¿Puedo hacer esta interpretación?

  3. Hawaii (derecha) se une al grupo bastante tarde. Puedo ver esto ya que es "más alto" que otros estados. En general, ¿cómo puedo interpretar el hecho de que las etiquetas son "más altas" o "más bajas" en el dendrograma correctamente?

ingrese la descripción de la imagen aquí

Ric
fuente
1
Respuestas en ?hclust.
Scortchi - Restablece a Monica
3
Las posiciones de las etiquetas no tienen significado. Si no comprende el eje y, es extraño que tenga la impresión de comprender bien el agrupamiento jerárquico.
Stéphane Laurent
1
También tenga en cuenta que la agrupación jerárquica generalmente no le da clasificación jerárquica (árbol) . El método promedio (que usó) no lo hace, en particular. Ver último punto aquí .
ttnphns
1
Sin embargo, la posición de una etiqueta tiene un poco de significado. Cuanto más alta sea la posición, más tarde se vinculará el objeto con los demás y, por lo tanto, se parecerá más a un valor atípico o perdido.
ttnphns
3
@ StéphaneLaurent Tienes razón en que esto suena como una contradicción. Por otro lado, sigo pensando que puedo interpretar un dendograma de datos que conozco bien. Además, la posición de las etiquetas tiene un pequeño significado, como señalan ttnphns y Peter Flom. Finalmente tu comentario no fue constructivo para mí.
Ric

Respuestas:

17

1) El eje y es una medida de cercanía de puntos de datos individuales o grupos.

2) California y Arizona están igualmente distantes de Florida porque CA y AZ están en un grupo antes de unirse a FL.

3) Hawaii se une bastante tarde; aproximadamente 50. Esto significa que el grupo al que se une está más cerca antes de que HI se una. Pero no mucho más cerca. Tenga en cuenta que el clúster al que se une (el que está a la derecha) solo se forma a aproximadamente 45. El hecho de que HI se una a un clúster más tarde que cualquier otro estado simplemente significa que (usando cualquier métrica que haya seleccionado) HI no está tan cerca de cualquier estado particular

Peter Flom - Restablece a Monica
fuente
Por lo tanto, "altura" me da una idea del valor del criterio de enlace (como aquí ), en mi caso, la distancia promedio de los grupos entre sí. ¿Es esto correcto? ¡Gracias!
Ric
¿No es el eje y una medida de disimilitud entre grupos y puntos? Es decir, la cercanía negativa, porque es más grande cuando las cosas son las más diferentes, no al revés @PeterFlom
Felipe Almeida
21

Tenía las mismas preguntas cuando intenté aprender el agrupamiento jerárquico y encontré que el siguiente pdf era muy, muy útil.

http://www.econ.upf.edu/~michael/stanford/maeb7.pdf

Incluso si Richard ya tiene claro el procedimiento, otros que examinen la pregunta probablemente puedan usar el pdf, es muy simple y claro especialmente para aquellos que no tienen suficientes conocimientos de matemáticas.

Srmsbrmnm
fuente
3
Solo quiero repetir que el pdf vinculado es muy bueno.
Heisenberg
Referencia: Klimberg, Ronald K. y BD McCullough. 2013. "Capítulo 7: Análisis jerárquico de conglomerados". Fundamentos de análisis predictivo con JMP. Cary, NC: Instituto SAS.
jay.sf
1

El eje horizontal representa los grupos. La escala vertical en el dendrograma representa la distancia o la diferencia. Cada unión (fusión) de dos grupos se representa en el diagrama mediante la división de una línea vertical en dos líneas verticales. La posición vertical de la división, que se muestra mediante una barra corta, proporciona la distancia (disimilitud) entre los dos grupos.

Babaasa
fuente