Sobre correlación cophenetic para la agrupación de dendrogramas

10

Considere el contexto de una agrupación de dendrogramas. Llamemos disimilitudes originales a las distancias entre los individuos. Después de construir el dendrograma, definimos la disparidad copénetica entre dos individuos como la distancia entre los grupos a los que pertenecen estos individuos.

Algunas personas consideran que la correlación entre las diferencias originales y las diferencias copégenas (llamada correlación cophenetic ) es un "índice de idoneidad" de la clasificación. Esto me suena totalmente desconcertante. Mi objeción no se basa en la elección particular de la correlación de Pearson, sino en la idea general de que cualquier vínculo entre las diferencias originales y las diferencias copnésicas podría estar relacionado con la idoneidad de la clasificación.

¿Está de acuerdo conmigo o podría presentar algún argumento que respalde el uso de la correlación cophenetic como índice de idoneidad para la clasificación de dendrograma?

Stéphane Laurent
fuente
No explicas tu objeción a la (bastante intuitiva) general idea that any link between the original dissimilarities and the cophenetic dissimilarities could be related to the suitability of the classification. La clasificación debe reflejar las diferencias originales. La característica básica de la clasificación dendrográfica para hacer esto es a través de la disimilaridad cophenetic. ¿Hay algo? ¿incorrecto?
ttnphns
1
Por cierto, no se debe mezclar el concepto de agrupamiento jerárquico (aglomerado) con la clasificación jerárquica (dendrográfica) . La agrupación produce su dendrograma como un informe de proceso ; no afirma que sea resultado de clasificación jerárquica .
ttnphns
1
La correlación copética se propuso solo para clasificaciones "dogmáticas", donde la clasificación debe reflejar las diferencias en pares, de ahí la noción de utilidad de la correlación (copética) sigue de manera inmediata.
ttnphns
2
Es posible que desee leer este documento sobre correlación
cophenetic
3
@ StéphaneLaurent No tengo nada que aportar como respuesta a su pregunta, pero he estado leyendo el diálogo. Nada de lo que dijiste me pareció ofensivo. También dijiste que no sabías la diferencia entre clasificación y agrupamiento y no he visto esa simple pregunta respondida. Es la diferencia entre lo que la gente de aprendizaje automático llama aprendizaje supervisado y no supervisado. En clasificación, conoce todas las etiquetas de clase para sus datos y utiliza esa información para construir una regla de clasificación para casos futuros que no tienen etiquetas. En el clúster no tiene etiquetado.
Michael R. Chernick

Respuestas:

2

... es un "índice de idoneidad" de la clasificación

Para mí no está claro qué significa eso. La forma en que lo entendí es que

la correlación entre las disimilitudes originales y las disimilitudes cophenetic (llamada correlación cophenetic)

es una medida de la estructura jerárquica entre las observaciones , es decir, sus distancias. Es decir, las diferencias en las observaciones en un grupo diferente son preferiblemente similares. Considerando los conjuntos de datos A y B agrupados usando la distancia euclidiana y el enlace completo ... ingrese la descripción de la imagen aquí ... incluso sin tener que mirar el mapa de distancia cophenetic o calcular la correlación cophenetic, uno puede ver que la correlación cophenetic de A es mayor que la de B En una jerarquía hay niveles. Entonces, el CC informa sobre si las distancias a las observaciones en el mismo nivel (grupo) son similares.

En aras de la integridad: las correlaciones cophenetic son CC (A) = 0.936 y CC (B) = 0.691


fuente
1
Desearía ser más experto en esto. No sigo tu ejemplo con los mapas de calor. ¿Qué es lo que ves que hace obvio el CC (A)> el CC (B)? Por ejemplo, si los triángulos superiores fueran distancias cophenetic y los triángulos inferiores fueran distancias originales, y ambos mostraran patrones similares, entonces reconocería que el CC sería alto, etc. W / estos no estoy seguro de cómo hacer tal inferencia . ¿Es solo que A dará lugar naturalmente a una mejor agrupación y, por lo tanto, el CC resultante solo tendrá que coincidir bien?
gung - Restablece a Monica