Considere el contexto de una agrupación de dendrogramas. Llamemos disimilitudes originales a las distancias entre los individuos. Después de construir el dendrograma, definimos la disparidad copénetica entre dos individuos como la distancia entre los grupos a los que pertenecen estos individuos.
Algunas personas consideran que la correlación entre las diferencias originales y las diferencias copégenas (llamada correlación cophenetic ) es un "índice de idoneidad" de la clasificación. Esto me suena totalmente desconcertante. Mi objeción no se basa en la elección particular de la correlación de Pearson, sino en la idea general de que cualquier vínculo entre las diferencias originales y las diferencias copnésicas podría estar relacionado con la idoneidad de la clasificación.
¿Está de acuerdo conmigo o podría presentar algún argumento que respalde el uso de la correlación cophenetic como índice de idoneidad para la clasificación de dendrograma?
fuente
general idea that any link between the original dissimilarities and the cophenetic dissimilarities could be related to the suitability of the classification
. La clasificación debe reflejar las diferencias originales. La característica básica de la clasificación dendrográfica para hacer esto es a través de la disimilaridad cophenetic. ¿Hay algo? ¿incorrecto?Respuestas:
Para mí no está claro qué significa eso. La forma en que lo entendí es que
es una medida de la estructura jerárquica entre las observaciones , es decir, sus distancias. Es decir, las diferencias en las observaciones en un grupo diferente son preferiblemente similares. Considerando los conjuntos de datos A y B agrupados usando la distancia euclidiana y el enlace completo ... ... incluso sin tener que mirar el mapa de distancia cophenetic o calcular la correlación cophenetic, uno puede ver que la correlación cophenetic de A es mayor que la de B En una jerarquía hay niveles. Entonces, el CC informa sobre si las distancias a las observaciones en el mismo nivel (grupo) son similares.
En aras de la integridad: las correlaciones cophenetic son CC (A) = 0.936 y CC (B) = 0.691
fuente