Estoy usando la agrupación jerárquica para analizar datos de series de tiempo. Mi código se implementa usando la función MathematicaDirectAgglomerate[...]
, que genera grupos jerárquicos con las siguientes entradas:
una matriz de distancia D
El nombre del método utilizado para determinar la vinculación entre clústeres.
He calculado la matriz de distancia D usando la distancia de Manhattan:
donde y n ≈ 150 es el número de puntos de datos en mi serie de tiempo.
Mi pregunta es, ¿está bien usar el enlace entre grupos de Ward con una matriz de distancia de Manhattan? Algunas fuentes sugieren que el enlace de Ward solo debe usarse con la distancia euclidiana.
Tenga en cuenta que DirectAgglomerate[...]
calcula el enlace de Ward utilizando solo la matriz de distancia, no las observaciones originales. Desafortunadamente, no estoy seguro de cómo Mathematica modifica el algoritmo original de Ward, que (según tengo entendido) funcionó minimizando la suma de cuadrados de error de las observaciones, calculadas con respecto a la media del grupo. Por ejemplo, para un grupo consiste en un vector de observaciones univariadas, Ward formuló la suma de cuadrados de error como:
(Otras herramientas de software como Matlab y R también implementan el agrupamiento de Ward utilizando solo una matriz de distancia, por lo que la pregunta no es específica de Mathematica).
fuente
agnes
en línea para el paquete de clúster .Respuestas:
El algoritmo de agrupamiento Ward es un método de agrupamiento jerárquico que minimiza los criterios de "inercia" en cada paso. Esta inercia cuantifica la suma de los residuos cuadrados entre la señal reducida y la señal inicial: es una medida de la varianza del error en un sentido l2 (euclidiano). En realidad, incluso lo mencionas en tu pregunta. Por eso, creo, no tiene sentido aplicarlo a una matriz de distancia que no sea una distancia euclidiana l2.
Por otro lado, un enlace promedio o una agrupación jerárquica de enlace único sería perfectamente adecuado para otras distancias.
fuente
No se me ocurre ninguna razón por la cual Ward deba favorecer cualquier métrica. El método de Ward es solo otra opción para decidir qué grupos fusionar después durante la aglomeración. Esto se logra al encontrar los dos grupos cuya fusión minimizará un cierto error ( fuente ejemplar para la fórmula ).
Por lo tanto, se basa en dos conceptos:
Entonces: mientras las propiedades de la métrica elegida (como, por ejemplo, rotación, traslación o invariancia de escala) satisfagan sus necesidades (y la métrica se ajuste a la forma en que se calcula la media del clúster), no veo ninguna razón para no usarla .
Sospecho que la mayoría de la gente sugiere la métrica euclidiana porque
fuente
fuente