Agrupación jerárquica con datos de tipo mixto: ¿qué distancia / similitud utilizar?

Una forma es usar el coeficiente de similitud de Gower, que es una medida compuesta ; toma variables cuantitativas (como escala de calificación), binarias (como presente / ausente) y nominales (como trabajador / maestro / empleado). Más tarde, Podani agregó una opción para tomar variables ordinales también. $^1$ $^2$

El coeficiente se entiende fácilmente incluso sin una fórmula; calcula el valor de similitud entre los individuos por cada variable, teniendo en cuenta el tipo de la variable y luego promedia en todas las variables. Por lo general, un programa que calcula Gower le permitirá ponderar variables, es decir, su contribución a la fórmula compuesta. Sin embargo, la ponderación adecuada de variables de diferente tipo es un problema , no existen pautas claras, lo que hace que Gower u otros índices "compuestos" de proximidad se enfrenten.

Las facetas de similitud de Gower ( $GS$ ):

Cuando todas las variables son cuantitativas (intervalo), entonces el coeficiente es la distancia de Manhattan normalizada por rango convertida en similitud. Debido a la normalización, las variables de diferentes unidades pueden usarse de manera segura. Sin embargo, no debe olvidarse de los valores atípicos. (También puede decidir normalizar con otra medida de propagación que no sea el rango). Debido a dicha normalización mediante una estadística, como el rango, que es sensible a la composición de los individuos en el conjunto de datos, la similitud de Gower entre dos individuos puede cambiar su valor. si elimina o agrega otras personas en los datos.
Cuando todas las variables son ordinales, primero se clasifican, y luego se calcula Manhattan, como se indicó anteriormente con variables cuantitativas, pero con el ajuste especial por vínculos.
Cuando todas las variables son binarias (con un significado asimétrico de categorías: atributo "presente" vs "ausente"), el coeficiente es el coeficiente de coincidencia Jaccard (este coeficiente trata cuando ambos individuos carecen del atributo como no coinciden ni no coinciden).
Cuando todas las variables son nominales (también incluidas aquí dicotómicas con significado simétrico: "esto" vs "eso"), entonces el coeficiente es el coeficiente de coincidencia de dados que obtiene de sus variables nominales si las recodifica en variables ficticias (vea esta respuesta para más información) .

(Es fácil extender la lista de tipos. Por ejemplo, uno podría agregar un sumando para las variables de conteo, usando la distancia chi-cuadrado normalizada convertida en similitud).

El coeficiente oscila entre 0 y 1.

$\sqrt{1-GS}$ $1-GS$ $\sqrt{1-GS}$ $1-GS$

Con distancias euclidianas (distancias que soportan el espacio euclidiano), prácticamente cualquier técnica clásica de agrupamiento funcionará. Incluyendo K-means (si su programa K-means puede procesar matrices de distancia, por supuesto) e incluyendo los métodos de Ward, centroide, mediana de agrupamiento jerárquico . El uso de K-means u otros métodos basados en la distancia euclidiana con la distancia métrica aún no euclidiana es heurísticamente admisible, tal vez. Con distancias no métricas, no se pueden usar tales métodos.

El párrafo anterior habla sobre si K-means o Ward's o tal agrupación es legal o no con la distancia de Gower matemáticamente (geométricamente). Desde el punto de vista de la escala de medición ("psicométrico") no se debe calcular la desviación media o de distancia euclidiana de ella en ningún dato categórico (nominal, binario y ordinal); por lo tanto, desde esta posición, es posible que no procese el coeficiente de Gower por medio K, Ward, etc. Este punto de vista advierte que incluso si hay un espacio euclidiano puede estar granulado, no liso ( ver relacionado ).

$^1$

$^2$

ttnphns
fuente

Gracias ttnphns! ¿Puede decirme si el "coeficiente de similitud de Gower" está integrado en el paquete hclus en R? ¿Hay algún paquete en R que tenga esta funcionalidad?

Beta

No soy usuario de R, así que no sé, y no creo que lo encuentres en hclus. ¡Pero si buscas en Google "Gower similarity R", seguramente encontrarás lo que necesitas!

ttnphns

user4278, en caso de que no evite SPSS, tengo una macro para la similitud de Gower en mi página web. Acepta ponderación y datos faltantes.

ttnphns

@ user4278 Acerca de R específicamente, comience aquí: cran.r-project.org/web/views/Environmetrics.html

chl

@ttnphns: ¡Gracias! He visitado su sitio web y es un gran recurso para SPSS. Pero desafortunadamente no uso demasiado SPSS. Pero seguramente lo usaré si no obtengo nada en R. @ chl: ¡Gracias! Pero es una lista enorme. Leí en alguna parte que Daisy, en el paquete de clúster, tiene una funcionalidad de similitud de Gower.

Beta el

Agrupación jerárquica con datos de tipo mixto: ¿qué distancia / similitud utilizar?

Respuestas: