Agrupación jerárquica con datos de tipo mixto: ¿qué distancia / similitud utilizar?

34

En mi conjunto de datos tenemos variables continuas y naturalmente discretas. Quiero saber si podemos hacer agrupaciones jerárquicas usando ambos tipos de variables. Y si es así, ¿qué medida de distancia es apropiada?

Beta
fuente
¿Que software estas usando?
rolando2
@ rolando2: estoy usando R (paquete hclus).
Beta
1
¿Hay alguna razón para usar el agrupamiento jerárquico?
suncoolsu
N / A. Solo hago esta pregunta por el bien de mi conocimiento. ¿Podemos hacerlo jerárquicamente cuando tenemos un tipo de datos mixto? En caso afirmativo, ¿por qué? Si no, ¿por qué?
Beta
@ user4278 Bueno, ¿cuál es tu objetivo bien ? ¿Estás buscando identificar grupos (de individuos)?
chl

Respuestas:

45

Una forma es usar el coeficiente de similitud de Gower, que es una medida compuesta 1 ; toma variables cuantitativas (como escala de calificación), binarias (como presente / ausente) y nominales (como trabajador / maestro / empleado). Más tarde, Podani 2 agregó una opción para tomar variables ordinales también.12

El coeficiente se entiende fácilmente incluso sin una fórmula; calcula el valor de similitud entre los individuos por cada variable, teniendo en cuenta el tipo de la variable y luego promedia en todas las variables. Por lo general, un programa que calcula Gower le permitirá ponderar variables, es decir, su contribución a la fórmula compuesta. Sin embargo, la ponderación adecuada de variables de diferente tipo es un problema , no existen pautas claras, lo que hace que Gower u otros índices "compuestos" de proximidad se enfrenten.

Las facetas de similitud de Gower ( solS ):

  • Cuando todas las variables son cuantitativas (intervalo), entonces el coeficiente es la distancia de Manhattan normalizada por rango convertida en similitud. Debido a la normalización, las variables de diferentes unidades pueden usarse de manera segura. Sin embargo, no debe olvidarse de los valores atípicos. (También puede decidir normalizar con otra medida de propagación que no sea el rango). Debido a dicha normalización mediante una estadística, como el rango, que es sensible a la composición de los individuos en el conjunto de datos, la similitud de Gower entre dos individuos puede cambiar su valor. si elimina o agrega otras personas en los datos.
  • Cuando todas las variables son ordinales, primero se clasifican, y luego se calcula Manhattan, como se indicó anteriormente con variables cuantitativas, pero con el ajuste especial por vínculos.
  • Cuando todas las variables son binarias (con un significado asimétrico de categorías: atributo "presente" vs "ausente"), el coeficiente es el coeficiente de coincidencia Jaccard (este coeficiente trata cuando ambos individuos carecen del atributo como no coinciden ni no coinciden).
  • Cuando todas las variables son nominales (también incluidas aquí dicotómicas con significado simétrico: "esto" vs "eso"), entonces el coeficiente es el coeficiente de coincidencia de dados que obtiene de sus variables nominales si las recodifica en variables ficticias (vea esta respuesta para más información) .

(Es fácil extender la lista de tipos. Por ejemplo, uno podría agregar un sumando para las variables de conteo, usando la distancia chi-cuadrado normalizada convertida en similitud).

El coeficiente oscila entre 0 y 1.

1-solS1-solS1-solS1-solS

Con distancias euclidianas (distancias que soportan el espacio euclidiano), prácticamente cualquier técnica clásica de agrupamiento funcionará. Incluyendo K-means (si su programa K-means puede procesar matrices de distancia, por supuesto) e incluyendo los métodos de Ward, centroide, mediana de agrupamiento jerárquico . El uso de K-means u otros métodos basados ​​en la distancia euclidiana con la distancia métrica aún no euclidiana es heurísticamente admisible, tal vez. Con distancias no métricas, no se pueden usar tales métodos.

El párrafo anterior habla sobre si K-means o Ward's o tal agrupación es legal o no con la distancia de Gower matemáticamente (geométricamente). Desde el punto de vista de la escala de medición ("psicométrico") no se debe calcular la desviación media o de distancia euclidiana de ella en ningún dato categórico (nominal, binario y ordinal); por lo tanto, desde esta posición, es posible que no procese el coeficiente de Gower por medio K, Ward, etc. Este punto de vista advierte que incluso si hay un espacio euclidiano puede estar granulado, no liso ( ver relacionado ).


1

2

ttnphns
fuente
Gracias ttnphns! ¿Puede decirme si el "coeficiente de similitud de Gower" está integrado en el paquete hclus en R? ¿Hay algún paquete en R que tenga esta funcionalidad?
Beta
No soy usuario de R, así que no sé, y no creo que lo encuentres en hclus. ¡Pero si buscas en Google "Gower similarity R", seguramente encontrarás lo que necesitas!
ttnphns
user4278, en caso de que no evite SPSS, tengo una macro para la similitud de Gower en mi página web. Acepta ponderación y datos faltantes.
ttnphns
@ user4278 Acerca de R específicamente, comience aquí: cran.r-project.org/web/views/Environmetrics.html
chl
@ttnphns: ¡Gracias! He visitado su sitio web y es un gran recurso para SPSS. Pero desafortunadamente no uso demasiado SPSS. Pero seguramente lo usaré si no obtengo nada en R. @ chl: ¡Gracias! Pero es una lista enorme. Leí en alguna parte que Daisy, en el paquete de clúster, tiene una funcionalidad de similitud de Gower.
Beta el
15

Si se ha topado con esta pregunta y se pregunta qué paquete descargar para usar la métrica de Gower en R , el clusterpaquete tiene una función llamada daisy () , que por defecto usa la métrica de Gower siempre que se usan tipos mixtos de variables. O puede configurarlo manualmente para usar la métrica de Gower.

daisy(x, metric = c("euclidean", "manhattan", "gower"),
      stand = FALSE, type = list(), weights = rep.int(1, p))
Zhubarb
fuente
44
En relación con la respuesta de Zhubarb , si desea que las distancias entre todos los pares de Gower de dos conjuntos de datos, a continuación, ver el paquete R StatMatch.
James Hirschorn