Tengo 17 variables numéricas y 5 binarias (0-1), con 73 muestras en mi conjunto de datos. Necesito ejecutar un análisis de clúster. Sé que la distancia de Gower es una buena métrica para conjuntos de datos con variables mixtas. Sin embargo, no podía entender cómo la distancia de Gower calcula la diferencia entre las variables binarias . Me parece que no es diferente de la distancia euclidiana.
clustering
distance
mixed-type-data
Emrah Bilgiç
fuente
fuente
Gower
? stats.stackexchange.com/a/15313/3277Respuestas:
¿Qué hay de los atributos binarios que tienen los valores "m" y "f" para "masculino" y "femenino"?
¿Te das cuenta de que para una variable dicotómica, todo lo que puedes obtener es "igual" o "diferente"? La diferencia de puntos clave entre distancias no es si el valor es 1 o 0; pero cómo se combinan múltiples variables.
fuente
La distancia de Gower usa Manhattan para calcular la distancia entre puntos de datos continuos y Dice para calcular la distancia entre puntos de datos categóricos
fuente