No sé qué función de distancia entre individuos usar en caso de atributos nominales (categóricos no ordenados). Estaba leyendo un libro de texto y sugieren una función de coincidencia simple , pero algunos libros sugieren que debería cambiar los atributos nominales a binarios y usar el coeficiente Jaccard . Sin embargo, ¿qué sucede si los valores del atributo nominal no son 2? ¿Qué pasa si hay tres o cuatro valores en ese atributo?
¿Qué función de distancia debo usar para los atributos nominales?
Respuestas:
Técnicamente, para calcular una medida dis (similitud) entre individuos en atributos nominales, la mayoría de los programas primero recodifican cada variable nominal en un conjunto de variables binarias ficticias y luego calculan alguna medida para las variables binarias. Aquí hay fórmulas de algunas medidas de similitud y disimilitud binarias de uso frecuente .
¿Qué son las variables ficticias (también llamadas one-hot)? A continuación hay 5 individuos, dos variables nominales (A con 3 categorías, B con 2 categorías). 3 muñecos creados en lugar de A, 2 muñecos creados en lugar de B.
(No es necesario eliminar una variable ficticia como "redundante", ya que normalmente lo haríamos en regresión con dummies. No se practica en agrupamiento, aunque en situaciones especiales podría considerar esa opción).
Hay muchas medidas para las variables binarias, sin embargo, no todas ellas se adaptan lógicamente a las variables binarias ficticias , es decir, las anteriores nominales. Usted ve, para una variable nominal, el hecho de que "los 2 individuos coinciden" y el hecho de que "los 2 individuos no coinciden" son de igual importancia. Pero considere la popular medida Jaccard , dondeunaa + b + c
La validez intuitiva del coeficiente de similitud de dados proviene del hecho de que es simplemente la proporción de coincidencia (o acuerdo relativo ). Para el fragmento de datos anterior, tome la columna nominal
A
y calcule la5x5
matriz simétrica cuadrada con1
(ambos individuos cayeron en la misma categoría) o0
(no en la misma categoría). Calcule igualmente la matriz paraB
.Suma las entradas correspondientes de las dos matrices y divide por 2 (número de variables nominales): aquí estás con la matriz de coeficientes Dice. (Por lo tanto, en realidad no tiene que crear dummies para calcular Dice, con operaciones matriciales probablemente pueda hacerlo más rápido de la manera que se acaba de describir). Consulte un tema relacionado en Dice para la asociación de atributos nominales .
Aunque Dice es la medida más aparente para usar cuando se desea una función de (des) similitud entre los casos en que los atributos son categóricos, se podrían usar otras medidas binarias, si su fórmula satisface las consideraciones sobre sus datos nominales.
Pero ...
Dado que en muchas aplicaciones de una matriz de proximidad, como en muchos métodos de análisis de conglomerados, los resultados no cambiarán o cambiarán sin problemas bajo una transformación lineal (y a veces incluso bajo monotónica) de las proximidades, parece que uno puede estar justificado a un gran número de medidas binarias además de dados para obtener resultados iguales o similares. Pero primero debe considerar / explorar cómo reacciona el método específico (por ejemplo, una vinculación en la agrupación jerárquica) a una transformación dada de proximidades.
Si su agrupación planificada o análisis de MDS es sensible a las transformaciones monótonas de distancias, es mejor que se abstenga de usar las medidas indicadas como "monótonas" en la tabla anterior (y, por lo tanto, sí, no es una buena idea usar la similitud de Jaccard o la distancia euclidiana no cuadrada con el maniquí) , es decir, atributos nominales anteriores).
fuente