Agrupación de datos que tiene una mezcla de variables continuas y categóricas

8

Tengo datos que representan algún aspecto del comportamiento humano. Quiero agruparlo (sin supervisión) en perfiles de comportamiento de algún tipo. ahora, algunas de mis variables son categóricas (con 2 o más categorías), y algunas son continuas (la mayoría son porcentajes). Algunas variables son aún más complejas en que una categoría tiene más continua y la otra no tiene esos datos adicionales.

Mi pregunta es sobre cómo clasificar estos datos. ¿Cuáles son los enfoques (¿comunes?) Para tratarlo?

No necesito código ni nada, sino algunas referencias o instrucciones que me ayudarán a comprender mejor cómo enfrentar este desafío.

Si conoce Rfunciones que faciliten dicho análisis, sería excelente, pero no es necesario.

Gracias.

amit
fuente
2
La medida de similitud de Gower puede tomar simultáneamente datos continuos, ordinales, binarios y nominales. Puede utilizar métodos de agrupación como jerárquicos o medoides, para analizar la matriz de proximidad. Pocos otros métodos de agrupación (por ejemplo, agrupación TwoStep) pueden tomar variables continuas y nominales a la vez.
ttnphns
En cuanto a los porcentajes o recuentos, a veces se calculan medidas especiales de chi-cuadrado para ellos, y a veces se usa la distancia euclidiana habitual, como para datos continuos.
ttnphns
44
Con todo, agrupar datos de tipo mixto es algo complicado y podría ser solo para un analista de datos experimentado, tal vez. Por otro lado, la agrupación de dichos datos a menudo no es una buena idea, ya que existen problemas de estandarización, interpretación y análisis de contribución de características.
ttnphns

Respuestas:

1
  1. Dedique mucho tiempo a comprender la similitud de sus datos.
  2. Formalice su noción de similitud en una medida de similitud especializada, diseñada para su conjunto de datos en particular (es probable que no pueda utilizar una similitud lista para usar).
  3. Utilice un algoritmo de agrupación que pueda utilizar similitudes arbitrarias, como agrupación jerárquica, DBSCAN, propagación de afinidad o agrupación espectral.
HA SALIDO - Anony-Mousse
fuente