Agrupación jerárquica con variables categóricas.

11

¿Se pueden usar variables categóricas en la agrupación jerárquica? He escuchado que solo se usan variables continuas, pero he visto personas que discuten variables categóricas que pueden o no usarse también. ¿Alguien puede dar una idea?

Tormenta de viento1981
fuente
2
Sí, por supuesto, los datos categóricos son frecuentemente un tema de análisis de conglomerados, especialmente jerárquicos. Existen muchas medidas de proximidad para variables binarias (incluidos conjuntos ficticios que son basura de variables categóricas); También medidas de entropía. Los grupos de casos serán las combinaciones frecuentes de atributos, y varias medidas dan su especia específica para el cálculo de frecuencia. Un problema con la agrupación de datos categóricos es la estabilidad de las soluciones. Y esta pregunta reciente plantea el tema de la correlación variable.
ttnphns
Busque en este sitio para hierarchical clustering categoricalleer hilos relacionados.
ttnphns
Posible duplicado de la agrupación de datos de tipo mixto con R
kjetil b halvorsen
No creo que esto sea un duplicado, exactamente. La pregunta vinculada es sobre R, e incluso podría estar fuera de tema ahora. Esta pregunta es sobre estadísticas y no menciona un paquete de software.
Peter Flom
@ttnphns: ¿quieres publicar tus comentarios como respuesta? Es mejor tener una respuesta corta que ninguna respuesta. Cualquiera que tenga una mejor respuesta puede publicarlo.
Stephan Kolassa

Respuestas:

3

Sí, por supuesto, los datos categóricos son frecuentemente un tema de análisis de conglomerados, especialmente jerárquicos. Existen muchas medidas de proximidad para variables binarias (incluidos conjuntos ficticios que son basura de variables categóricas); También medidas de entropía. Los grupos de casos serán las combinaciones frecuentes de atributos, y varias medidas dan su especia específica para el cálculo de frecuencia. Un problema con la agrupación de datos categóricos es la estabilidad de las soluciones. Y esta pregunta reciente plantea el tema de la correlación variable.

mkt - Restablecer a Monica
fuente
Copié este comentario de @ttnphns como una respuesta wiki comunitaria porque el comentario es, más o menos, una respuesta a esta pregunta. Tenemos una brecha dramática entre las respuestas y las preguntas. Al menos parte del problema es que algunas preguntas se responden en comentarios: si los comentarios que respondieron a la pregunta fueran respuestas, tendríamos menos preguntas sin responder.
mkt - Restablece a Mónica el