Quiero asignar diferentes pesos a las variables en mi análisis de clúster, pero mi programa (Stata) no parece tener una opción para esto, así que necesito hacerlo manualmente.
Imagine 4 variables A, B, C, D. Los pesos para esas variables deben ser
w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%
Me pregunto si uno de los siguientes dos enfoques realmente funcionaría:
- Primero estandarizo todas las variables (por ejemplo, por su rango). Luego multiplico cada variable estandarizada con su peso. Luego haga el análisis de conglomerados.
- Multiplico todas las variables con su peso y las estandarizo después. Luego haga el análisis de conglomerados.
¿O son ambas ideas una completa tontería?
[EDITAR] Los algoritmos de agrupamiento (pruebo 3 diferentes) que deseo usar son k-means, enlace promedio ponderado y enlace promedio. Planeo usar un enlace de promedio ponderado para determinar una buena cantidad de grupos que luego conecto a k-means.
clustering
stata
SPi
fuente
fuente
Respuestas:
Una forma de asignar un peso a una variable es cambiando su escala. El truco funciona para los algoritmos de agrupación que menciona, a saber. k-medias, enlace promedio ponderado y enlace promedio.
Kaufman, Leonard y Peter J. Rousseeuw. " Encontrar grupos en datos: una introducción al análisis de conglomerados ". (2005) - página 11:
Abrahamowicz, M. (1985), El uso de información no numérica para medir diferencias, documento presentado en la Cuarta Reunión Europea de la Sociedad Psicométrica y las Sociedades de Clasificación, 2-5 de julio, Cambridge (Reino Unido).
Friedman, HP y Rubin, J. (1967), sobre algunos criterios invariables para agrupar datos. J. Amer Estadístico. ASSOC6., 2, 1159-1178.
Hardy, A. y Rasson, JP (1982). Anal. Donnies, 7, 41-56.
fuente