Preguntas:
Tengo una gran matriz de correlación. En lugar de agrupar correlaciones individuales, quiero agrupar variables basadas en sus correlaciones entre sí, es decir, si la variable A y la variable B tienen correlaciones similares a las variables C a Z, entonces A y B deberían ser parte del mismo grupo. Un buen ejemplo de esto en la vida real son las diferentes clases de activos: las correlaciones intraclase son más altas que las correlaciones entre clases de activos.
También estoy considerando agrupar variables en términos de relación de resistencia entre ellas, por ejemplo, cuando la correlación entre las variables A y B es cercana a 0, actúan de manera más o menos independiente. Si de repente algunas condiciones subyacentes cambian y surge una fuerte correlación (positiva o negativa), podemos pensar que estas dos variables pertenecen al mismo grupo. Entonces, en lugar de buscar una correlación positiva, uno buscaría relación versus no relación. Supongo que una analogía podría ser un grupo de partículas cargadas positiva y negativamente. Si la carga cae a 0, la partícula se aleja del grupo. Sin embargo, tanto las cargas positivas como negativas atraen partículas a grupos reveladores.
Pido disculpas si algo de esto no está muy claro. Por favor, hágamelo saber, aclararé detalles específicos.
fuente
Respuestas:
Aquí hay un ejemplo simple en R usando el
bfi
conjunto de datos: bfi es un conjunto de datos de 25 elementos de prueba de personalidad organizados en torno a 5 factores.Un análisis de agrupamiento jerárquico utilizando la distancia euclidan entre variables basado en la correlación absoluta entre variables puede obtenerse así:
El dendrograma muestra cómo los elementos generalmente se agrupan con otros elementos de acuerdo con agrupaciones teorizadas (p. Ej., N (Neuroticismo) se agrupan). También muestra cómo algunos elementos dentro de los grupos son más similares (por ejemplo, C5 y C1 podrían ser más similares que C5 con C3). También sugiere que el grupo N es menos similar a otros grupos.
Alternativamente, podría hacer un análisis factorial estándar como este:
fuente
Cuando se agrupan correlaciones, es importante no calcular la distancia dos veces. Cuando tomas la matriz de correlación, en esencia estás haciendo un cálculo de distancia. Deberá convertirlo a una distancia real tomando 1, el valor absoluto.
Cuando vaya a convertir esta matriz en un objeto de distancia, si utiliza la función dist, tomará las distancias entre sus correlaciones. En su lugar, desea utilizar la
as.dist()
función que simplemente transformará sus distancias precalculadas en un"dist"
objeto.Aplicando este método al ejemplo de Alglim
da como resultado un dendroggrama diferente
fuente