He estado buscando en Internet a lo largo y ancho ... Todavía no he encontrado una buena visión general de cómo interpretar los gráficos de análisis de correspondencia 2D. ¿Podría alguien ofrecer algún consejo para interpretar las distancias entre puntos?
Quizás un ejemplo ayudaría, aquí hay una trama que se encuentra en muchos de los sitios web que he visto que analizan el análisis de correspondencia. Los triángulos rojos representan el color de los ojos y los puntos negros representan el color del cabello.
Mirando el gráfico anterior, ¿podría hacer algunas declaraciones sobre lo que ve en estos datos? ¿Puntos de interés sobre las diferentes dimensiones y relaciones entre triángulos y puntos?
Una explicación de los puntos de fila frente a los puntos de columna, y el uso de la palabra "perfil" con un enfoque particular en el ejemplo sería instrumental.
fuente
Respuestas:
Primero, hay diferentes formas de construir los llamados biplots en el caso del análisis de correspondencia. En todos los casos, la idea básica es encontrar una manera de mostrar la mejor aproximación 2D de las "distancias" entre las celdas de fila y de columna. En otras palabras, buscamos una jerarquía (también hablamos de "ordenación") de las relaciones entre filas y columnas de una tabla de contingencia.
Muy brevemente, CA descompone la estadística de chi-cuadrado asociada con la tabla de dos vías en factores ortogonales que maximizan la separación entre los puntajes de fila y columna (es decir, las frecuencias calculadas a partir de la tabla de perfiles). Aquí, verá que hay alguna conexión con PCA pero la medida de varianza (o la métrica) retenida en CA es el , que solo depende de los perfiles de columna (ya que tiende a dar más importancia a las modalidades que tienen valores marginales grandes , también podemos volver a ponderar los datos iniciales, pero esta es otra historia).χ2
Aquí hay una respuesta más detallada. La implementación que se propone en laRtC= N norte
corresp()
función (enMASS
) se deduce de una vista de CA como una descomposición SVD de matrices codificadas ficticias que representan las filas y columnas (de modo que , con N la muestra total). Esto está a la luz con el análisis de correlación canónica. Por el contrario, la escuela francesa de análisis de datos considera a CA como una variante del PCA, donde busca las direcciones que maximizan la "inercia" en la nube de datos. Esto se hace diagonalizando la matriz de inercia calculada a partir de la tabla bidireccional centrada y escalada (por frecuencias marginales), y expresando perfiles de fila y columna en este nuevo sistema de coordenadas.Si considera una tabla con filas y j = 1 , ... , J columnas, cada fila se pondera por su suma marginal correspondiente que produce una serie de frecuencias condicionales asociadas a cada fila: f j | i = n i j / n i ⋅ . La columna marginal se llama perfil medio (para filas). Esto nos da un vector de coordenadas, también llamado perfil (por fila). Para la columna, tenemos f i | ji = 1 , ... , yo j = 1 , ... , J Fj | yo= nyo j/ nyo ⋅ . En ambos casos, consideraremos losperfiles de fila I (asociados a su peso f i ⋅ ) como individuos en el espacio de la columna, y losperfiles de columna J (asociados a su peso f ⋅ j ) como individuos en el espacio de la fila. La métrica utilizada para calcular la proximidad entre dos individuos es ladistancia χ 2 . Por ejemplo, entre dos filas i e i ′ , tenemosFyo | j= nyo j/ n⋅ j yo Fyo ⋅ J F⋅ j χ2 yo yo′
chisq.test(tab)$expected-chisq.test(tab)$observed
En realidad, hay varios paquetes que pueden proporcionarle las CA mejoradas en comparación con la función disponible en el
MASS
paquete: ade4 , FactoMineR , Anacor , y ca .La última es la que se utilizó para su ilustración en particular, y se publicó un artículo en el Journal of Statistical Software que explica la mayor parte de sus funcionalidades: Análisis de Correspondencias en R, con gráficos bidimensionales y tridimensionales: la ca paquete .
Por lo tanto, su ejemplo sobre los colores de ojos / cabello se puede reproducir de muchas maneras:
En todos los casos, lo que leemos en el biplot resultante es básicamente (limito mi interpretación al primer eje que explica la mayor parte de la inercia):
Hay muchos recursos adicionales sobre análisis de datos en el laboratorio de bioinformática de Lyon, en Francia. Esto es principalmente en francés, pero creo que no sería un problema para ti. Los siguientes dos folletos deberían ser interesantes como primer comienzo:
fuente
vcd
yvcdExtra
paquetes R, este último incluye una bonita viñeta).cor
es la correlación al cuadrado con el eje yctr
es la contribución (debe dividirse entre 10 para leerse como%). Entonces, el "cabello rojo" contribuye con el 55.1% de la inercia del segundo eje. En cierto sentido, encontré que la salida de FactoMineR es más "intuitiva" (CA(tab, graph=FALSE)$row$contrib
le da directamente el%).