Tengo 3 ensayos cada uno con 87 animales en cada uno de los 2 contextos (algunos datos faltantes; sin datos faltantes = 64 animales). Dentro de un contexto, tengo muchas medidas específicas (tiempo de entrar, el número de veces que regresan a la vivienda, etc.), por lo que quiero desarrollar 2 a 3 puntuaciones de conducta compuestas que describen el comportamiento en ese contexto (llamarlos C1
, C2
, C3
). Quiero C1
que eso signifique lo mismo en los 3 ensayos y 87 animales, de modo que pueda hacer una regresión para examinar el efecto de la edad, el sexo, el pedigrí y el animal individual sobre el comportamiento. Luego quiero examinar cómo se C1
relaciona con los puntajes de comportamiento en el otro contexto, dentro de la edad particular. (A los 1 años, ¿la actividad en el contexto 1 predice fuertemente la actividad en el contexto 2?)
Si no se tratara de medidas repetidas, un PCA funcionaría bien: haga un PCA en las medidas múltiples de un contexto, luego use PC1, PC2, etc. para examinar las relaciones (correlaciones de Spearman) entre PC1 en un contexto y PC1 (o 2 o 3) en el otro contexto. El problema son las medidas repetidas, que caen en pseudoreplicación. Un revisor me ha dicho categóricamente que no vaya, pero no puedo encontrar referencias claras sobre si esto es problemático al hacer la reducción de datos.
Mi razonamiento es el siguiente: las medidas repetidas no son un problema, porque lo que estoy haciendo en el PCA es puramente descriptivo con respecto a las medidas originales. Si declarara por fiat que estaba usando el tiempo para ingresar a la arena como mi medida de "audacia" en el contexto 1, tendría una medida de audacia en el contexto 1 que era comparable en todos los individuos de todas las edades y nadie se sorprendería. Si declaro por fiat que usaré tiempo para ingresar + 0.5 ⋅ tiempo para llegar al final, sucede lo mismo. Entonces, si estoy usando PCA solo con fines reductivos, ¿por qué no puede ser PC1? (Eso podría ser 0.28 ⋅ enter + 0.63 ⋅ finish + 0.02 ⋅ tiempo total ...), ¿cuál es al menos informado por mis múltiples medidas en lugar de adivinar que el tiempo de ingreso es un rasgo generalmente informativo y representativo?
(Tenga en cuenta que no estoy interesado en la estructura subyacente de las medidas ... mis preguntas son sobre lo que interpretamos que son los comportamientos específicos del contexto ". Si utilizo el contexto 1 y concluyo que Harry está activo en comparación con otros animales, ¿veo? ¿Harry activo en el contexto 2? Si cambia lo que interpretamos como actividad en el contexto 1 a medida que envejece, ¿también cambia su actividad en el contexto 2?)
He examinado PARAFAC y he examinado SEM, y no estoy convencido de que ninguno de estos enfoques sea mejor o más apropiado para el tamaño de mi muestra. ¿Alguien puede pesar? Gracias.
Respuestas:
Podrías mirar en el Análisis de Factor Múltiple . Esto se puede implementar en R con FactoMineR.
ACTUALIZAR:
Para explicarlo, Leann estaba proponiendo, aunque hace mucho tiempo, llevar a cabo un PCA en un conjunto de datos con medidas repetidas. Si entiendo la estructura de su conjunto de datos correctamente, para un "contexto" dado tenía una
x
matriz de "medida específica" de animales (tiempo de ingreso, número de veces que regresaba al refugio, etc.). Cada uno de los 64 animales (aquellos sin falta de obs.) Fueron seguidos tres veces. Vamos a decir que ella tenía 10 'medidas concretas', por lo que tendría entonces tres de 64 × 10 matrices en el comportamiento de los animales (que podemos llamar las matricesX1
,X2
,X3
). Para ejecutar un PCA en las tres matrices simultáneamente, tendría que 'unir filas' a las tres matrices (p. Ej.PCA(rbind(X1,X2,X3))
) Pero esto ignora el hecho de que la primera y la 64a observación están en el mismo animal. Para sortear este problema, puede 'unir en columna' las tres matrices y ejecutarlas a través de un Análisis de Factor Múltiple. MFA es una forma útil de analizar múltiples conjuntos de variables medidas en los mismos individuos u objetos en diferentes momentos. Podrá extraer los componentes principales del MFA de la misma manera que en un PCA, pero tendrá una sola coordenada para cada animal. Los objetos animales ahora habrán sido colocados en un espacio de compromiso multivariado delimitado por sus tres observaciones.Ella podría ejecutar el análisis usando el paquete FactoMineR en R. El código de ejemplo se vería así:
Además, en lugar de extraer los primeros tres componentes del MFA y someterlos a una regresión múltiple, podría pensar en proyectar sus variables explicativas directamente en el MFA como 'tablas suplementarias' (ver
?FactoMineR
). Otro enfoque sería calcular una matriz de distancia euclidiana de las coordenadas del objeto a partir del MFA (pdist1=vegdist(mfa1$ind$coord, "euc")
. Ej. ) Y ponerla a través de una RDAdist1
en función de las variables específicas del animal (p. Ej.,rda(dist1~age+sex+pedigree)
Usando el paquete vegano).fuente
Es común usar PCA cuando se analizan medidas repetidas (p. Ej., Se usa para analizar datos de ventas, precios de acciones y tipos de cambio). )
Una publicación de un estadístico bastante bueno es: Bradlow, ET (2002). " Explorando conjuntos de datos de medidas repetidas para características clave utilizando el análisis de componentes principales " . Journal of Research in Marketing 19: 167-179.
fuente