¿Puedo hacer un PCA sobre medidas repetidas para la reducción de datos?

13

Tengo 3 ensayos cada uno con 87 animales en cada uno de los 2 contextos (algunos datos faltantes; sin datos faltantes = 64 animales). Dentro de un contexto, tengo muchas medidas específicas (tiempo de entrar, el número de veces que regresan a la vivienda, etc.), por lo que quiero desarrollar 2 a 3 puntuaciones de conducta compuestas que describen el comportamiento en ese contexto (llamarlos C1, C2, C3). Quiero C1que eso signifique lo mismo en los 3 ensayos y 87 animales, de modo que pueda hacer una regresión para examinar el efecto de la edad, el sexo, el pedigrí y el animal individual sobre el comportamiento. Luego quiero examinar cómo se C1relaciona con los puntajes de comportamiento en el otro contexto, dentro de la edad particular. (A los 1 años, ¿la actividad en el contexto 1 predice fuertemente la actividad en el contexto 2?)

Si no se tratara de medidas repetidas, un PCA funcionaría bien: haga un PCA en las medidas múltiples de un contexto, luego use PC1, PC2, etc. para examinar las relaciones (correlaciones de Spearman) entre PC1 en un contexto y PC1 (o 2 o 3) en el otro contexto. El problema son las medidas repetidas, que caen en pseudoreplicación. Un revisor me ha dicho categóricamente que no vaya, pero no puedo encontrar referencias claras sobre si esto es problemático al hacer la reducción de datos.

Mi razonamiento es el siguiente: las medidas repetidas no son un problema, porque lo que estoy haciendo en el PCA es puramente descriptivo con respecto a las medidas originales. Si declarara por fiat que estaba usando el tiempo para ingresar a la arena como mi medida de "audacia" en el contexto 1, tendría una medida de audacia en el contexto 1 que era comparable en todos los individuos de todas las edades y nadie se sorprendería. Si declaro por fiat que usaré tiempo para ingresar + 0.5 tiempo para llegar al final, sucede lo mismo. Entonces, si estoy usando PCA solo con fines reductivos, ¿por qué no puede ser PC1? (Eso podría ser 0.28 enter + 0.63 finish + 0.02 0.5 0.5+ 0.5 0.50.28+ 0,63+ 0,02 tiempo total ...), ¿cuál es al menos informado por mis múltiples medidas en lugar de adivinar que el tiempo de ingreso es un rasgo generalmente informativo y representativo?

(Tenga en cuenta que no estoy interesado en la estructura subyacente de las medidas ... mis preguntas son sobre lo que interpretamos que son los comportamientos específicos del contexto ". Si utilizo el contexto 1 y concluyo que Harry está activo en comparación con otros animales, ¿veo? ¿Harry activo en el contexto 2? Si cambia lo que interpretamos como actividad en el contexto 1 a medida que envejece, ¿también cambia su actividad en el contexto 2?)

He examinado PARAFAC y he examinado SEM, y no estoy convencido de que ninguno de estos enfoques sea mejor o más apropiado para el tamaño de mi muestra. ¿Alguien puede pesar? Gracias.

Apoyarse
fuente
¿Entendí que corrigió que tiene 2 factores dentro del sujeto: 1) contexto, que difiere según alguna condición experimental (por ejemplo, experimento interior versus experimento exterior), 2) prueba, que es simplemente una repetición, un intento, de experimento. Y le gustaría hacer un PCA en cada una de las condiciones, pero le impide que haya realizado no una sino varias pruebas del experimento.
ttnphns
Los dos contextos son dos pruebas separadas, y las medidas tomadas en cada una son diferentes. Dicho eso, sí, entiendes mi situación.
Leann
¿Qué pasa con eludir el problema y ejecutar un PCA en los medios en las tres pruebas?
Gala

Respuestas:

7

Podrías mirar en el Análisis de Factor Múltiple . Esto se puede implementar en R con FactoMineR.

ACTUALIZAR:

Para explicarlo, Leann estaba proponiendo, aunque hace mucho tiempo, llevar a cabo un PCA en un conjunto de datos con medidas repetidas. Si entiendo la estructura de su conjunto de datos correctamente, para un "contexto" dado tenía una xmatriz de "medida específica" de animales (tiempo de ingreso, número de veces que regresaba al refugio, etc.). Cada uno de los 64 animales (aquellos sin falta de obs.) Fueron seguidos tres veces. Vamos a decir que ella tenía 10 'medidas concretas', por lo que tendría entonces tres de 64 × 10 matrices en el comportamiento de los animales (que podemos llamar las matrices X1, X2, X3). Para ejecutar un PCA en las tres matrices simultáneamente, tendría que 'unir filas' a las tres matrices (p. Ej.PCA(rbind(X1,X2,X3))) Pero esto ignora el hecho de que la primera y la 64a observación están en el mismo animal. Para sortear este problema, puede 'unir en columna' las tres matrices y ejecutarlas a través de un Análisis de Factor Múltiple. MFA es una forma útil de analizar múltiples conjuntos de variables medidas en los mismos individuos u objetos en diferentes momentos. Podrá extraer los componentes principales del MFA de la misma manera que en un PCA, pero tendrá una sola coordenada para cada animal. Los objetos animales ahora habrán sido colocados en un espacio de compromiso multivariado delimitado por sus tres observaciones.

Ella podría ejecutar el análisis usando el paquete FactoMineR en R. El código de ejemplo se vería así:

df=data.frame(X1, X2, X3)
mfa1=MFA(df, group=c(10, 10, 10), type=c("s", "s", "s"), 
 name.group=c("Observation 1", "Observation 2", "Observation 3")) 
 #presuming the data is quantitative and needs to be scaled to unit variance

Además, en lugar de extraer los primeros tres componentes del MFA y someterlos a una regresión múltiple, podría pensar en proyectar sus variables explicativas directamente en el MFA como 'tablas suplementarias' (ver ?FactoMineR). Otro enfoque sería calcular una matriz de distancia euclidiana de las coordenadas del objeto a partir del MFA (p dist1=vegdist(mfa1$ind$coord, "euc"). Ej. ) Y ponerla a través de una RDA dist1en función de las variables específicas del animal (p. Ej., rda(dist1~age+sex+pedigree)Usando el paquete vegano).

Kyle
fuente
2
Hola Kyle, gracias por tu respuesta. Sin embargo, las respuestas que consisten esencialmente en poco más que un enlace, o que solo tienen una longitud de oración, generalmente no se consideran respuestas, sino comentarios. En particular, las respuestas de solo enlace sufren de rotura de enlace, por lo que las respuestas deben tener suficiente información para ser útiles incluso si el enlace ya no funciona. ¿Puede por favor ampliar su respuesta un poco más, quizás dando un breve resumen de lo que es / cómo se relaciona con el análisis factorial en general?
Glen_b -Reinstalar Monica
(+1) Me doy cuenta de que esta es una publicación antigua, ¡pero esta respuesta es muy útil! Quizás la referencia debería agregarse por completo en caso de que el enlace muera: Abdi Hervé, Williams Lynne J., Valentin Domininique. Análisis de factores múltiples: análisis de componentes principales para conjuntos de datos multitarea y multibloque. WIREs Comp Stat 2013, 5: 149-179. doi: 10.1002 / wics.1246
Frans Rodenburg el