¿Existe una prueba / técnica / método para comparar las descomposiciones de componentes principales entre muestras?

8

¿Hay alguna forma metódica de comparar las direcciones, las magnitudes, etc. de los resultados de PCA para diferentes muestras tomadas de la misma población?

Dejo la naturaleza de la prueba deliberadamente vaga porque me gustaría escuchar todas las diversas posibilidades ... por ejemplo, podría haber (y estoy especulando aquí) una prueba que compara los tamaños de los primeros componentes principales, o un prueba que compara las direcciones de los componentes principales, o hay algún tipo de medida de distancia entre los resultados de PCA y una estadística de prueba para su igualdad.

En cuanto a un caso de uso, no lo tengo en mente. Solo por curiosidad, tal vez como una técnica exploratoria.

Shadowtalker
fuente
¿Se imagina dos conjuntos de muestras que pueblan el mismo espacio (es decir, tienen las mismas características)? Básicamente, dos nubes de puntos diferentes, ¿es eso correcto? ¿Asume que las nubes tienen el mismo número de puntos, o no necesariamente?
ameba
Sí, lo siento, estas son dos muestras de la misma población. Si es una respuesta diferente para muestras de tamaños desiguales, me gustaría saberlo.
shadowtalker
Buscar en Google el término "análisis factorial multigrupo" ofrece muchos enlaces, es un área ampliamente discutida (y creo que bien). Si no recuerdo mal, incluso hay algún software especializado
Gottfried Helms el

Respuestas:

6

Por lo que yo entendí, te imaginas que tienes dos nubes de puntos cada una, en un espacio -dimensional; realiza PCA en cada nube por separado y luego desea comparar los resultados de PCA entre nubes y probar diferencias significativas en algunas de las características de PCA más importantes.nortere

No creo que haya pruebas estándar para este propósito. Para cualquier pregunta específica, uno probablemente puede encontrar algún método o prueba, pero su pregunta es demasiado amplia para tratar de encontrar alguna prueba posible.

Aún así, un enfoque general que viene a la mente es usar pruebas de permutación. Digamos que desea probar si PC1 en ambos conjuntos de muestras ("nubes") son diferentes. Puedes calcular el ángulo entre ellos. Luego, se agrupan los puntos en una gran nube, se divide al azar en dos nubes de tamaño (esto generalmente se denomina "mezclar las etiquetas"), ejecuta dos PCA y calculaθ2nortenorteθ entre dos PC1. Las divisiones aleatorias se pueden realizar muchas veces (por ejemplo, veces), lo que resulta en una distribución de esperada bajo una hipótesis nula de que no hay diferencia entre las nubes. Luego simplemente compara tu real con esta distribución y obtienes un10000θθpags-valor.

Se puede usar el mismo enfoque para comparar, por ejemplo, los valores propios más grandes. O los valores propios más pequeños. O en realidad casi cualquier cosa que quieras comparar.

Aparte de eso, si desea un estadístico de prueba para la "igualdad de resultados de PCA" en general, entonces tal vez debería simplemente usar una prueba que compare dos matrices de covarianza (sin hacer ningún PCA en absoluto). Por ejemplo, la prueba M de Box (que es una generalización multivariada de un prueba de Bartlett para la igualdad de varianzas).

ameba
fuente
+1 que probablemente tenga más sentido comparar las matrices de covarianza directamente
Andrew M
1
Al releer su respuesta, se me ocurrió que el ángulo promedio entre los ejes principales de correpsondjng es probablemente algo similar a lo que estaba buscando.
shadowtalker
1

supongamos que tiene el conjunto de muestras 2 1 y 2, y encontró sus componentes principales 1 a enésimo que pueden mapear el 90% de la información (n puede ser diferente para ambos, y 90 es arbitrario).

Puede calcular qué parte de la información en set1 se puede retener después de asignar a sus componentes principales el espacio y viceversa. Establezca un umbral para la cantidad de información que está dispuesto a perder antes de declarar que el nuevo conjunto es lo suficientemente diferente como para merecer sus propios componentes principales.

Dan Erez
fuente