¿Hay alguna forma metódica de comparar las direcciones, las magnitudes, etc. de los resultados de PCA para diferentes muestras tomadas de la misma población?
Dejo la naturaleza de la prueba deliberadamente vaga porque me gustaría escuchar todas las diversas posibilidades ... por ejemplo, podría haber (y estoy especulando aquí) una prueba que compara los tamaños de los primeros componentes principales, o un prueba que compara las direcciones de los componentes principales, o hay algún tipo de medida de distancia entre los resultados de PCA y una estadística de prueba para su igualdad.
En cuanto a un caso de uso, no lo tengo en mente. Solo por curiosidad, tal vez como una técnica exploratoria.
hypothesis-testing
pca
variance
inference
Shadowtalker
fuente
fuente
Respuestas:
Por lo que yo entendí, te imaginas que tienes dos nubes de puntos cada una, en un espacio -dimensional; realiza PCA en cada nube por separado y luego desea comparar los resultados de PCA entre nubes y probar diferencias significativas en algunas de las características de PCA más importantes.norte re
No creo que haya pruebas estándar para este propósito. Para cualquier pregunta específica, uno probablemente puede encontrar algún método o prueba, pero su pregunta es demasiado amplia para tratar de encontrar alguna prueba posible.
Aún así, un enfoque general que viene a la mente es usar pruebas de permutación. Digamos que desea probar si PC1 en ambos conjuntos de muestras ("nubes") son diferentes. Puedes calcular el ángulo entre ellos. Luego, se agrupan los puntos en una gran nube, se divide al azar en dos nubes de tamaño (esto generalmente se denomina "mezclar las etiquetas"), ejecuta dos PCA y calculaθ 2 n norte θ entre dos PC1. Las divisiones aleatorias se pueden realizar muchas veces (por ejemplo, veces), lo que resulta en una distribución de esperada bajo una hipótesis nula de que no hay diferencia entre las nubes. Luego simplemente compara tu real con esta distribución y obtienes un10000 θ θ pags -valor.
Se puede usar el mismo enfoque para comparar, por ejemplo, los valores propios más grandes. O los valores propios más pequeños. O en realidad casi cualquier cosa que quieras comparar.
Aparte de eso, si desea un estadístico de prueba para la "igualdad de resultados de PCA" en general, entonces tal vez debería simplemente usar una prueba que compare dos matrices de covarianza (sin hacer ningún PCA en absoluto). Por ejemplo, la prueba M de Box (que es una generalización multivariada de un prueba de Bartlett para la igualdad de varianzas).
fuente
supongamos que tiene el conjunto de muestras 2 1 y 2, y encontró sus componentes principales 1 a enésimo que pueden mapear el 90% de la información (n puede ser diferente para ambos, y 90 es arbitrario).
Puede calcular qué parte de la información en set1 se puede retener después de asignar a sus componentes principales el espacio y viceversa. Establezca un umbral para la cantidad de información que está dispuesto a perder antes de declarar que el nuevo conjunto es lo suficientemente diferente como para merecer sus propios componentes principales.
fuente