Quiero usar el Criterio de información de Akaike (AIC) para elegir el número apropiado de factores para extraer en un PCA. El único problema es que no estoy seguro de cómo determinar el número de parámetros.
Considere una matriz , donde representa el número de variables y el número de observaciones, de modo que . Dado que la matriz de covarianza es simétrica, una estimación de probabilidad máxima de podría establecer el número de parámetros en el AIC igual a .X N T X ∼ N ( 0 , Σ ) Σ N ( N + 1 )
Alternativamente, en una PCA, puede extraer los primeros vectores propios y valores propios de , llamarlos y y luego calcular donde es la varianza residual promedio. Según mi cuenta, si tiene factores , entonces tendría parámetros en , parámetros en y parámetro en .Σ β f Λ f Σ = β f Λ f β ′ f + I σ 2 r σ 2 r f f Λ f N f β f 1 σ 2 r
¿Es correcto este enfoque? Parece que conduciría a más parámetros que el método de máxima verosimilitud como el número de factores se incrementa a .
fuente
Respuestas:
Claramente, esto toma un punto de vista bayesiano de su problema que no se basa en los criterios de teoría de la información (divergencia KL) utilizados por AIC.
Con respecto a la pregunta original de "determinación del número de parámetros", también creo que el comentario de @ whuber lleva la intuición correcta.
fuente
La selección de un número "apropiado" de componentes en PCA se puede realizar de manera elegante con el Análisis paralelo de Horn (PA). Los documentos muestran que este criterio supera constantemente las reglas generales, como el criterio del codo o la regla de Kaiser. El paquete R "paran" tiene una implementación de PA que requiere solo un par de clics del mouse.
Por supuesto, cuántos componentes retiene depende de los objetivos de la reducción de datos. Si solo desea retener la varianza que es "significativa", la PA dará una reducción óptima. Sin embargo, si desea minimizar la pérdida de información de los datos originales, debe retener suficientes componentes para cubrir una variación explicada del 95%. Obviamente, esto mantendrá muchos más componentes que PA, aunque para conjuntos de datos de alta dimensión, la reducción de dimensionalidad seguirá siendo considerable.
Una nota final sobre PCA como un problema de "selección de modelo". No estoy totalmente de acuerdo con la respuesta de Peter. Ha habido una serie de documentos que reformularon PCA como un problema de tipo de regresión, como Sparse PCA, Sparse Probabilistic PCA o ScotLASS. En estas soluciones PCA "basadas en modelos", las cargas son parámetros que se pueden establecer en 0 con los términos de penalización apropiados. Presumiblemente, en este contexto, también sería posible calcular estadísticas de tipo AIC o BIC para el modelo en consideración.
Este enfoque podría incluir teóricamente un modelo en el que, por ejemplo, dos PC no tienen restricciones (todas las cargas no son cero), en comparación con un modelo en el que PC1 no tiene restricciones y PC2 tiene todas las cargas en 0. Esto sería equivalente a inferir si PC2 es redundante en conjunto.
Referencias (PA) :
fuente
AIC está diseñado para la selección del modelo. Esto no es realmente un problema de selección de modelo y quizás sea mejor que adoptes un enfoque diferente. Una alternativa podría ser especificar un cierto porcentaje total de varianza explicado (como digamos 75%) y detenerse cuando el porcentaje alcanza el 75% si alguna vez lo hace.
fuente
AIC no es apropiado aquí. No está seleccionando entre modelos con un número variable de parámetros: un componente principal no es un parámetro.
Existen varios métodos para decidir la cantidad de factores o componentes de un análisis factorial o análisis de componentes principales: prueba de pantalla, valor propio> 1, etc. Pero la prueba real es sustantiva: ¿qué cantidad de factores tiene sentido ? Observe los factores, considere los pesos y descubra cuál se adapta mejor a sus datos.
Al igual que otras cosas en las estadísticas, esto no es algo que pueda automatizarse fácilmente.
fuente