Estoy familiarizado con el uso de las ideas de Random Matrix Theory para determinar el número de componentes principales del PCA de una matriz de covarianza / correlación para usar para formar factores.
Si el valor propio asociado con la primera PC es grande, significa que los valores propios restantes deben ser pequeños (ya que la suma de los valores propios debe ser igual a la traza de la matriz de correlación). Cuando la primera PC es lo suficientemente grande, es posible que todos estos valores propios estén por debajo de los límites inferiores en la distribución Marcenko-Pastur. Esto tiene sentido que sean bajos no debido a una posibilidad aleatoria, sino porque el primer valor propio es muy grande. Sin embargo, eso no significa que contengan información significativa. Más bien, tendría sentido hacer la pregunta "dado que la primera PC es un gran número, ¿cómo sería la distribución de los valores propios restantes si los datos aleatorios fueran responsables de ellos?"
¿Hay alguna investigación que aborde este problema? Si es posible obtener la distribución de Marcenko-Pastur condicional al conocimiento de uno o más valores propios, entonces sería posible proceder de forma iterativa para determinar si los factores reflejan información significativa.
Respuestas:
Aquí hay un documento sobre su problema: http://math.nyu.edu/faculty/avellane/LalouxPCA.pdf
La idea es simple: calcula la distribución de Marcenko-Pastur con una variación modificada de los elementos de la matriz. La varianza modificada simplemente corresponde a la varianza explicada por otro valor propio que no sea el primero.
Como dijo John, debe reemplazar por para los primeros valores propios deSi ha normalizado su problema y solo desea eliminar el primer componente, debe reemplazar por . Obtendrás:σ2 (∑ni=1λi−∑Jj=1λj)/n J σ2 1−λ1n
Con:
Como probablemente haya más información en su matriz que solo un gran valor propio y ruido, observará alguna diferencia. Por ejemplo, en los estudios de correlación de mercado, podemos observar una fuga de los valores propios por el borde superior del espectro. (Corresponde a sectores financieros).
Otro enfoque mencionado en el documento es considerar como un parámetro único en la distribución marcenko pastur. Luego debe ajustar este parámetro para que se ajuste a su curva.σ2
Para obtener más información sobre técnicas y referencias útiles, puede consultar: http://arxiv.org/abs/physics/0507111
fuente