Se conoce la distribución de valores propios dado uno

8

Estoy familiarizado con el uso de las ideas de Random Matrix Theory para determinar el número de componentes principales del PCA de una matriz de covarianza / correlación para usar para formar factores.

Si el valor propio asociado con la primera PC es grande, significa que los valores propios restantes deben ser pequeños (ya que la suma de los valores propios debe ser igual a la traza de la matriz de correlación). Cuando la primera PC es lo suficientemente grande, es posible que todos estos valores propios estén por debajo de los límites inferiores en la distribución Marcenko-Pastur. Esto tiene sentido que sean bajos no debido a una posibilidad aleatoria, sino porque el primer valor propio es muy grande. Sin embargo, eso no significa que contengan información significativa. Más bien, tendría sentido hacer la pregunta "dado que la primera PC es un gran número, ¿cómo sería la distribución de los valores propios restantes si los datos aleatorios fueran responsables de ellos?"

¿Hay alguna investigación que aborde este problema? Si es posible obtener la distribución de Marcenko-Pastur condicional al conocimiento de uno o más valores propios, entonces sería posible proceder de forma iterativa para determinar si los factores reflejan información significativa.

Juan
fuente
¿Estás hablando solo de datos aleatorios de un factor (esferoide aleatorio)?
ttnphns
No estoy seguro de qué quiere decir con esferoide aleatorio, pero en general podría haber más de un factor para evaluar. Lo resolví para que el problema del valor propio condicional se pueda escribir como , donde son los vectores propios asociados con el valores propios más grandes, pero lo que pude encontrar como las desigualdades que unen los valores propios del producto de dos matrices parecía bastante amplio. eig(Σ(Iββ)(Iββ))βn
John
Pensándolo bien por un segundo, creo que obtuve los resultados correctos. λ~±=(1+1Q±21Q)(i=1nλij=1Jλj)/n
Juan

Respuestas:

3

Aquí hay un documento sobre su problema: http://math.nyu.edu/faculty/avellane/LalouxPCA.pdf

La idea es simple: calcula la distribución de Marcenko-Pastur con una variación modificada de los elementos de la matriz. La varianza modificada simplemente corresponde a la varianza explicada por otro valor propio que no sea el primero.

Como dijo John, debe reemplazar por para los primeros valores propios deSi ha normalizado su problema y solo desea eliminar el primer componente, debe reemplazar por . Obtendrás:σ2(i=1nλij=1Jλj)/nJσ21λ1n

ρ(λ)=nQ2π(1λ1)((λmaxλ)(λλmin)λ)

Con:

λmin/max=n(1λ1)(1+1Q±21Q)

Como probablemente haya más información en su matriz que solo un gran valor propio y ruido, observará alguna diferencia. Por ejemplo, en los estudios de correlación de mercado, podemos observar una fuga de los valores propios por el borde superior del espectro. (Corresponde a sectores financieros).

Otro enfoque mencionado en el documento es considerar como un parámetro único en la distribución marcenko pastur. Luego debe ajustar este parámetro para que se ajuste a su curva.σ2

Para obtener más información sobre técnicas y referencias útiles, puede consultar: http://arxiv.org/abs/physics/0507111

lcrmorin
fuente
Esta fórmula también necesita revisar Q ya que el número de columnas se ha reducido en 1.
Rohit Arora