Suponiendo que tengo un conjunto de datos con dimensiones (por ejemplo, ) de modo que cada dimensión es iid (alternativamente, cada dimensión ) e independiente de El uno al otro.
Ahora dibujo un objeto aleatorio de este conjunto de datos y tomo el vecinos más cercanos y calculo PCA en este conjunto. En contraste con lo que uno podría esperar, los valores propios no son todos iguales. En 20 dimensiones uniformes, un resultado típico se ve así:
0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605,
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128,
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156,
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625
Para los datos distribuidos normales, los resultados parecen ser muy similares, al menos al reescalarlos a una suma total de (la distribución claramente tiene una mayor varianza en primer lugar).
Me pregunto si hay algún resultado que prediga este comportamiento. Estoy buscando una prueba si la serie de valores propios es algo regular, y cuántos de los valores propios son los esperados y cuáles difieren significativamente de los valores esperados.
Para un tamaño de muestra dado (pequeño) , ¿hay un resultado si un coeficiente de correlación para dos variables es significativo? Incluso las variables iid tendrán un resultado distinto de 0 ocasionalmente para bajo .
fuente
Respuestas:
Existe una gran literatura sobre la distribución de valores propios para matrices aleatorias (puede intentar buscar en Google la teoría de matrices aleatorias). En particular, la distribución de Marcenko-Pastur predice la distribución de valores propios para la matriz de covarianza de los datos de con media de cero e igual varianza a medida que el número de variables y observaciones llega al infinito. Estrechamente relacionado está la distribución de semicírculo de Wigner.i.i.d.
fuente