Estoy haciendo un análisis de Matlab en datos de MRI donde realicé PCA en una matriz de tamaño 10304x236 donde 10304 es el número de vóxeles (piense en ellos como píxeles) y 236 es el número de puntos de tiempo. El PCA me da 236 valores propios y sus coeficientes relacionados. Todo esta bien. Sin embargo, cuando llega el momento de decidir cuántos componentes retener, el documento que estoy replicando dice lo siguiente (por favor, avíseme si necesita alguna aclaración, ya que esto es solo una breve parte de todo el documento):
Luego realizamos simulaciones de Monte Carlo para determinar el número de componentes principales (PC) para extraer de los molestos datos de ROI para cada escaneo. Se generó una distribución nula de los valores propios esperados por separado para la codificación y los datos de reposo para cada sujeto mediante la realización de PCA en datos normalmente distribuidos de igual rango a los datos de ROI de codificación y resto molestos. Luego, se seleccionaron las PC de los datos de ROI de molestias verdaderas para un descanso dado o una exploración de codificación si sus valores propios asociados excedían el 99º intervalo de confianza de los valores propios de las simulaciones de Monte Carlo.
No tengo ni idea de qué hacer aquí. Estoy acostumbrado a elegir componentes basados en la varianza acumulativa explicada. Sin embargo, mi pensamiento es este:
Luego realizamos simulaciones de Monte Carlo para determinar el número de componentes principales (PC) para extraer de los molestos datos de ROI para cada escaneo.
Los simuladores de Monte Carlo solo quieren hacer las siguientes 1000 (o tal) veces, ¿verdad?
Se generó una distribución nula de los valores propios esperados al realizar PCA en datos normalmente distribuidos de igual rango a los datos de ROI de codificación y resto de molestias.
En primer lugar, supongo que 'igual rango' básicamente significará que crearé una matriz del mismo tamaño que el original (10304x236). En términos de 'datos normalmente distribuidos de igual rango' ... ¿significa esto que debería crear una matriz de números aleatorios 10304x236 a partir de la distribución normal? Matlab tiene una función llamada 'normrnd' que hace esto pero requiere una entrada mu y sigma. ¿Usaría los mismos mu y sigma que los derivados del conjunto de datos inicial? ¿Es esto más o menos lo que se entiende por 'valores propios esperados' ya que no tengo idea de cómo sería una distribución de valores propios ESPERADOS?
Supongo que mi problema es más o menos que no sé cómo hacer una 'distribución nula' de valores propios.
fuente