En estudios de asociación de genoma completo (GWAS):
- ¿Cuáles son los componentes principales?
- ¿Por qué se usan?
- ¿Cómo se calculan?
- ¿Se puede realizar un estudio de asociación de todo el genoma sin usar PCA?
En estudios de asociación de genoma completo (GWAS):
Respuestas:
En este contexto particular, PCA se utiliza principalmente para explicar las variaciones específicas de la población en la distribución de alelos en los SNP (u otros marcadores de ADN, aunque solo estoy familiarizado con el caso de SNP) bajo investigación. Dicha "subestructura de población" surge principalmente como consecuencia de frecuencias variables de alelos menores en ancestros genéticamente distantes (p. Ej. Japoneses y negros-africanos o europeos-americanos). La idea general está bien explicada en Estructura de población y análisis propio , por Patterson et al. ( PLoS Genetics 2006, 2 (12)), o el número especial de Lancet sobre epidemiología genética (2005, 366; la mayoría de los artículos se pueden encontrar en la web, comience con Cordell & Clayton, Genetic Association Studies ).
La construcción de ejes principales se deriva del enfoque clásico de PCA, que se aplica a la matriz escalada (individuos por SNP) de genotipos observados (AA, AB, BB; digamos B es el alelo menor en todos los casos), con la excepción de que se podría aplicar una normalización adicional para tener en cuenta la deriva de la población. Todo asume que la frecuencia del alelo menor (tomando el valor en {0,1,2}) puede considerarse como numérica, es decir, trabajamos bajo un modelo aditivo (también llamado dosis alélica) o cualquier equivalente que tenga sentido . Como las PC ortogonales sucesivas representarán la variación máxima, esto proporciona una forma de resaltar grupos de individuos que difieren en el nivel de frecuencia de alelos menores. El software utilizado para esto se conoce como Eigenstrat . También está disponible en el
egscore()
función del paquete GenABEL R (ver también GenABEL.org ). Vale la pena señalar que se propusieron otros métodos para detectar la subestructura de la población, en particular la reconstrucción de conglomerados basada en modelos (ver referencias al final). Se puede encontrar más información navegando por el proyecto Hapmap y el tutorial disponible del proyecto Bioconductor . (Busque los bonitos tutoriales de Vince J Carey o David Clayton en Google).Teniendo en cuenta que el análisis propio permite descubrir alguna estructura a nivel de los individuos, podemos utilizar esta información al intentar explicar las variaciones observadas en un fenotipo dado (o cualquier distribución que pueda definirse de acuerdo con un criterio binario, por ejemplo, enfermedad o control de casos). situación). Específicamente, podemos ajustar nuestro análisis con esas PC (es decir, las puntuaciones de los factores de los individuos), como se ilustra en el análisis de componentes principales corrige la estratificación en los estudios de asociación de todo el genoma , por Price et al. ( Nature Genetics 2006, 38 (8)), y trabajos posteriores (había una buena imagen que mostraba ejes de variación genética en Europa en Genes espejo geografía dentro de Europa; Nature 2008; Fig. 1A reproducida a continuación). Tenga en cuenta también que otra solución es llevar a cabo un análisis estratificado (incluyendo el origen étnico en un GLM); esto está fácilmente disponible en el paquete snpMatrix , por ejemplo.
Referencias
fuente