En los estudios de asociación de todo el genoma, ¿cuáles son los componentes principales?

En este contexto particular, PCA se utiliza principalmente para explicar las variaciones específicas de la población en la distribución de alelos en los SNP (u otros marcadores de ADN, aunque solo estoy familiarizado con el caso de SNP) bajo investigación. Dicha "subestructura de población" surge principalmente como consecuencia de frecuencias variables de alelos menores en ancestros genéticamente distantes (p. Ej. Japoneses y negros-africanos o europeos-americanos). La idea general está bien explicada en Estructura de población y análisis propio , por Patterson et al. ( PLoS Genetics 2006, 2 (12)), o el número especial de Lancet sobre epidemiología genética (2005, 366; la mayoría de los artículos se pueden encontrar en la web, comience con Cordell & Clayton, Genetic Association Studies ).

La construcción de ejes principales se deriva del enfoque clásico de PCA, que se aplica a la matriz escalada (individuos por SNP) de genotipos observados (AA, AB, BB; digamos B es el alelo menor en todos los casos), con la excepción de que se podría aplicar una normalización adicional para tener en cuenta la deriva de la población. Todo asume que la frecuencia del alelo menor (tomando el valor en {0,1,2}) puede considerarse como numérica, es decir, trabajamos bajo un modelo aditivo (también llamado dosis alélica) o cualquier equivalente que tenga sentido . Como las PC ortogonales sucesivas representarán la variación máxima, esto proporciona una forma de resaltar grupos de individuos que difieren en el nivel de frecuencia de alelos menores. El software utilizado para esto se conoce como Eigenstrat . También está disponible en elegscore()función del paquete GenABEL R (ver también GenABEL.org ). Vale la pena señalar que se propusieron otros métodos para detectar la subestructura de la población, en particular la reconstrucción de conglomerados basada en modelos (ver referencias al final). Se puede encontrar más información navegando por el proyecto Hapmap y el tutorial disponible del proyecto Bioconductor . (Busque los bonitos tutoriales de Vince J Carey o David Clayton en Google).

$\pm 6$ Estratificación de la población en la ayuda en línea.

Teniendo en cuenta que el análisis propio permite descubrir alguna estructura a nivel de los individuos, podemos utilizar esta información al intentar explicar las variaciones observadas en un fenotipo dado (o cualquier distribución que pueda definirse de acuerdo con un criterio binario, por ejemplo, enfermedad o control de casos). situación). Específicamente, podemos ajustar nuestro análisis con esas PC (es decir, las puntuaciones de los factores de los individuos), como se ilustra en el análisis de componentes principales corrige la estratificación en los estudios de asociación de todo el genoma , por Price et al. ( Nature Genetics 2006, 38 (8)), y trabajos posteriores (había una buena imagen que mostraba ejes de variación genética en Europa en Genes espejo geografía dentro de Europa; Nature 2008; Fig. 1A reproducida a continuación). Tenga en cuenta también que otra solución es llevar a cabo un análisis estratificado (incluyendo el origen étnico en un GLM); esto está fácilmente disponible en el paquete snpMatrix , por ejemplo.

genes espejo geografía en europa

Referencias

Daniel Falush, Matthew Stephens y Jonathan K Pritchard (2003). Inferencia de la estructura de la población utilizando datos de genotipo multilocus: loci vinculados y frecuencias de alelos correlacionadas . Genética , 164 (4): 1567-1587.
B Devlin y K Roeder (1999). Control genómico para estudios de asociación . Biometrics , 55 (4): 997–1004.
JK Pritchard, M Stephens y P Donnelly (2000). Inferencia de la estructura de la población utilizando datos de genotipo multilocus . Genética , 155 (2): 945–959.
Gang Zheng, Boris Freidlin, Zhaohai Li y Joseph L Gastwirth (2005). Control genómico para estudios de asociación bajo diversos modelos genéticos . Biometrics , 61 (1): 186–92.
Chao Tian, Peter K. Gregersen y Michael F. Seldin1 (2008). Contabilidad de la ascendencia: subestructura de la población y estudios de asociación de todo el genoma . Genética molecular humana , 17 (R2): R143-R150.
Kai Yu, Subestructura de población y selección de control en estudios de asociación de genoma completo .
Alkes L. Price, Noah A. Zaitlen, David Reich y Nick Patterson (2010). Nuevos enfoques para la estratificación de la población en estudios de asociación de genoma completo , Nature Reviews Genetics
Chao Tian y col. (2009) Subestructura genética de la población europea: definición adicional de marcadores informativos de ascendencia para distinguir entre diversos grupos étnicos europeos , Molecular Medicine, 15 (11-12): 371–383.

chl
fuente

Muchas gracias. Naturalmente, entonces siguen más preguntas: 1) ¿Qué sucede si ignoro el PCA y estratifico mi muestra de GWAS solo por GÉNERO / CARRERA / EDAD e ignoro el PCA? ¿Cómo reflejará el análisis de mi asociación y su resultado? 2) Si de hecho quiero usar PCA, ¿cuántos SNPS debo haber genotipado al menos para tener una PCA verdadera? ¿Son 200 suficientes? ¿Tienen que estar distribuidos uniformemente en todos los cromosomas? 3) ¿Qué SNP se utilizan en PCA? ¿Es este conjunto predefinido o alguno?

suprvisr el

@suprvisr Puedo responder allí o actualizar mi respuesta, pero creo que es mejor hacer una nueva pregunta (algo junto con la idea de "pros y contras de ajustarse con PCA versus estratificar") y vincular a esta para que la gente claramente puede hacer las conexiones necesarias.

chl

@AndyFrost sugirió que lo siguiente puede tener las cifras referenciadas: goo.gl/jNXx0x y la imagen que puede referir podría estar en goo.gl/TcK3g8 .

gung - Restablecer Monica

@chl ¿Podría explicar qué quiere decir con esto: "Lo que generalmente se hace en este caso es aplicar PCA de manera iterativa y eliminar a las personas cuyos puntajes están por debajo de ± 6 ± 6 DE en al menos uno de los primeros 20 principales ejes ". Estaba buscando una respuesta a mi publicación aquí: biostars.org/p/180336

MAPK

En los estudios de asociación de todo el genoma, ¿cuáles son los componentes principales?

Respuestas: