¡Este es realmente un tema candente en los estudios de análisis de Genomewide (GWAS)! No estoy seguro de que el método en el que esté pensando sea el más apropiado en este contexto. Algunos autores describieron la agrupación de los valores de p, pero en un contexto diferente (estudios de replicación o metanálisis, ver, por ejemplo, (1) para una revisión reciente). La combinación de los valores p de SNP por el método de Fisher se usa generalmente cuando se quiere derivar un valor p único para un gen dado; esto permite trabajar a nivel genético y reducir la cantidad de dimensionalidad de las pruebas posteriores, pero como dijiste, la no independencia entre los marcadores (derivados de la colocación espacial o el desequilibrio de enlace, LD) introduce un sesgo. Las alternativas más potentes dependen de los procedimientos de remuestreo,
Mi principal preocupación con bootstraping (con reemplazo) sería que esté introduciendo una forma artificial de relación, o en otras palabras, cree gemelos virtuales, alterando así el equilibrio de Hardy-Weinberg (pero también la frecuencia mínima de alelos y la tasa de llamadas). Este no sería el caso con un enfoque de permutación donde permuta etiquetas individuales y mantiene los datos de genotipado tal como están. Por lo general, el software plink puede proporcionarle valores p sin procesar y permutados, aunque utiliza (por defecto) una estrategia de prueba adaptativa con una ventana deslizante que permite detener la ejecución de todas las permutaciones (digamos 1000 por SNP) si parece que el SNP está bajo la consideración no es "interesante"; También tiene la opción de calcular maxT, consulte la ayuda en línea .
Pero dado el bajo número de SNP que está considerando, sugeriría confiar en las pruebas basadas en FDR o maxT implementadas en el paquete R de prueba múltiple (ver mt.maxT
), pero la guía definitiva para las estrategias de remuestreo para la aplicación genómica es Procedimientos de prueba múltiple con aplicaciones para Genomics , de Dudoit y van der Laan (Springer, 2008). Ver también el libro de Andrea Foulkes sobre genética con R , que se revisa en el JSS. Ella tiene un gran material sobre múltiples procedimientos de prueba.
Notas adicionales
Muchos autores han señalado el hecho de que los métodos simples de corrección de pruebas múltiples, como Bonferroni o Sidak, son demasiado estrictos para ajustar los resultados para los SNP individuales. Además, ninguno de estos métodos tiene en cuenta la correlación que existe entre los SNP debido a LD que marca la variación genética en las regiones genéticas. Se han propuesto otras alternativas, como una derivada del método de Holm para comparación múltiple (3), Modelo de Markov Oculto (4), FDR condicional o positivo (5) o derivada del mismo (6), por nombrar algunos. Las llamadas estadísticas de huecos o ventana deslizante han tenido éxito en algunos casos, pero encontrará una buena revisión en (7) y (8).
También he oído hablar de métodos que hacen un uso efectivo de la estructura de haplotipo o LD, por ejemplo (9), pero nunca los usé. Parecen, sin embargo, más relacionados con la estimación de la correlación entre los marcadores, no con el valor p como quisiste decir. Pero, de hecho, es mejor pensar en términos de la estructura de dependencia entre estadísticas de pruebas sucesivas, que entre valores p correlacionados.
Referencias
- Cantor, RM, Lange, K y Sinsheimer, JS. Priorizar los resultados de GWAS: una revisión de métodos estadísticos y recomendaciones para su aplicación . Soy J Hum Genet. 2010 86 (1): 6–22.
- Corley, RP, Zeiger, JS, Crowley, T et al. Asociación de genes candidatos con drogodependencia antisocial en adolescentes . Dependencia de drogas y alcohol 2008 96: 90–98.
- Dalmasso, C, Génin, E y Trégouet DA. Un procedimiento de Holm ponderado que explica las frecuencias alélicas en los estudios de asociación de Genomewide . Genética 2008 180 (1): 697–702.
- Wei, Z, Sun, W, Wang, K y Hakonarson, H. Pruebas múltiples en estudios de asociación de genoma completo a través de modelos ocultos de Markov . Bioinformática 2009 25 (21): 2802-2808.
- Broberg, P. Una revisión comparativa de las estimaciones de la proporción de genes sin cambios y la tasa de descubrimiento falso . BMC Bioinformatics 2005 6: 199.
- Need, AC, Ge, D, Weale, ME, y otros. Una investigación de todo el genoma de SNP y CNV en la esquizofrenia . PLoS Genet. 2009 5 (2): e1000373.
- Han, B, Kang, HM y Eskin, E. Corrección de pruebas múltiples rápida y precisa y estimación de potencia para millones de marcadores correlacionados . PLoS Genetics 2009
- Liang, Y y Kelemen, A. Avances y desafíos estadísticos para analizar datos de snp correlacionados de alta dimensión en el estudio genómico de enfermedades complejas . Encuestas estadísticas 2008 2: 43–60. - la mejor reseña reciente
- Nyholt, DR. Una corrección simple para múltiples pruebas de polimorfismos de un solo nucleótido en el desequilibrio de ligamiento entre sí . Soy J Hum Genet. 2004 74 (4): 765–769.
- Nicodemus, KK, Liu, W, Chase, GA, Tsai, YY y Fallin, MD. Comparación del error tipo I para múltiples correcciones de prueba en grandes estudios de polimorfismo de un solo nucleótido utilizando componentes principales versus algoritmos de bloqueo de haplotipos . BMC Genetics 2005; 6 (Supl. 1): S78.
- Peng, Q, Zhao, J y Xue, F. Pruebas de intervalo de confianza de arranque basadas en PCA para la asociación de enfermedades genéticas que involucran múltiples SNP . BMC Genetics 2010, 11: 6
- Li, M, Romero, R, Fu, WJ y Cui, Y (2010). Mapeo de interacciones haplotipo-haplotipo con LASSO adaptativo . BMC Genetics 2010, 11:79 - aunque no está directamente relacionado con la pregunta, cubre el análisis basado en haplotipos / efecto epistático
snpMatrix
o simplementeglm()
funciona bastante mejor en este punto, pero no puede incorporar muchos SNP dentro deglm()
...); el problema es que obtener el valor p corregido al final de su segundo análisis es bastante complicado (porque debe tener en cuenta los parámetros ya estimados).El uso de un método como bonferroni está bien, el problema es que si tiene muchas pruebas, es probable que no encuentre muchos "descubrimientos".
Puede utilizar el enfoque FDR para las pruebas dependientes (consulte aquí para más detalles ). El problema es que no estoy seguro si puede decir por adelantado si sus correlaciones son todas positivas.
En R puede hacer FDR simple con p.adjust. Para cosas más complejas, echaría un vistazo a multcomp , pero no lo revisé para buscar soluciones en casos de dependencias.
Buena suerte.
fuente
Creo que los modelos normales multivariados se están utilizando para modelar los valores p correlacionados y para obtener el tipo correcto de múltiples correcciones de prueba. Corrección de pruebas múltiples rápida y precisa y estimación de potencia para millones de marcadores correlacionados. PLoS Genet 2009 habla de ellos y también ofrece otras referencias. Suena similar a lo que estaba hablando, pero creo que, además de obtener una corrección global del valor p más precisa, el conocimiento de la estructura LD también debería usarse para eliminar los falsos positivos que surgen de los marcadores correlacionados con los marcadores causales.
fuente
Estoy buscando una solución de trabajo para exactamente el mismo problema. Lo mejor que encontré es el Bootstrap sin restricciones nulo introducido por Foulkes Andrea en su libro Genética estadística aplicada con R (2009) . Al contrario de todos los demás artículos y libros, considera específicamente las regresiones. Además de otros métodos, aconseja el Bootstrap no restringido nulo, que es adecuado cuando no se pueden calcular fácilmente los residuos (como en mi caso, donde modelo muchas regresiones independientes (básicamente correlaciones simples), cada una con la misma variable de respuesta y un recorte diferente). Encontré que este método también se llama método maxT .
TestStatBoot
El último paso se puede lograr con este código
fuente