Estoy haciendo estudios de asociación GWAS SNP sobre enfermedades usando un software llamado plink ( http://pngu.mgh.harvard.edu/~purcell/plink/download.shtml ).
Con los resultados de la asociación obtengo valores p para todos los SNP analizados. Ahora, uso un gráfico QQ de esos valores p para mostrar si un valor p muy bajo difiere de la distribución esperada de los valores p (una distribución uniforme). Si un valor p se desvía de la distribución esperada, "puede" llamar a ese valor p para estadística significativa.
Como puede ver en el gráfico QQ, en el extremo superior de la cola, los últimos 4 puntos son algo difíciles de interpretar. Dos de los últimos puntos en el gris sugieren que esos valores p están en la distribución esperada de los valores p, mientras que los otros dos no.
Ahora, cómo interpretar esto, los dos últimos puntos tienen bajos valores de p, pero no son "significativo", según el QQ-plot, mientras que los otros dos puntos con altos valores de p son "significativo"? ¿Cómo puede ser esto cierto?
Respuestas:
Una buena referencia en el análisis de las gráficas de valor p es [1].
El resultado que está viendo puede ser impulsado por el hecho de que la señal / efectos existen solo en algún subconjunto de pruebas. Estos son conducidos por encima de las bandas de aceptación. Rechazar solo el valor p fuera de las bandas puede justificarse, pero quizás lo más importante es que debe decidir cuál es el criterio de error que desea controlar al seleccionar su procedimiento de selección (FWER, FDR). Puede consultar [2] para esa elección, y referencias allí para elegir el procedimiento de prueba múltiple apropiado.
[1] Schweder, T. y E. Spjotvoll. "Gráficos de valores P para evaluar muchas pruebas simultáneamente". Biometrika 69, no. 3 (diciembre de 1982): 493–502. doi: 10.2307 / 2335984.
[2] Rosenblatt, Jonathan. “Una guía para profesionales sobre las tasas de error de pruebas múltiples”. ArXiv e-print. Universidad de Tel Aviv, 17 de abril de 2013. http://arxiv.org/abs/1304.4920 .
fuente
Esta es una pregunta anterior, pero me pareció útil al intentar interpretar QQPlots por primera vez. Pensé agregar a estas respuestas en caso de que más personas se topen con esto en el futuro.
Lo que encontré un poco difícil de entender es ¿cuáles son exactamente esos puntos? Descubrí que ir al código me facilitaba la tarea.
Aquí hay un código R que
GWASTools::qqPlot
adapté que implementa un QQPlot en 3 líneas:Aquí hay un ejemplo. Tienes 5 valores p. simpleQQPlot generará 5 valores correspondientes a partir de una distribución uniforme entre 0 y 1. Estos serán: .2 .4 .6 .8 y 1. Por lo tanto, simpleQQPlot espera que su valor p más bajo esté alrededor de .2, y que el más alto esté alrededor. 1. simpleQQPlot ordenará sus valores y los emparejará con el valor generado correspondiente. Entonces .2 se emparejará con su valor más bajo, 1 con el más alto, y así sucesivamente. Luego, estos valores emparejados se trazan (después de tomar los registros negativos), siendo X el valor p generado e Y siendo el valor observado emparejado. Si sus valores observados también se extrajeron de una distribución normal, entonces los puntos deberían estar aproximadamente en la línea recta. Debido a la clasificación, los puntos siempre aumentarán monotónicamente. Por lo tanto, cada punto posterior tendrá una X mayor y una Y mayor o igual.
Entonces, en el ejemplo original anterior, el valor p 9,997o ordenado era de alrededor de 5.2 pero se esperaba que fuera de 4.1 si seguía una distribución normal. (Nota: en realidad no estoy seguro de cuántos valores p se trazaron anteriormente, supuse 10k).
fuente