Estoy tratando de cuantificar el grado de inflación (es decir, cómo se ajustan mejor los puntos de datos observados a los esperados). Una forma es mirar el gráfico QQ. Pero me gustaría calcular algún indicador numérico para la inflación, lo que significa qué tan bien se ajusta lo observado a la distribución teórica uniforme.
Datos de ejemplo:
# random uniform distribution
pvalue <- runif(100, min=0, max=1)
# with inflation expected i.e. not uniform distribution
pvalue1 <- rnorm(100, mean = 0.5, sd=0.1)
probability
distributions
qq-plot
rdorlearn
fuente
fuente
Respuestas:
Hay diferentes maneras de probar la desviación de cualquier distribución (uniforme en su caso):
(1) Pruebas no paramétricas:
Puede utilizar las pruebas de Kolmogorov-Smirnov para ver la distribución de los ajustes de valores observados a los esperados.
R tiene una
ks.test
función que puede realizar la prueba de Kolmogorov-Smirnov.(2) Prueba de bondad de ajuste de chi-cuadrado
En este caso categorizamos los datos. Observamos las frecuencias observadas y esperadas en cada celda o categoría. Para el caso continuo, los datos se pueden clasificar creando intervalos artificiales (bins).
(3) Lambda
Si está haciendo un estudio de asociación de genoma completo (GWAS), es posible que desee calcular el factor de inflación genómica , también conocido como lambda (λ) ( ver también ). Esta estadística es popular en la comunidad de genética estadística. Por definición, λ se define como la mediana de las estadísticas de prueba de chi-cuadrado resultante dividida por la mediana esperada de la distribución de chi-cuadrado. La mediana de una distribución de chi-cuadrado con un grado de libertad es 0.4549364. Se puede calcular un valor λ a partir de puntajes z, estadísticas de chi-cuadrado o valores p, dependiendo de la salida que tenga del análisis de asociación. En algún momento se descarta la proporción del valor p de la cola superior.
Para los valores p puede hacer esto:
Si el análisis da como resultado que sus datos sigan la distribución normal de chi-cuadrado (sin inflación), el valor λ esperado es 1. Si el valor λ es mayor que 1, esto puede ser evidencia de algún sesgo sistemático que debe corregirse en su análisis .
Lambda también se puede estimar utilizando el análisis de regresión.
Otro método para calcular lambda es usar 'KS' (optimizar el ajuste de distribución chi2.1df mediante el uso de la prueba de Kolmogorov-Smirnov).
fuente