Distribución no uniforme de los valores p al simular pruebas binomiales bajo la hipótesis nula

17

Escuché que bajo la hipótesis nula, la distribución del valor p debería ser uniforme. Sin embargo, las simulaciones de la prueba binomial en MATLAB devuelven distribuciones muy diferentes de las uniformes con una media mayor que 0.5 (0.518 en este caso): ingrese la descripción de la imagen aquí

coin = [0 1];
success_vec = nan(20000,1);

for i = 1:20000
    success = 0;
    for j = 1:200
        success = success + coin(randperm(2,1));
    end
    success_vec(i) = success;
end

    p_vec = binocdf(success_vec,200,0.5);
    hist(p_vec);

Intentar cambiar la forma en que genero números aleatorios no ayudó. Realmente agradecería cualquier explicación aquí.

TanZor
fuente
66
Un punto a considerar es que los valores p de la prueba binomial tomarán solo ciertos valores discretos (ya que el numerador es discreto): como ejemplo, con solo 20 ensayos [lanzamientos de monedas] por experimento, solo hay 11 p- discretos valores que pueden ser devueltos. Esto es valores p posibles, por lo que con n = 200 ensayos por experimento, 101 valores p discretos. n/2+1
James Stanley
¿Qué hace exactamente la "prueba binomial" de Matlab?
whuber
2
Parece que esta es la prueba binomial del póster, binocdfes solo el CDF del binomio uk.mathworks.com/help/stats/binocdf.html
conjugateprior

Respuestas:

20

El resultado de que los valores de tienen una distribución uniforme bajo mantiene para estadísticas de prueba distribuidas continuamente, al menos para puntos nulos, como lo ha hecho aquí.pH0

Como James Stanley menciona en los comentarios, la distribución de la estadística de prueba es discreta, por lo que el resultado no se aplica. Es posible que no tenga ningún error en su código (aunque no mostraría una distribución discreta con un histograma, me inclinaría por mostrar el cdf o el pmf, o mejor, ambos).

Aunque en realidad no es uniforme, cada salto en el cdf del valor p lo lleva a la línea (no sé un nombre para esto, pero debería tener un nombre, tal vez algo así como 'cuasi -uniforme'):F(x)=x

ingrese la descripción de la imagen aquí

Es bastante posible calcular esta distribución exactamente, en lugar de simular, pero he seguido tu ejemplo y he hecho una simulación (aunque más grande que la tuya).

Tal distribución no necesita tener una media de 0.5, aunque a medida que la en el binomio aumenta, el paso cdf se acercará a la línea más de cerca, y la media se acercará a 0.5.n

Una implicación de la discreción de los valores p es que solo se pueden lograr ciertos niveles de significancia, los que corresponden a las alturas escalonadas en la población real de los valores p bajo el valor nulo. Entonces, por ejemplo, puede tener un cerca de 0.056 o uno cerca de 0.04, pero nada más cercano a 0.05.α

Glen_b -Reinstate a Monica
fuente
¡Gracias Glen y @JamesStanley! Estoy tratando de entender qué significa exactamente que la distribución del valor p no es uniforme y cuáles son las consecuencias en términos de pruebas de hipótesis, pero supongo que me sumergiré en la wikipedia :)
TanZor
3
α
F(x)x
A.Donda, Glen_b - ¡gracias! Usted fue una gran ayuda.
TanZor