Recientemente, he encontrado en un artículo de Klammer, et al. una declaración de que los valores p deben estar distribuidos uniformemente. Creo en los autores, pero no puedo entender por qué es así.
Klammer, AA, Park, CY y Stafford Noble, W. (2009) Calibración estadística de la función SEQUEST XCorr . Revista de investigación del proteoma . 8 (4): 2106–2113.
Respuestas:
Para aclarar un poco. El valor p se distribuye uniformemente cuando la hipótesis nula es verdadera y se cumplen todos los demás supuestos. La razón de esto es realmente la definición de alfa como la probabilidad de un error de tipo I. Queremos que la probabilidad de rechazar una hipótesis nula verdadera sea alfa, rechazamos cuando el observado , la única forma en que esto sucede para cualquier valor de alpha es cuando el valor p proviene de un uniforme distribución. El objetivo de usar la distribución correcta (normal, t, f, chisq, etc.) es transformar de la estadística de prueba a un valor p uniforme. Si la hipótesis nula es falsa, entonces la distribución del valor p será (con suerte) más ponderada hacia 0.p-value<α
Las funciones
Pvalue.norm.sim
yPvalue.binom.sim
en el paquete TeachingDemos para R simularán varios conjuntos de datos, calcularán los valores p y los trazarán para demostrar esta idea.Ver también:
Para más detalles.
Editar:
Como la gente todavía está leyendo esta respuesta y comentando, pensé que abordaría el comentario de @ whuber.
Es cierto que cuando se usa una hipótesis nula compuesta como los valores p solo se distribuirán uniformemente cuando las 2 medias son exactamente iguales y no serán uniformes si es cualquier valor menor que . Esto se puede ver fácilmente usando la función y configurándola para hacer una prueba unilateral y simulando con la simulación y los medios hipotéticos diferentes (pero en la dirección para hacer que el nulo sea verdadero).μ 1 μ 2μ1≤μ2 μ1 μ2
Pvalue.norm.sim
En lo que respecta a la teoría estadística, esto no importa. Considere si afirmé que soy más alto que todos los miembros de su familia, una forma de probar este reclamo sería comparar mi estatura con la altura de cada miembro de su familia, uno a la vez. Otra opción sería encontrar al miembro de su familia más alto y comparar su altura con la mía. Si soy más alto que esa persona, también soy más alto que el resto y mi reclamo es verdadero, si no soy más alto que esa persona, entonces mi reclamo es falso. Probar un nulo compuesto puede verse como un proceso similar, en lugar de probar todas las combinaciones posibles donde podemos probar solo la parte de igualdad porque si podemos rechazar eso a favor deμ 1 = μ 2 μ 1 > μ 2 μ 1 < μ 2 μ 1 < μ 2 α μ 1 μ 2 αμ1≤μ2 μ1=μ2 μ1>μ2 entonces sabemos que también podemos rechazar todas las posibilidades de . Si observamos la distribución de los valores p para los casos en que , la distribución no será perfectamente uniforme pero tendrá más valores más cercanos a 1 que a 0, lo que significa que la probabilidad de un error de tipo I será menor que El valor seleccionado lo convierte en una prueba conservadora. El uniforme se convierte en la distribución limitante a medida que se acerca aμ1<μ2 μ1<μ2 α μ1 μ2 (las personas que están más actualizadas en términos de teoría de estadísticas probablemente podrían decir esto mejor en términos de supremum distributivo o algo así). Entonces, al construir nuestra prueba asumiendo la parte igual del nulo incluso cuando el nulo es compuesto, entonces estamos diseñando nuestra prueba para tener una probabilidad de un error tipo I que sea como máximo para cualquier condición donde el nulo sea verdadero.α
fuente
\leq
en TeX)!Bajo la hipótesis nula, el estadístico de prueba tiene la distribución (p. Ej., Normal estándar). Mostramos que el valor tiene una distribución de probabilidad en otras palabras, se distribuye uniformemente. Esto es válido siempre que sea invertible, una condición necesaria de las cuales es que no es una variable aleatoria discreta.T F(t) P=F(T)
Este resultado es general: la distribución de un CDF invertible de una variable aleatoria es uniforme en .[0,1]
fuente
Supongamos que denota la variable aleatoria con la función de distribución acumulativa para todo . Suponiendo que es invertible, podemos derivar la distribución del valor p aleatorio siguiente manera:T F(t)≡Pr(T<t) t F P=F(T)
de donde podemos concluir que la distribución de es uniforme en .[ 0 , 1 ]P [0,1]
Esta respuesta es similar a la de Charlie, pero evita tener que definir .t=F−1(p)
fuente
Simulación simple de distribución de valores p en caso de regresión lineal entre dos variables independientes:
fuente
No creo que la mayoría de estas respuestas realmente respondan la pregunta en general. Se limitan al caso cuando existe una hipótesis nula simple y cuando el estadístico de prueba tiene un CDF invertible (como en una variable aleatoria continua que tiene un CDF estrictamente creciente). Estos casos son los que la mayoría de las personas tienden a preocuparse con la prueba z y la prueba t, aunque para probar una media binomial (por ejemplo), uno no tiene dicho CDF. Lo que se proporciona arriba me parece correcto para estos casos restringidos.
Si las hipótesis nulas son compuestas, entonces las cosas son un poco más complicadas. La prueba más general de este hecho que he visto en el caso compuesto usando algunos supuestos con respecto a las regiones de rechazo se proporciona en "Pruebas de hipótesis estadísticas" de Lehmann y Romano, páginas 63-64. Trataré de reproducir el argumento a continuación ...
Probamos una hipótesis nulaH0 frente a una hipótesis alternativa basada en una estadística de prueba, que vamos a denotamos como la variable aleatoria . Se supone que el estadístico de prueba proviene de alguna clase paramétrica, es decir, , donde es un elemento de la familia de distribuciones de probabilidad , y es un espacio de parámetros. La hipótesis nula y la hipótesis alternativa forman una partición de en esa
H1 X X∼Pθ Pθ P≡{Pθ∣θ∈Θ} Θ H0:θ∈Θ0 H1:θ∈Θ1 Θ Θ=Θ0∪Θ1
donde
Θ0∩Θ1=∅.
El resultado de la prueba se puede denotar donde para cualquier conjunto definimos Aquí es nuestro nivel de significancia, y denota la región de rechazo de la prueba para el nivel de significancia .ϕα(X)=1Rα(X) S 1S(X)={1,0,X∈S,X∉S. α Rα α
Suponga que las regiones de rechazo satisfacen el if . En este caso de regiones de rechazo anidadas, es útil determinar no solo si la hipótesis nula se rechaza o no en un nivel de significancia dado , sino también para determinar el nivel de significancia más pequeño para el cual se rechazaría la hipótesis nula. Este nivel se conoce como el valor p , este número nos da una idea de qué tan fuertes son los datos (tal como se muestra en el estadístico de prueba ) en contradicción con la hipótesis nula .Rα⊂Rα′ α<α′ α p^=p^(X)≡inf{α∣X∈Rα}, X H0
Suponga que para some y que . Supongamos además que las regiones de rechazo obedecen la propiedad de anidamiento indicada anteriormente. Entonces se cumple lo siguiente:X∼Pθ θ∈Θ H0:θ∈Θ0 Rα
Si para todos , entonces para ,supθ∈Θ0Pθ(X∈Rα)≤α 0<α<1 θ∈Θ0 Pθ(p^≤u)≤ufor all0≤u≤1.
Si para tenemos para todos los , entonces para tenemosθ∈Θ0 Pθ(X∈Rα)=α 0<α<1 θ∈Θ0 Pθ(p^≤u)=ufor all0≤u≤1.
Tenga en cuenta que esta primera propiedad solo nos dice que la tasa de falsos positivos se controla en al rechazar cuando el valor p es menor que , y la segunda propiedad nos dice (dado un supuesto adicional) que los valores p se distribuyen uniformemente bajo nulo hipótesis.u u
La prueba es como sigue:
Deje , y asuma para todos . Luego, por definición deθ∈Θ0 supθ∈Θ0Pθ(X∈Rα)≤α 0<α<1 p^ , tenemos para todos . Por monotonicidad y suposición, se deduce que para todos . Dejando , se deduce que .{p^≤u}⊂{X∈Rv} u<v Pθ(p^≤u)≤Pθ(X∈Rv)≤v u<v v↘u Pθ(p^≤u)≤u
Dejarθ∈Θ0 y suponga que para todos los . Entonces , y por monotonicidad se deduce que . Considerando (1), se deduce que . Pθ(X∈Rα)=α 0<α<1 {X∈Ru}⊂{p^(X)≤u} u=Pθ(X∈Ru)≤Pθ(p^≤u) Pθ(p^(X)≤u)=u
Tenga en cuenta que la suposición en (2) no se cumple cuando un estadístico de prueba es discreto, incluso si la hipótesis nula es simple en lugar de compuesta. Tomemos por ejemploX∼Binom(10,θ) con y . Es decir, lanza una moneda diez veces y prueba si es justo o sesgado hacia las caras (codificado como un 1). La probabilidad de ver 10 caras en 10 lanzamientos de monedas justos es (1/2) ^ 10 = 1/1024. La probabilidad de ver 9 o 10 caras en 10 lanzamientos de monedas justos es 11/1024. Para cualquier estrictamente entre 1/1024 y 11/1024, rechazaría el valor nulo si , pero no tenemos ese para esos valores de cuandoH0:θ=.5 H1:θ>0.5 α X=10 Pr(X∈Rα)=α α θ=0.5 . En cambio, para tal . Pr(X∈Rα)=1/1024 α
fuente
Si los valores de p se distribuyen uniformemente debajo de H0, eso significa que es tan probable ver un valor de p de .05 como un valor de p de .80, pero esto no es cierto, ya que es menos probable observar un p- valor de .05 que un valor de p de .80, porque esa es precisamente la definición de la distribución normal de la que se toma el valor de p. Habrá más muestras fallando dentro del rango de normalidad que fuera de él, por definición. Por lo tanto, es más probable que encuentre valores p más grandes que los más pequeños.
fuente