Comparación y contraste, valores p, niveles de significancia y error tipo I

Me preguntaba si alguien podría dar un resumen conciso de las definiciones y usos de los valores p, el nivel de significación y el error tipo I.

Entiendo que los valores p se definen como "la probabilidad de obtener un estadístico de prueba al menos tan extremo como el que realmente observamos", mientras que un nivel de significancia es solo un valor de corte arbitrario para medir si el valor p es significativo o no . El error tipo I es el error de rechazar una hipótesis nula que era cierta. Sin embargo, no estoy seguro acerca de la diferencia entre el nivel de significación y el error tipo I, ¿no son el mismo concepto?

Por ejemplo, suponga un experimento muy simple en el que lanzo una moneda 1000 veces y cuento la cantidad de veces que cae en 'cara'. Mi hipótesis nula, H0, es que caras = 500 (moneda imparcial). Luego establecí mi nivel de significancia en alfa = 0.05.

Lanzo la moneda 1000 veces y luego calculo el valor p, si el valor p es> 0.05, no puedo rechazar la hipótesis nula y si el valor p es <0.05, entonces rechazo la hipótesis nula.

Ahora, si hice este experimento repetidamente, cada vez que calculo el valor p y rechazo o no rechazo la hipótesis nula y mantengo un recuento de cuántos rechacé / no pude rechazar, entonces terminaría rechazando el 5% de las hipótesis nulas que en realidad eran verdad, ¿es correcto? Esta es la definición de error de tipo I. Por lo tanto, el nivel de significancia en las pruebas de significancia de Fisher es esencialmente el error tipo I de las pruebas de hipótesis de Neyman-Pearson si realizó experimentos repetidos.

Ahora, en cuanto a los valores p, si obtuve un valor p de 0.06 de mi último experimento e hice varios experimentos y conté todos los que obtuve un valor p de 0 a 0.06, entonces tampoco tendría un ¿6% de probabilidad de rechazar una hipótesis nula verdadera?

hypothesis-testing probability statistical-significance p-value error BYS2
fuente

Respuestas:

La pregunta parece simple, pero su reflexión a su alrededor muestra que no es tan simple.

En realidad, los valores p son una adición relativamente tardía a la teoría de la estadística. Calcular un valor p sin una computadora es muy tedioso; Es por eso que la única forma de realizar una prueba estadística hasta hace poco era usar tablas de pruebas estadísticas, como explico en esta publicación de blog . Debido a que esas tablas se calcularon para niveles fijos (típicamente 0.05, 0.01 y 0.001), solo se pudo realizar una prueba con esos niveles. $\alpha$

Las computadoras inutilizaron esas tablas, pero la lógica de las pruebas sigue siendo la misma. Debieras:

Formular una hipótesis nula.
Formular una hipótesis alternativa.
Decida un error máximo de tipo I (la probabilidad de rechazar falsamente la hipótesis nula) error que está listo para aceptar.
Diseña una región de rechazo. La probabilidad de que el estadístico de prueba caiga en la región de rechazo dado que la hipótesis nula es su nivel . Como explica @ MånsT, esto no debe ser menor que su error de tipo I aceptable y, en muchos casos, usar aproximaciones asintóticas. $\alpha$
Realice el experimento aleatorio, calcule la estadística de prueba y vea si cae en la región de rechazo.

En teoría, existe una equivalencia estricta entre los eventos "el estadístico cae en la región de rechazo" y "el valor p es menor que " $\alpha$ , por lo que se cree que puede informar el valor p en su lugar . En la práctica, le permite omitir el paso 3. y evaluar el error de tipo I después de realizar la prueba .

Para volver a su publicación, la declaración de la hipótesis nula es incorrecta. La hipótesis nula es que la probabilidad de lanzar una cabeza es (la hipótesis nula no puede pertenecer a los resultados del experimento aleatorio). $1/2$

Si repite el experimento una y otra vez con un valor p umbral de 0.05, sí, debería tener aproximadamente un 5% de rechazo. Y si establece un valor de corte p de 0.06, debería terminar con un rechazo de aproximadamente 6%. Más generalmente, para pruebas continuas, por definición del valor $p$

PAGS r o si (pags < X) = X, (0 0 < X < 1),

$Prob(p < x) = x, \, (0 < x < 1),$

lo cual es solo aproximadamente cierto para pruebas discretas.

Aquí hay un código R que espero pueda aclarar esto un poco. La prueba binomial es relativamente lenta, por lo que solo hago 10,000 experimentos aleatorios en los que lanzo 1000 monedas. Realizo una prueba binomial y recojo los 10.000 valores p.

set.seed(123)
# Generate 10,000 random experiments of each 1000 coin flipping
rexperiments <- rbinom(n=10000, size=1000, prob=0.5)
all_p_values <- rep(NA, 10000)
for (i in 1:10000) {
    all_p_values[i] <- binom.test(rexperiments[i], 1000)$p.value
}
# Plot the cumulative density of p-values.
plot(ecdf(all_p_values))
# How many are less than 0.05?
mean(all_p_values < 0.05)
# [1] 0.0425
# How many are less than 0.06?
mean(all_p_values < 0.06)
# 0.0491

Puede ver que las proporciones no son exactas, porque el tamaño de la muestra no es infinito y la prueba es discreta, pero todavía hay un aumento de aproximadamente 1% entre los dos.

gui11aume
fuente

@ MånsT Gracias! +1 a usted por la distinción entre pruebas continuas y discretas (que honestamente habría pasado por alto por completo).

gui11aume

@ gui11aume, gracias por tu aporte! Sin embargo, su afirmación "los valores p son una adición relativamente tardía a la teoría de la estadística" es extraña. Por lo que he leído, la 'prueba de significación' de Fisher con valores p se originó alrededor de 1925. Mientras que la 'prueba de hipótesis' de Neyman-Pearson surgió como una 'mejora' del trabajo de Fisher unos años más tarde. Si bien es cierto que los valores p eran difíciles de calcular (de ahí que se usaran los niveles estándar de significancia), su trabajo fue monumental. De hecho, se lo conoce como "el padre de las estadísticas" porque formó la base de gran parte de las estadísticas modernas.

BYS2

@ BYS2 Absolutamente correcto (+1). La teoría de los valores p se remonta al origen de las estadísticas. Es su uso generalizado lo que es reciente. Gracias por notarlo ;-)

gui11aume

@guillaume gracias por eso, tengo otra pregunta rápida. Usted dice que mi hipótesis nula no puede ser H 0 = 500 pero parece que muchos textos usan, por ejemplo: nul l hipótesis es que la media será 0 o que la diferencia en las medias será 10 .. Nunca he tenido ningún problema haciéndolo así: s .. La distribución t esencialmente solo se escala si utilizo H0 = 500 en lugar de H0 = 0.5

BYS2

@ gui11aume: Tal vez podría ser interesante echar un vistazo a mi respuesta: stats.stackexchange.com/questions/166323/…

Aquí está obteniendo buenas respuestas de @MansT y @ gui11aume (+1 para cada uno) Déjame ver si puedo obtener algo más explícito en algo en sus dos respuestas.

$n$ $k$

pags (k) = \frac{norte!}{k! (norte - k)!} {pags}^{k} (1 - pags)^{norte - k}

$p(k)=\frac{n!}{k!(n-k)!}p^k(1-p)^{n-k}$

α = .05

$\alpha=.05$

number of heads:           0    1    2    3    4    5    6    7    8    9   10
individual probability:  .001 .010 .044 .117 .205 .246 .205 .117 .044 .010 .001
type I error rate:       .002 .021 .109 .344 .754   1  .754 .344 .109 .021 .002

$\alpha=.05$ $.021$ $\alpha\ne\text{type I error}$ $\alpha$ $.05$ probabilidades binomiales. Tenga en cuenta además que situaciones como esta han llevado al desarrollo del valor p medio para ayudar a minimizar la discrepancia entre el valor p y el nivel de significancia.

Puede haber casos en los que el valor p calculado no sea igual a la tasa de error tipo I a largo plazo, además del hecho de que la tasa de error tipo I no necesariamente es igual al nivel de significancia. Considere una tabla de contingencia 2x2 con estos conteos observados:

     col1 col2
row1   2    4   
row2   4    2

$\chi^2$ $\chi^2_{1}=1.3, p=.248$ $\chi^2$ $\chi^2$ $p=.5671$ $.5637\ne .5671$

Por lo tanto, los problemas aquí son que, con datos discretos:

su nivel de significancia preferido puede no ser una de las posibles tasas de error tipo I, &
El uso de aproximaciones (convencionales) a estadísticas continuas dará como resultado valores p calculados inexactos.

$N$

(Aunque la pregunta no es sobre soluciones a estos problemas), existen cosas que mitigan estos problemas:

$N$
a menudo hay correcciones (como la corrección de continuidad de Yates) que acercarán los valores calculados a los valores correctos,
$N$
el valor p medio ofrece la posibilidad de acercar su tasa de error tipo I a su nivel de confianza elegido,
puede usar explícitamente una de las tasas de error de tipo I que existen (o tener en cuenta cuál sería).

gung - Restablece a Monica
fuente

Genial que hayas entrado en los detalles que dejamos a un lado (+1).

gui11aume

@gung: ¿podría comentar cómo obtuvo las tasas de error de tipo I para la primera tabla?

stats134711

@ stats134711, es solo la suma de las probabilidades individuales para las opciones que son tan extremas o más extremas (2 colas).

gung - Restablece a Monica

Los conceptos están íntimamente vinculados entre sí.

${\rm P}({\rm type~I~error})= \alpha$ $\alpha$ ${\rm P}({\rm type~I~error})\leq \alpha$ $\alpha$ ${\rm P}({\rm type~I~error})\approx \alpha$ $\alpha$

El valor p es el nivel de significancia más bajo en el cual la hipótesis nula sería aceptada . Por lo tanto, nos dice "cuán significativo" es el resultado.

MånsT
fuente