Dos definiciones de valor p: ¿cómo demostrar su equivalencia?

11

Estoy leyendo el libro de Larry Wasserman, Todas las estadísticas , y actualmente sobre los valores p (página 187). Permítanme presentarles algunas definiciones (cito):

R

β(θ)=Pθ(XR)
α=supθΘ0β(θ)
αα

Básicamente, esto dice que , el tamaño es la probabilidad "mayor" de un error de tipo I. El valor se define a través de (cito)αp

Definición 2 Suponga que para cada tenemos una prueba de tamaño con región de rechazo . Luego, donde .α(0,1)αRα

p-value=inf{α:T(Xn)Rα}
Xn=(X1,,Xn)

Para mí esto significa: dado un específico, hay una región de prueba y rechazo para que . Para el valor simplemente tomo el más pequeño de todos estos .αRαα=supθΘ0(α)Pθ(T(Xn)Rα)pα

Pregunta 1 Si este fuera el caso, entonces podría elegir claramente para arbitrariamente pequeño . ¿Cuál es mi interpretación incorrecta de la definición 2, es decir, qué significa exactamente?α=ϵϵ

Ahora Wasserman continúa y establece un teorema para tener una definición "equivalente" de valor con la que estoy familiarizado (cito):p

Teorema Suponga que la prueba de tamaño tiene la forma Entonces, donde es el valor observado de .α

reject H0T(Xn)cα
p-value=supθΘ0Pθ(T(Xn)T(xn))
xnXn

Así que aquí está mi segunda pregunta:

Pregunta 2 ¿Cómo puedo probar este teorema? Tal vez se deba a mi malentendido de la definición del valor , pero no puedo entenderlo.p

matemáticas
fuente
44
Es positivamente extraño que Wasserman defina el poder como " ", ya que el símbolo se usa casi universalmente para la tasa de error de tipo II (es decir, poder = 1- para casi cualquier otro autor que discuta el poder). Me resulta difícil imaginar una elección de notación capaz de engendrar una mayor confusión, excepto al intentar deliberadamente causarla. βββ
Glen_b -Reinstate Monica
1
Estoy de acuerdo en que eso es extraño, Glen; sin embargo, Casella y Berger hacen lo mismo y su texto es, en mi opinión, el estándar de oro para la teoría estadística.
Matt Brems

Respuestas:

6

Tenemos algunos datos multivariados , extraídos de una distribución con algún parámetro desconocido . Tenga en cuenta que son resultados de muestra.xDθx

Queremos probar algunas hipótesis sobre un parámetro desconocido , los valores de bajo la hipótesis nula están en el conjunto .θθθ0

En el espacio de la , podemos definir una región de rechazo , y el poder de esta región se define como . Entonces, la potencia se calcula para un valor particular de como la probabilidad de que el resultado de la muestra esté en la región de rechazo cuando el valor de es . Obviamente, la potencia depende de la región y de la elegida .XRRPθ¯R=Pθ¯(xR)θ¯θxR θθ¯Rθ¯

La definición 1 define el tamaño de la regiónR como el supremum de todos los valores de para en , por lo que solo para valores de debajo de . Obviamente, esto depende de la región, por lo que .Pθ¯Rθ¯θ0θ¯H0αR=supθ¯θ0Pθ¯R

Como depende de , tenemos otro valor cuando la región cambia, y esta es la base para definir el valor p: cambiar la región, pero de tal manera que el valor observado de la muestra todavía pertenezca a la región, por cada uno de tales región, calcular la como se define anteriormente y tomar el ínfimo: . Entonces el valor p es el tamaño más pequeño de todas las regiones que contienen .αRRαRpv(x)=infR|xRαRx

El teorema es entonces solo una 'traducción' del mismo, es decir, el caso en el que las regiones se definen utilizando una estadística y para un valor se define una región como . Si usa este tipo de región en el razonamiento anterior, entonces el teorema sigue.RTcRR={x|T(x)c}R

EDITAR debido a los comentarios:

@ usuario8: para el teorema; si define regiones de rechazo como en el teorema, entonces una región de rechazo de tamaño es un conjunto que se parece a para algunos .αRα={X|T(X)cα}cα

Para encontrar el valor p de un valor observado , es decir, , debe encontrar la región más pequeña , es decir, el valor más grande de tal que todavía contiene , este último (la región contiene ) es equivalente (debido a la forma en que se definen las regiones) a decir que , por lo que debe encontrar el mayor tal quexpv(x)Rc{X|T(X)c} xxcT(x)c{X|T(X)c&cT(x)}

Obviamente, la más grande tal que debería ser y luego el conjunto supra se convierte enccT(x)c=T(x){X|T(X)c=T(x)}={X|T(X)T(x)}


fuente
Muchas gracias por tu respuesta. Para la pregunta sobre la validación del teorema: ¿no falta de alguna manera un sobre ? infα
matemáticas
@ user8: agregué un párrafo al final de mi respuesta, ¿ves el punto con el infimum ahora?
7

En la definición 2, el valor de una estadística de prueba es el límite inferior más grande de todos modo que la hipótesis se rechaza para una prueba de tamaño . Recuerde que cuanto más pequeño hagamos , menor será la tolerancia al error de Tipo I que permitimos, por lo que la región de rechazo también disminuirá. Entonces (muy) informalmente hablando, el valor es el más pequeño que podemos elegir que todavía nos permite rechazar por los datos que observamos. No podemos elegir arbitrariamente un más pequeño porque en algún momento,pαααRαpαH0αRα será tan pequeño que excluirá (es decir, no contendrá) el evento que observamos.

Ahora, a la luz de lo anterior, los invito a reconsiderar el teorema.

heropup
fuente
Todavía estoy un poco confundido. Entonces, primero, en la definición está fijada la estadística para todos ? No estoy de acuerdo con su afirmación: "... en algún momento, será tan pequeño que excluirá (es decir, no contendrá) el evento que observamos". Perfectamente bien, si es tan pequeño que no contiene la muestra observada, no rechazamos . Cual es el problema con esto? gracias por tu ayuda / paciencia2TαRαRαH0
matemáticas
Si. El estadístico de prueba es una función fija predeterminada de la muestra, donde "fijo" en este sentido significa que la forma de la función no cambia para ninguna . El valor que toma puede (y debería) depender de la muestra. Su afirmación "no rechazamos " revela por qué su desacuerdo es incorrecto: por definición , comprende el conjunto de todos los valores para los cuales el estadístico de prueba conduce al rechazo de la nula . Es por eso que está etiquetada --para eyección "R". Publicaré una actualización de mi respuesta para explicar con más detalle. TαH0RαR
Heropup
Muchas gracias por su respuesta rápida y de antemano por su versión actualizada. Lo que quise decir fue lo siguiente: Rechazamos si , donde es la muestra observada. Digamos que soy muy extremo y elijo muy pequeño, de modo que para la muestra dada que significa que NO rechazamos . Entonces, un pequeño no es malo a priori. Claramente, en un punto es tan pequeño, que es muy muy poco probable que observe una muestra que pertenece a . Nuevamente, gracias por su paciencia / ayuda. ¡muy apreciado! H0T(xn)RαxnRαT(xn)RαH0RαRα
matemáticas
2
La definición dada del valor p requiere explícitamente el estadístico de prueba para que la muestra esté en la región de rechazo . No es libre de cambiar esa parte de la definición del valor p.
Glen_b -Reinstate Monica
@Glen_b Gracias por el comentario. De hecho, mi comentario anterior viola la definición. Gracias por mencionarlo.
matemáticas