Comprensión p-valor

Sé que hay muchos materiales que explican el valor p. Sin embargo, el concepto no es fácil de entender con firmeza sin más aclaraciones.

Aquí está la definición del valor p de Wikipedia:

El valor p es la probabilidad de obtener un estadístico de prueba al menos tan extremo como el que se observó realmente, suponiendo que la hipótesis nula sea verdadera. ( http://en.wikipedia.org/wiki/P-value )

Mi primera pregunta se refiere a la expresión "al menos tan extrema como la que realmente se observó". Mi comprensión de la lógica subyacente al uso del valor p es la siguiente: si el valor p es pequeño, es poco probable que la observación se produzca suponiendo la hipótesis nula y es posible que necesitemos una hipótesis alternativa para explicar la observación. Si el valor p no es tan pequeño, es probable que la observación ocurriera solo suponiendo la hipótesis nula y la hipótesis alternativa no es necesaria para explicar la observación. Entonces, si alguien quiere insistir en una hipótesis, debe demostrar que el valor p de la hipótesis nula es muy pequeño. Con esta opinión en mente, mi comprensión de la expresión ambigua es que el valor p es $\min[P(X<x),P(x<X)]$ , si el PDF del estadístico es unimodal, donde $X$ es el estadístico de prueba $x$ es su valor obtenido de la observación. ¿Es esto correcto? Si es correcto, ¿sigue siendo aplicable utilizar el PDF bimodal de la estadística? Si dos picos del PDF están bien separados y el valor observado se encuentra en algún lugar de la región de baja densidad de probabilidad entre los dos picos, ¿a qué intervalo da el valor p la probabilidad de?

La segunda pregunta es sobre otra definición de valor p de Wolfram MathWorld:

La probabilidad de que una variante asuma un valor mayor o igual al valor observado estrictamente por casualidad. ( http://mathworld.wolfram.com/P-Value.html )

Comprendí que la frase "estrictamente por casualidad" debería interpretarse como "suponiendo una hipótesis nula". ¿Está bien?

La tercera pregunta se refiere al uso de la "hipótesis nula". Supongamos que alguien quiere insistir en que una moneda es justa. Expresa la hipótesis ya que esa frecuencia relativa de cabezas es 0.5. Entonces la hipótesis nula es "la frecuencia relativa de las cabezas no es 0.5". En este caso, mientras que calcular el valor p de la hipótesis nula es difícil, el cálculo es fácil para la hipótesis alternativa. Por supuesto, el problema puede resolverse intercambiando el papel de las dos hipótesis. Mi pregunta es que el rechazo o la aceptación basados directamente en el valor p de la hipótesis alternativa original (sin introducir la hipótesis nula) es si está bien o no. Si no está bien, ¿cuál es la solución habitual para tales dificultades al calcular el valor p de una hipótesis nula?

Publiqué una nueva pregunta que se aclara más en base a la discusión en este hilo.

hypothesis-testing p-value interpretation JDL
fuente

De posible interés: ¿Hay algún error en la prueba binomial unilateral en R?

Has captado una sutileza que a menudo no se reconoce: "más extremo" debe medirse en términos de probabilidad relativa de la hipótesis alternativa en lugar de en el sentido obvio (pero no generalmente correcto) de estar más lejos en la cola del muestreo nulo distribución. Esto es explícito en la formulación del Lema de Neyman-Pearson , que se utiliza para justificar muchas pruebas de hipótesis y para determinar sus regiones críticas (y de dónde sus valores p). Pensar en esto ayudará a responder su primera pregunta.

whuber

Como recuerdo, el Lema de Neyman-Pearson es óptimo para pruebas de hipótesis simples versus simples (Ho: mu = mu_0, Ha: mu = mu_a). Para las pruebas compuestas (Ho: mu = mu_0, Ha: mu> mu_a) hay una prueba alternativa.

RobertF

Respuestas:

Primera respuesta

Debe pensar en el concepto de extremo en términos de probabilidad de las estadísticas de prueba, no en términos de su valor o el valor de la variable aleatoria que se está probando. Presento el siguiente ejemplo de Christensen, R. (2005). Prueba de Fisher, Neyman, Pearson y Bayes . El estadístico estadounidense , 59 (2), 121-126

r | 1 2 3 4 p (r | θ = 0) | 0.980 0.005 0.005 0.010 p v a l u e | 1.0 0.01 0.01 0.02

$\phantom{(r\;|\;\theta=0}r\; | \quad 1 \quad \quad 2 \quad \quad 3 \quad \quad 4\\ p(r\;|\;\theta=0) \; |\; 0.980\;0.005\; 0.005\; 0.010\\ \quad p\;\mathrm{value} \; \; | \;\; 1.0 \quad 0.01 \quad 0.01 \;\; 0.02$

Aquí son las observaciones, la segunda línea es la probabilidad de observar una observación dada bajo la hipótesis nula , que se utiliza aquí como estadísticas de prueba, la tercera línea es el valor. Estamos aquí en el marco de la prueba de Fisherian: hay una hipótesis ( , en este caso ) bajo la cual queremos ver si los datos son extraños o no. Las observaciones con la probabilidad más pequeña son 2 y 3 con 0.5% cada una. Si obtiene 2, por ejemplo, la probabilidad de observar algo como probable o menos probable ( y $r$ $\theta=0$ $p$ $H_0$ $\theta=0$ $r=2$ $r=3$ ) es del 1%. La observación no contribuye al valor , aunque está más lejos (si existe una relación de orden), porque tiene una mayor probabilidad de ser observada. $r=4$ $p$

Esta definición funciona en general, ya que acomoda variables categóricas y multidimensionales, donde una relación de orden no está definida. En el caso de una variable cuantitativa ingle, donde se observa algún sesgo del resultado más probable, podría tener sentido calcular el valor cola única y considerar solo las observaciones que están en un lado de la distribución de estadísticas de prueba. $p$

Segunda respuesta

No estoy totalmente de acuerdo con esta definición de Mathworld.

Tercera respuesta

Tengo que decir que no estoy completamente seguro de haber entendido su pregunta, pero trataré de dar algunas observaciones que podrían ayudarlo.

En el contexto más simple de las pruebas de Fisherian, donde solo tiene la hipótesis nula, este debería ser el status quo . Esto se debe a que las pruebas de Fisherian funcionan esencialmente por contradicción. Entonces, en el caso de la moneda, a menos que tenga razones para pensar de manera diferente, supondría que es justo, . Luego calcula el valor para sus datos bajo y, si su valor está por debajo de un umbral predefinido, rechaza la hipótesis (prueba por contradicción). Usted nunca se calcule la probabilidad de que la hipótesis nula. $H_0: \theta=0.5$ $p$ $H_0$ $p$

Con las pruebas de Neyman-Pearson, especifica dos hipótesis alternativas y, en función de su probabilidad relativa y la dimensionalidad de los vectores de parámetros, favorece una u otra. Esto se puede ver, por ejemplo, al probar la hipótesis de la moneda sesgada frente a la imparcial. Imparcial significa fijar el parámetro a (la dimensionalidad de este espacio de parámetros es cero), mientras que sesgado puede ser cualquier valor (dimensionalidad igual a uno). Esto resuelve el problema de tratar de contradecir la hipótesis de sesgo por contradicción, lo que sería imposible, como lo explicó otro usuario. Fisher y NP dan resultados similares cuando la muestra es grande, pero no son exactamente equivalentes. Aquí debajo un código simple en R para una moneda sesgada. $\theta=0.5$ $\theta \neq 0.5$

n <- 100  # trials
p_bias <- 0.45  # the coin is biased
k <- as.integer(p_bias * n)  # successes

# value obtained by plugging in the MLE of p, i.e. k/n = p_bias
lambda <- 2 * n * log(2) + 2 * k * log(p_bias) + 2 * (n-k) * log(1. - p_bias)

p_value_F <- 2 * pbinom(k, size=n, prob=0.5)  # p-value under Fisher test
p_value_NP <- 1 - pchisq(q=lambda, df=1)  # p-value under Neyman-Pearson
binom.test(c(k, n-k))  # equivalent to Fisher

Zag
fuente

+1 por señalar un gran artículo que no conocía. (También para algunos escepticismos muy necesarios sobre la utilidad de la visión de estadísticas de Mathworld).

conjugateprior

¡Muchas gracias! Entonces, el valor p es \ int_ {x: f (x) <= k} f, donde f es el PDF de una estadística de prueba yk es el valor observado de la estadística. Gracias de nuevo.

JDL

Con respecto a la tercera respuesta, lo que se demuestra en su respuesta es la injusticia de la moneda porque se rechaza el supuesto de equidad. Por el contrario, para demostrar la imparcialidad de la moneda por contradicción, tengo que asumir la injusticia \ theta \ neq 0.5 y calcular el valor p de mis datos. ¿Cómo puedo hacerlo? Mi punto es la dificultad originada por el signo \ neq del supuesto de injusticia. ¿Debo introducir algún nivel de tolerancia para la equidad, digamos 0.4 <\ theta <0.6, y calcular el valor p en términos de \ theta e integrarlo sobre 0 <\ theta <0.4 y 0.6 <\ theta <1?

JDL

Una pregunta más. Este enlace explica el valor p "unilateral". Dice que el valor p unilateral responde preguntas como "hipótesis nula, que dos poblaciones realmente son iguales ... ¿cuál es la probabilidad de que las muestras seleccionadas al azar tengan medios tan distantes como (o más allá) de lo observado en este experimento con el grupo especificado tiene la media mayor ? ¿Es un uso apropiado del valor p unilateral? Creo que la hipótesis nula en sí misma debería expresarse como una desigualdad en este caso (en lugar de una prueba de igualdad y unilateral).

JDL

@Zag, no estoy de acuerdo con esta respuesta: no tienes que pensar en el concepto de extremo en términos de probabilidad. Es mejor decir que en este ejemplo, la probabilidad bajo el valor nulo se está utilizando como estadística de prueba, pero eso no es obligatorio. Por ejemplo, si la razón de probabilidad, como lo menciona Whuber, se usa como estadística de prueba, en general no colocará las muestras posibles en el mismo orden que la probabilidad bajo el valor nulo. Se eligen otras estadísticas para la máxima potencia contra una alternativa especificada, o todas las alternativas, o para una alta potencia contra un conjunto vagamente definido.

Scortchi - Restablece a Monica

(1) Una estadística es un número que puede calcular a partir de una muestra. Se utiliza para ordenar todas las muestras que pueda haber obtenido (en un modelo asumido, donde las monedas no caen en sus bordes y lo que tiene). Si es lo que calcula a partir de la muestra que realmente obtuvo, y es la variable aleatoria correspondiente, entonces el valor p viene dado por bajo la hipótesis nula, . 'Mayor que' vs 'más extremo' no es importante en principio. Para una prueba de dos lados en una media normal, podríamos usar $t$ $T$ $\newcommand{\pr}{\mathrm{Pr}} \pr\left(T\geq t\right)$ $H_0$ $\pr(|Z|\geq |z|)$ pero es conveniente usar porque tenemos las tablas apropiadas. (Tenga en cuenta la duplicación). $2\min [\pr(Z\geq z),\pr(Z\leq z)]$

No es necesario que el estadístico de prueba ponga las muestras en orden de probabilidad bajo la hipótesis nula. Hay situaciones (como el ejemplo de Zag) en las que cualquier otra forma parecería perversa (sin más información sobre qué medidas , qué tipos de discrepancias con son de mayor interés, etc.), pero a menudo se utilizan otros criterios. Por lo tanto, podría tener un PDF bimodal para la estadística de prueba y aún probar utilizando la fórmula anterior. $r$ $H_0$ $H_0$

(2) Sí, significan bajo . $H_0$

(3) Una hipótesis nula como "La frecuencia de las cabezas no es 0.5" no sirve de nada porque nunca podría rechazarla. Es un nulo compuesto que incluye "la frecuencia de los cabezales es 0.49999999", o tan cerca como desee. Ya sea que pienses de antemano que la moneda es justa o no, eliges una hipótesis nula útil que tiene relación con el problema. Quizás más útil después del experimento es calcular un intervalo de confianza para la frecuencia de las caras que muestra que claramente no es una moneda justa, o es lo suficientemente cerca de la feria, o necesita hacer más pruebas para averiguarlo.

Una ilustración para (1):

$2^{10}$

$\mathsf{HHHHHHHHHH}\\ \mathsf{HTHTHTHTHT}\\ \mathsf{HHTHHHTTTH}$

Probablemente estarás de acuerdo conmigo en que los dos primeros parecen un poco sospechosos. Sin embargo, las probabilidades bajo nulo son iguales:

$\mathrm{Pr}(\mathsf{HHHHHHHHHH}) = \frac{1}{1024}\\ \mathrm{Pr}(\mathsf{HTHTHTHTHT}) = \frac{1}{1024}\\ \mathrm{Pr}(\mathsf{HHTHHHTTTH}) = \frac{1}{1024}$

Para llegar a cualquier lugar, debe considerar qué tipos de alternativas al valor nulo desea probar. Si está preparado para asumir la independencia de cada lanzamiento bajo nulo y alternativo (y en situaciones reales, esto a menudo significa trabajar muy duro para garantizar que las pruebas experimentales sean independientes), puede usar el recuento total de cabezas como una estadística de prueba sin perder información . (Particionar el espacio muestral de esta manera es otro trabajo importante que hacen las estadísticas).

Entonces tienes un conteo entre 0 y 10

t<-c(0:10)

Su distribución bajo nulo es

p.null<-dbinom(t,10,0.5)

Bajo la versión de la alternativa que mejor se ajusta a los datos, si ve (por ejemplo) 3 de cada 10 caras, la probabilidad de caras es $\frac{3}{10}$ , entonces

p.alt<-dbinom(t,10,t/10)

Tome la razón de la probabilidad bajo nulo a la probabilidad bajo la alternativa (llamada razón de probabilidad):

lr<-p.alt/p.null

Comparar con

plot(log(lr),p.null)

Entonces, para este nulo, las dos muestras de orden de estadísticas de la misma manera. Si repite con un valor nulo de 0,85 (es decir, prueba de que la frecuencia a largo plazo de los cabezales es del 85%), no lo hacen.

p.null<-dbinom(t,10,0.85)
plot(log(lr),p.null)

lrt gof test

Para ver por qué

plot(t,p.alt)

$t$ son menos probables bajo la alternativa, y el estadístico de prueba de razón de probabilidad tiene esto en cuenta. Nota: esta estadística de prueba no será extrema para

$\mathsf{HTHTHTHTHT}$

Y eso está bien: cada muestra puede considerarse extrema desde algún punto de vista. Usted elige la estadística de prueba de acuerdo con el tipo de discrepancia con el valor nulo que desea poder detectar.

$r$

$\mathsf{HHTHHHTTTH}$

$r=6$

$\mathsf{HH}\ \mathsf{T}\ \mathsf{HHH}\ \mathsf{TTT}\ \mathsf{H}$

La secuencia sospechosa

$\mathsf{HTHTHTHTHT}$

$r=10$

$\mathsf{THTHTHTHTH}$

mientras que en el otro extremo

$\mathsf{HHHHHHHHHH}\\ \mathsf{TTTTTTTTTT}$

tener $r=1$ . Usando la probabilidad bajo el nulo como estadística de prueba (de la manera que desee) puede decir que el valor p de la muestra

$\mathsf{HTHTHTHTHT}$

es, por lo tanto $\frac{4}{1024}=\frac{1}{256}$ . Lo que es digno de mención, al comparar esta prueba con la anterior, es que incluso si se atiene estrictamente al orden dado por la probabilidad bajo nulo, la forma en que define su estadística de prueba para dividir el espacio muestral depende de la consideración de alternativas.

Scortchi - Restablece a Monica
fuente

Usted dice que la definición Pr (T \ ge t; H_0) puede ser aplicable a cualquier PDF multimodal (por supuesto, incluido bimodal) de una estadística de prueba. Luego, usted y Zag dan valores p diferentes para PDF multimodal de una estadística de prueba. En mi humilde opinión, la definición de Zag es más razonable porque el papel del valor p es cuantificar qué tan probable (o extraña) es la observación bajo la hipótesis nula, como señaló. ¿Cuál es su justificación para la definición Pr (T \ ge t; H_0)?

JDL

@JDL, esa es solo la definición de un valor p. La pregunta entonces es cómo encontrar una estadística de prueba 'buena' (y cómo definir 'buena'). A veces, la probabilidad bajo el valor nulo (o cualquier función de los datos que da el mismo orden) se utiliza como estadística de prueba. A veces hay buenas razones para elegir otras, que ocupan mucho espacio en los libros de estadística teórica. Creo que es justo decir que implican una consideración explícita o implícita de las alternativas. ...

Scortchi - Restablece a Monica

@JDL, ... Y si una observación en particular tiene baja probabilidad tanto bajo nulo como alternativo, parece razonable no considerarla extrema.

Scortchi - Restablece a Monica

Gracias por sus respuestas, @Scortchi. Publiqué una nueva pregunta y he visto tus comentarios justo ahora después de la publicación. De todos modos, todavía no tengo clara la definición. Gracias nuevamente por sus amables respuestas.

JDL

Agregué