Valor P en una prueba de dos colas con distribución nula asimétrica

Mi situación es la siguiente: quiero, a través de un estudio de Monte-Carlo, comparar los valores de dos pruebas diferentes para la significación estadística de un parámetro estimado (nulo es "sin efecto, el parámetro es cero", y la alternativa implícita es " el parámetro no es cero "). La prueba A es la "prueba t independiente independiente de dos muestras para la igualdad de medias" , con variaciones iguales bajo nulo. $p$

Prueba B Me he construido a mí mismo. Aquí, la distribución nula utilizada es una distribución discreta genérica asimétrica . Pero he encontrado el siguiente comentario en Rohatgi & Saleh (2001, 2a ed., P. 462)

"Si la distribución no es simétrica, el valor no está bien definido en el caso de dos lados, aunque muchos autores recomiendan duplicar el valor de unilateral " $p$ $p$ .

Los autores no discuten esto más a fondo, ni comentan sobre la "sugerencia de muchos autores" para duplicar el valor unilateral . (Esto crea la pregunta "¿duplicar el valor de qué lado? ¿Y por qué este lado y no el otro?) $p$ $p$

No pude encontrar ningún otro comentario, opinión o resultado sobre todo este asunto. Entiendo que con una distribución asimétrica, aunque podemos considerar un intervalo simétrico alrededor de la hipótesis nula con respecto al valor del parámetro, no tendremos la segunda simetría usual, la de la asignación de masa de probabilidad. Pero no entiendo por qué esto hace que el valor "no esté bien definido". Personalmente, al usar un intervalo simétrico alrededor de la hipótesis nula para los valores del estimador, no veo definiciones $p$ problema al decir "la probabilidad de que la distribución nula produzca valores iguales a los límites de, o fuera de este intervalo es XX". El hecho de que la masa de probabilidad en un lado sea diferente a la masa de probabilidad en el otro lado, no parece causar problemas, al menos para mis propósitos. Pero es más probable que Rohatgi y Saleh sepan algo que yo no.

Entonces esta es mi pregunta: ¿en qué sentido el valor está (o puede estar) "no bien definido" en el caso de una prueba de dos lados cuando la distribución nula no es simétrica? $p$

Una nota quizás importante: abordo el asunto más en un espíritu pescador, no estoy tratando de obtener una regla de decisión estricta en el sentido de Neyman-Pearson. Dejo que el usuario de la prueba use la información del valor junto con cualquier otra información para hacer inferencias. $p$

hypothesis-testing p-value Alecos Papadopoulos
fuente

Además de los enfoques basados en la probabilidad ("Fisherian") y los basados en LR (NP), otro método considera cómo obtener intervalos de confianza cortos y los utiliza para probar hipótesis. Esto se hace en el espíritu de la teoría de la decisión (y usando sus métodos), donde la longitud se incluye dentro de la función de pérdida. Para distribuciones simétricas unimodales del estadístico de prueba, obviamente, los intervalos más cortos posibles se obtienen usando intervalos simétricos (esencialmente "duplicando el valor p" de las pruebas unilaterales). Los intervalos de menor longitud dependen de la parametrización: por lo tanto, no pueden ser pescadores.

whuber

Me preguntaba si las respuestas publicadas aquí también serían aplicables en las distribuciones beta. Gracias.

JLT

@JLT: Sí, ¿por qué no?

Scortchi - Restablece a Monica

Respuestas:

Si observamos la prueba exacta de 2x2, y consideramos que ese es nuestro enfoque, lo que es "más extremo" podría medirse directamente por "menor probabilidad". (Agresti [1] menciona varios enfoques de varios autores para calcular dos valores p de cola solo para este caso de la prueba exacta de Fisher 2x2, de los cuales este enfoque es uno de los tres discutidos específicamente como 'más populares').

Para una distribución continua (unimodal), solo encuentra el punto en la otra cola con la misma densidad que su valor de muestra, y todo con igual o menor probabilidad en la otra cola se cuenta en su cálculo del valor p.

Para distribuciones discretas que no aumentan monótonamente en las colas, es casi tan simple. Simplemente cuenta todo con igual o menor probabilidad que su muestra, lo que dado los supuestos que agregué (para que el término "colas" se ajuste a la idea), ofrece una forma de resolverlo.

Si está familiarizado con los intervalos HPD (y nuevamente, estamos tratando con la unimodalidad), es básicamente como sacar todo fuera de un intervalo HPD abierto que está limitado en una cola por su estadística de muestra.

ingrese la descripción de la imagen aquí

[Para reiterar, esta es una probabilidad bajo la nula que estamos equiparando aquí.]

Entonces, al menos en el caso unimodal, parece bastante simple emular la prueba exacta de Fisher y aún hablar de las dos colas.

Sin embargo, es posible que no haya tenido la intención de invocar el espíritu de la prueba exacta de Fisher de esta manera.

Entonces, pensando fuera de esa idea de lo que hace que algo sea "como o más extremo" por un momento, vamos un poco más hacia el final de las cosas Neyman-Pearson. Puede ayudar (¡antes de la prueba!) Establecer la definición de una región de rechazo para una prueba realizada en algún nivel genérico (no quiero decir que tenga que calcular literalmente una, sino cómo calcularía una). Tan pronto como lo haga, la forma de calcular dos valores p de cola para su caso debería ser obvia. $\alpha$

Este enfoque puede ser valioso incluso si se está realizando una prueba fuera de la prueba de razón de probabilidad habitual. Para algunas aplicaciones, puede ser complicado descubrir cómo calcular los valores p en las pruebas de permutación asimétrica ... pero a menudo se vuelve mucho más simple si se piensa primero en una regla de rechazo.

Con las pruebas de varianza F, he notado que el "valor p de doble cola" puede dar valores p bastante diferentes a lo que veo como el enfoque correcto. [No debería importar a qué grupo llamas "muestra 1", o si pones la varianza más grande o más pequeña en el numerador.]

[1]: Agresti, A. (1992),
A Survey of Exact Inference for Contingency Tables
Statistical Science , vol. 7 , núm. 1. (febrero), págs. 131-153.

Glen_b -Reinstate a Monica
fuente

ctd ... Si estamos haciendo una prueba de razón de verosimilitud, la razón de verosimilitud siempre es de una cola, pero si construimos una prueba equivalente de dos colas basada en alguna estadística, entonces todavía buscamos razones de probabilidad más pequeñas para localizar "más extremos"

Glen_b -Reinstala Monica

Duplicar el valor p de una cola podría defenderse como una corrección de Bonferroni para llevar a cabo dos pruebas de una cola. Después de todo, después de una prueba de dos colas, generalmente estamos muy inclinados a considerar cualquier duda sobre la verdad de lo nulo como favorable a otra hipótesis cuya dirección está determinada por los datos.

Scortchi - Restablece a Monica

¡@Alecos es lo suficientemente simple como para justificar una elección simétrica! Me resulta difícil ver cómo leerías lo que escribí, sugiriendo que una elección simétrica no era de ninguna manera válida (esa elección está cubierta por la discusión que di sobre la regla del rechazo: puedes construir fácilmente una simétrica regla de rechazo). La primera parte de mi respuesta fue responder a la parte de la pregunta sobre Fisher. Si pregunta por Fisher, ¿no debería discutir lo que parece que Fisher podría hacer, en base a lo que hizo en circunstancias similares? Pareces interpretar mi respuesta como diciendo más de lo que es.

Glen_b -Reinstalar Monica

@Alecos En particular, no estoy abogando por los enfoques de Fisher o Neyman Pearson (ya sea que estemos hablando de pruebas de razón de probabilidad o solo pruebas de hipótesis de manera más general), ni debería considerar que estoy tratando de sugerir que algo que he omitido podría estar mal . Solo estoy discutiendo una serie de cosas que parecía plantear en su pregunta.

Glen_b -Reinstalar Monica

En definitiva sí. Lo bueno del enfoque de Fisher es que brinda una forma muy sensata de llegar a un valor p sin siquiera tener una alternativa. Pero si tiene alternativas específicas de interés, puede orientar su región de rechazo de manera más o menos precisa a esas alternativas declarando las partes del espacio muestral donde las alternativas tenderán a colocar sus muestras como región de rechazo. Un estadístico de prueba, T, es una forma conveniente de lograr eso, en esencia asociando un solo número con cada punto en él (dándonos un 'más extremo' según lo medido por T). ...

ctd

$S$ $T$ $S$ $T=|S|$

$t=\min(\Pr_{H_0}(S<s),\Pr_{H_0}(S>s))$ $S$ $2t$

$S$ $S$ $T=f_S(S)$ $X$ $1.66$ $-1.66$

pag = Pr (X > 1,66) + Pr (X < - 1,66) = 0,048457 + 0,048457 = 0.09691.

$p=\Pr(X > 1.66) +\Pr(X<-1.66)=0.048457+0.048457=0.09691.$

Y

$Y$

e^{1.66} = 5.2593

$\mathrm{e}^{1.66}=5.2593$

0.025732

$0.025732$

= e^{- 3.66}

$=\mathrm{e}^{-3.66}$

pag = Pr (Y > 5.2593) + Pr (Y < 0,025732) = 0,048457 + 0.00012611 = 0.04858.

$p=\Pr(Y>5.2593) +\Pr(Y<0.025732)=0.048457+0.00012611=0.04858.$

\begin{aligned} pag = 2 t & = 2 min (Pr (X < 1,66), Pr (X > 1,66)) \\ = 2 min (Pr (Y < 5.2593), Pr (Y > 5.2593)) \\ = 2 min (0,048457, 0.951543) \\ = 2 \times 0,048457 = 0.09691. \end{aligned}

$\begin{align}p=2t&=2\min(\Pr(X<1.66),\Pr(X>1.66))\\&=2\min(\Pr(Y<5.2593),\Pr(Y>5.2593))\\&=2\min(0.048457,0.951543)\\&=2\times 0.048457=0.09691.\end{align}$

Aquí se puede encontrar una especie de secuela de esta respuesta, donde se discuten algunos principios de construcción de pruebas en los que se establece explícitamente la hipótesis alternativa .

$S$

{pag}_{L} = \underset{H_{0 0}}{Pr} (S \leq s)

$p_\mathrm{L} = \Pr_{H_0}(S\leq s)$

{pag}_{U} = \underset{H_{0 0}}{Pr} (S \geq s)

$p_\mathrm{U} = \Pr_{H_0}(S\geq s)$

para los valores p de una cola inferior y superior, el valor p de dos colas viene dado por

Pr (T \leq t) = {\begin{cases} {pag}_{L} + \underset{H_{0 0}}{Pr} ({PAG}_{U} \leq {pag}_{L}) & cuando {pag}_{L} \leq {pag}_{U} \\ {pag}_{U} + \underset{H_{0 0}}{Pr} ({PAG}_{L} \leq {pag}_{U}) & de otra manera \end{cases}

$\Pr(T\leq t) = \begin{cases} p_\mathrm{L} + \Pr_{H_0}(P_\mathrm{U} \leq p_\mathrm{L}) & \text{when}\ p_\mathrm{L} \leq p_\mathrm{U}\\ p_\mathrm{U} + \Pr_{H_0}(P_\mathrm{L} \leq p_\mathrm{U}) & \text{otherwise} \end{cases}$

$2t$

Scortchi - Restablece a Monica
fuente

Oh wow. Este es un muy buen punto, +1. ¿Cuál es tu consejo entonces? Además, ¿puedo interpretar esta discrepancia como correspondiente a diferentes elecciones (en este caso implícitas) del estadístico de prueba?

ameba dice Reinstate Monica

@amoeba: ¡No es un error tipográfico! Y cuando observa 1.66, toma el mínimo de 0.952 y 0.048. Si realmente observó -3.66, sería el mínimo de 0.0001 y 0.9999.

Scortchi - Restablece a Monica

@Scortchi Acabo de aceptar la respuesta de Glen_b porque fue más "útil" para mí en sentido estricto. Pero la suya me ayudó a evitar la trampa de pensar que "eso es todo", que es una excelente póliza de seguro para riesgos futuros. Gracias de nuevo.

Alecos Papadopoulos

@Scortchi, tengo que estar de acuerdo; mi respuesta adoptó una visión bastante simplista y unilateral, y debería calificar, ampliar y justificar la respuesta. Probablemente lo haré en varias etapas.

Glen_b -Reinstate Monica

@Glen_b: Gracias, lo espero con ansias. También quiero extender el mío para mostrar cómo las pruebas de puntaje y las pruebas de razón de probabilidad generalizadas dan diferentes respuestas (en general); Y la teoría de las pruebas imparciales es digna de mención en este contexto (pero apenas puedo recordarlo).

Scortchi - Restablece a Monica