El valor P se define como la probabilidad de obtener una estadística de prueba al menos tan extrema como la observada, suponiendo que la hipótesis nula sea verdadera. En otras palabras,
¿Pero qué pasa si el estadístico de prueba es bimodal en distribución? ¿El valor p significa algo en este contexto? Por ejemplo, voy a simular algunos datos bimodales en R:
set.seed(0)
# Generate bi-modal distribution
bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5))
hist(bimodal, breaks=100)
Y supongamos que observamos un valor estadístico de prueba de 60. Y aquí sabemos por la imagen que este valor es muy poco probable . Entonces, idealmente, me gustaría un procedimiento estadístico que use (digamos, valor p) para revelar esto. Pero si calculamos el valor p como se define, obtenemos un valor p bastante alto
observed <- 60
# Get P-value
sum(bimodal[bimodal >= 60])/sum(bimodal)
[1] 0.7991993
Si no supiera la distribución, concluiría que lo que observé es simplemente por casualidad. Pero sabemos que esto no es cierto.
Creo que la pregunta que tengo es: ¿Por qué, al calcular el valor p, calculamos la probabilidad de los valores "al menos tan extremos como" los observados? Y si encuentro una situación como la que simulé anteriormente, ¿cuál es la solución alternativa?
Respuestas:
Lo que hace que un estadístico de prueba sea "extremo" depende de su alternativa, que impone un orden (o al menos un orden parcial) en el espacio muestral; busca rechazar los casos más consistentes (en el sentido de que se miden por un estadístico de prueba) con La alternativa.
Cuando realmente no tienes una alternativa para darte algo con lo que ser más consistente, esencialmente te queda la posibilidad de dar el pedido, lo que se ve con mayor frecuencia en la prueba exacta de Fisher. Allí, la probabilidad de los resultados (las tablas de 2x2) bajo el nulo ordena el estadístico de prueba (de modo que 'extremo' es 'baja probabilidad').
Si estuviera en una situación en la que la extrema izquierda (o la extrema derecha, o ambas) de su distribución nula bimodal estaba asociada con el tipo de alternativa que le interesaba, no buscaría rechazar una estadística de prueba de 60. Pero si estás en una situación en la que no tienes una alternativa como esa, entonces 60 es inusual, tiene poca probabilidad; un valor de 60 es inconsistente con su modelo y lo llevaría a rechazar.
[Esto sería visto por algunos como una diferencia central entre las pruebas de hipótesis de Fisherian y Neyman-Pearson. Al introducir una alternativa explícita y una proporción de probabilidades, una baja probabilidad bajo el valor nulo no necesariamente hará que rechace en un marco de Neyman-Pearson (siempre que funcione relativamente bien en comparación con la alternativa), mientras que para Fisher, realmente no tienes una alternativa, y la probabilidad bajo nulo es lo que te interesa.]
No estoy sugiriendo que ninguno de los enfoques sea correcto o incorrecto aquí: continúe y descubra por sí mismo qué tipo de alternativas busca poder, ya sea específico o simplemente cualquier cosa que sea poco probable bajo el nulo. Una vez que sabes lo que quieres, el resto (incluido lo que significa "al menos tan extremo") se deduce de eso.
fuente