Mientras leo el libro All of Statistics de Wassermann, noto una fina sutileza en la definición de los valores p, que no puedo entender. Informalmente, Wassermann define el valor p como
[..] la probabilidad (bajo ) de observar un valor del estadístico de prueba igual o más extremo de lo que realmente se observó.
Énfasis añadido. Lo mismo más formalmente (Teorema 10.12):
Suponga que la prueba de tamaño tiene la forma
rechazar si y solo si .
Entonces,
donde es el valor observado de . Si entonces
Además, Wassermann define el valor p de la prueba \ chi ^ 2 de Pearson (y otras pruebas de forma análoga) como:
La parte que me gustaría pedir aclaraciones es el signo mayor-igual ( ) en el primer signo y el signo mayor ( ) en la segunda definición. ¿Por qué no escribimos , que coincidiría con la primera cita de " igual o más extremo"?
¿Es pura conveniencia para que calculemos el valor p como ? Noté que R también usa la definición con el signo , por ejemplo, en .chisq.test
Respuestas:
"Como o más extremo" es correcto.
Formalmente, entonces, si la distribución es tal que la probabilidad de obtener el estadístico de prueba en sí es positiva, esa probabilidad (y cualquier cosa igualmente extrema, como el valor correspondiente en la otra cola) debe incluirse en el valor p.
Por supuesto, con una estadística continua, esa probabilidad de igualdad exacta es 0. No importa si decimos o .> ≥
fuente
El primer punto de es que el espacio de hipótesis está topológicamente cerrado dentro de todo el espacio de parámetros. Sin considerar la aleatoriedad, esta puede ser una convención útil si tiene alguna afirmación sobre una secuencia convergente de parámetros que pertenecen a la hipótesis porque entonces sabría que el límite no pertenece repentinamente a la alternativa.≥
Ahora considerando las distribuciones de probabilidad, son (generalmente) continuas a la derecha. Eso significa que el mapeo del espacio de hipótesis cerrada al intervalo se cierra nuevamente. Es por eso que los intervalos de confianza también están cerrados por convención.[0,1]
Esto mejora las matemáticas. Imagínese, construiría un intervalo de confianza para el parámetro de ubicación de una distribución de probabilidad asimétrica. Allí, tendrías que cambiar la longitud a la cola superior por la longitud a la cola inferior. La probabilidad en ambas colas debe sumar . Para que el CI sea lo más informativo posible, deberá acortar la longitud del CI de modo que su probabilidad de cobertura siga siendo . Este es un conjunto cerrado. Puede encontrar una solución óptima allí mediante algún algoritmo iterativo, por ejemplo, el teorema del punto fijo de Banach. Si fuera un conjunto abierto, no puede hacer esto.α ≥1−α
fuente