Sé que hay muchos materiales que explican el valor p. Sin embargo, el concepto no es fácil de entender con firmeza sin más aclaraciones.
Aquí está la definición del valor p de Wikipedia:
El valor p es la probabilidad de obtener un estadístico de prueba al menos tan extremo como el que se observó realmente, suponiendo que la hipótesis nula sea verdadera. ( http://en.wikipedia.org/wiki/P-value )
Mi primera pregunta se refiere a la expresión "al menos tan extrema como la que realmente se observó". Mi comprensión de la lógica subyacente al uso del valor p es la siguiente: si el valor p es pequeño, es poco probable que la observación se produzca suponiendo la hipótesis nula y es posible que necesitemos una hipótesis alternativa para explicar la observación. Si el valor p no es tan pequeño, es probable que la observación ocurriera solo suponiendo la hipótesis nula y la hipótesis alternativa no es necesaria para explicar la observación. Entonces, si alguien quiere insistir en una hipótesis, debe demostrar que el valor p de la hipótesis nula es muy pequeño. Con esta opinión en mente, mi comprensión de la expresión ambigua es que el valor p es , si el PDF del estadístico es unimodal, donde es el estadístico de prueba es su valor obtenido de la observación. ¿Es esto correcto? Si es correcto, ¿sigue siendo aplicable utilizar el PDF bimodal de la estadística? Si dos picos del PDF están bien separados y el valor observado se encuentra en algún lugar de la región de baja densidad de probabilidad entre los dos picos, ¿a qué intervalo da el valor p la probabilidad de?
La segunda pregunta es sobre otra definición de valor p de Wolfram MathWorld:
La probabilidad de que una variante asuma un valor mayor o igual al valor observado estrictamente por casualidad. ( http://mathworld.wolfram.com/P-Value.html )
Comprendí que la frase "estrictamente por casualidad" debería interpretarse como "suponiendo una hipótesis nula". ¿Está bien?
La tercera pregunta se refiere al uso de la "hipótesis nula". Supongamos que alguien quiere insistir en que una moneda es justa. Expresa la hipótesis ya que esa frecuencia relativa de cabezas es 0.5. Entonces la hipótesis nula es "la frecuencia relativa de las cabezas no es 0.5". En este caso, mientras que calcular el valor p de la hipótesis nula es difícil, el cálculo es fácil para la hipótesis alternativa. Por supuesto, el problema puede resolverse intercambiando el papel de las dos hipótesis. Mi pregunta es que el rechazo o la aceptación basados directamente en el valor p de la hipótesis alternativa original (sin introducir la hipótesis nula) es si está bien o no. Si no está bien, ¿cuál es la solución habitual para tales dificultades al calcular el valor p de una hipótesis nula?
Publiqué una nueva pregunta que se aclara más en base a la discusión en este hilo.
Respuestas:
Primera respuesta
Debe pensar en el concepto de extremo en términos de probabilidad de las estadísticas de prueba, no en términos de su valor o el valor de la variable aleatoria que se está probando. Presento el siguiente ejemplo de Christensen, R. (2005). Prueba de Fisher, Neyman, Pearson y Bayes . El estadístico estadounidense , 59 (2), 121-126
Aquí son las observaciones, la segunda línea es la probabilidad de observar una observación dada bajo la hipótesis nula θ = 0 , que se utiliza aquí como estadísticas de prueba, la tercera línea es el p valor. Estamos aquí en el marco de la prueba de Fisherian: hay una hipótesis ( H 0 , en este caso θ = 0 ) bajo la cual queremos ver si los datos son extraños o no. Las observaciones con la probabilidad más pequeña son 2 y 3 con 0.5% cada una. Si obtiene 2, por ejemplo, la probabilidad de observar algo como probable o menos probable ( r = 2 y r = 3r θ=0 p H0 θ=0 r=2 r=3 ) es del 1%. La observación no contribuye al valor p , aunque está más lejos (si existe una relación de orden), porque tiene una mayor probabilidad de ser observada.r=4 p
Esta definición funciona en general, ya que acomoda variables categóricas y multidimensionales, donde una relación de orden no está definida. En el caso de una variable cuantitativa ingle, donde se observa algún sesgo del resultado más probable, podría tener sentido calcular el valor p de cola única y considerar solo las observaciones que están en un lado de la distribución de estadísticas de prueba.p
Segunda respuesta
No estoy totalmente de acuerdo con esta definición de Mathworld.
Tercera respuesta
Tengo que decir que no estoy completamente seguro de haber entendido su pregunta, pero trataré de dar algunas observaciones que podrían ayudarlo.
En el contexto más simple de las pruebas de Fisherian, donde solo tiene la hipótesis nula, este debería ser el status quo . Esto se debe a que las pruebas de Fisherian funcionan esencialmente por contradicción. Entonces, en el caso de la moneda, a menos que tenga razones para pensar de manera diferente, supondría que es justo, . Luego calcula el valor p para sus datos bajo H 0 y, si su valor p está por debajo de un umbral predefinido, rechaza la hipótesis (prueba por contradicción). Usted nunca se calcule la probabilidad de que la hipótesis nula.H0:θ=0.5 p H0 p
Con las pruebas de Neyman-Pearson, especifica dos hipótesis alternativas y, en función de su probabilidad relativa y la dimensionalidad de los vectores de parámetros, favorece una u otra. Esto se puede ver, por ejemplo, al probar la hipótesis de la moneda sesgada frente a la imparcial. Imparcial significa fijar el parámetro a (la dimensionalidad de este espacio de parámetros es cero), mientras que sesgado puede ser cualquier valor θ ≠ 0.5 (dimensionalidad igual a uno). Esto resuelve el problema de tratar de contradecir la hipótesis de sesgo por contradicción, lo que sería imposible, como lo explicó otro usuario. Fisher y NP dan resultados similares cuando la muestra es grande, pero no son exactamente equivalentes. Aquí debajo un código simple en R para una moneda sesgada.θ=0.5 θ≠0.5
fuente
(1) Una estadística es un número que puede calcular a partir de una muestra. Se utiliza para ordenar todas las muestras que pueda haber obtenido (en un modelo asumido, donde las monedas no caen en sus bordes y lo que tiene). Si es lo que calcula a partir de la muestra que realmente obtuvo, y T es la variable aleatoria correspondiente, entonces el valor p viene dado por P r ( T ≥ t ) bajo la hipótesis nula, H 0 . 'Mayor que' vs 'más extremo' no es importante en principio. Para una prueba de dos lados en una media normal, podríamos usar P r ( | Z | ≥ | z | )t T Pr(T≥t) H0 Pr(|Z|≥|z|) pero es conveniente usar
porque tenemos las tablas apropiadas. (Tenga en cuenta la duplicación).2min[Pr(Z≥z),Pr(Z≤z)]
No es necesario que el estadístico de prueba ponga las muestras en orden de probabilidad bajo la hipótesis nula. Hay situaciones (como el ejemplo de Zag) en las que cualquier otra forma parecería perversa (sin más información sobre qué medidas , qué tipos de discrepancias con H 0 son de mayor interés, etc.), pero a menudo se utilizan otros criterios. Por lo tanto, podría tener un PDF bimodal para la estadística de prueba y aún probar H 0 utilizando la fórmula anterior.r H0 H0
(2) Sí, significan bajo .H0
(3) Una hipótesis nula como "La frecuencia de las cabezas no es 0.5" no sirve de nada porque nunca podría rechazarla. Es un nulo compuesto que incluye "la frecuencia de los cabezales es 0.49999999", o tan cerca como desee. Ya sea que pienses de antemano que la moneda es justa o no, eliges una hipótesis nula útil que tiene relación con el problema. Quizás más útil después del experimento es calcular un intervalo de confianza para la frecuencia de las caras que muestra que claramente no es una moneda justa, o es lo suficientemente cerca de la feria, o necesita hacer más pruebas para averiguarlo.
Una ilustración para (1):
Probablemente estarás de acuerdo conmigo en que los dos primeros parecen un poco sospechosos. Sin embargo, las probabilidades bajo nulo son iguales:
Para llegar a cualquier lugar, debe considerar qué tipos de alternativas al valor nulo desea probar. Si está preparado para asumir la independencia de cada lanzamiento bajo nulo y alternativo (y en situaciones reales, esto a menudo significa trabajar muy duro para garantizar que las pruebas experimentales sean independientes), puede usar el recuento total de cabezas como una estadística de prueba sin perder información . (Particionar el espacio muestral de esta manera es otro trabajo importante que hacen las estadísticas).
Entonces tienes un conteo entre 0 y 10
Su distribución bajo nulo es
Bajo la versión de la alternativa que mejor se ajusta a los datos, si ve (por ejemplo) 3 de cada 10 caras, la probabilidad de caras es310 , entonces
Tome la razón de la probabilidad bajo nulo a la probabilidad bajo la alternativa (llamada razón de probabilidad):
Comparar con
Entonces, para este nulo, las dos muestras de orden de estadísticas de la misma manera. Si repite con un valor nulo de 0,85 (es decir, prueba de que la frecuencia a largo plazo de los cabezales es del 85%), no lo hacen.
Para ver por qué
Y eso está bien: cada muestra puede considerarse extrema desde algún punto de vista. Usted elige la estadística de prueba de acuerdo con el tipo de discrepancia con el valor nulo que desea poder detectar.
La secuencia sospechosa
mientras que en el otro extremo
tenerr = 1 . Usando la probabilidad bajo el nulo como estadística de prueba (de la manera que desee) puede decir que el valor p de la muestra
es, por lo tanto4 41024= 1256 . Lo que es digno de mención, al comparar esta prueba con la anterior, es que incluso si se atiene estrictamente al orden dado por la probabilidad bajo nulo, la forma en que define su estadística de prueba para dividir el espacio muestral depende de la consideración de alternativas.
fuente