Así que he estado leyendo mucho sobre cómo interpretar correctamente un valor P, y de lo que he leído, el valor p no dice NADA sobre la probabilidad de que la hipótesis nula sea verdadera o falsa. Sin embargo, al leer la siguiente declaración:
El valor p representa la probabilidad de cometer un error de tipo I o rechazar la hipótesis nula cuando es verdadera. Cuanto menor es el valor p, menor es la probabilidad de que rechace erróneamente la hipótesis nula.
EDITAR: Y luego, 5 minutos después, leí:
Las interpretaciones incorrectas de los valores de P son muy comunes. El error más común es interpretar un valor de P como la probabilidad de cometer un error al rechazar una hipótesis nula verdadera (un error de Tipo I).
Esto me confundio. ¿Cuál es el correcto? ¿Y alguien puede explicar cómo interpretar correctamente el valor p y cómo se relaciona correctamente con la probabilidad de cometer un error tipo I?
fuente
The p – value represents the probability of making a type I error, or rejecting the null hypothesis when it is true
El valor p representa la probabilidad anterior de cometer un error tipo I, es decir, de rechazar la hipótesis nula bajo el supuesto de que es cierta.Respuestas:
Debido a sus comentarios, haré dos secciones separadas:
valores p
En las pruebas de hipótesis estadísticas puede encontrar 'evidencia estadística' para la hipótesis alternativa ; Como expliqué en ¿Qué sigue si no rechazamos la hipótesis nula? , es similar a 'prueba por contradicción' en matemáticas.
Entonces, si queremos encontrar 'evidencia estadística', entonces asumimos lo contrario, lo que denotamos de lo que intentamos probar, lo que llamamos H 1 . Después de esto, extraemos una muestra, y de la muestra calculamos una llamada estadística de prueba (por ejemplo, un valor t en una prueba t).H0 H1
Entonces, como suponemos que es verdadero y que nuestra muestra se extrae aleatoriamente de la distribución bajo H 0 , podemos calcular la probabilidad de observar valores que exceden o son iguales al valor derivado de nuestra muestra (aleatoria). Esta probabilidad se llama valor p.H0 H0
Si este valor es "suficientemente pequeño", es decir, más pequeño que el nivel de significancia que hemos elegido, entonces rechazamos y consideramos que H 1 está "estadísticamente probado".H0 H1
Varias cosas son importantes en esta forma de hacer:
Entonces, ¿qué es un error de tipo I? Se produce un error de tipo I cuando la muestra, extraída aleatoriamente de , lleva a la conclusión de que H 0 es falsa mientras que en realidad es verdadera.H0 0 H0 0
Tenga en cuenta que esto implica que un valor de p no es la probabilidad de un error tipo I . De hecho, un error de tipo I es una decisión incorrecta de la prueba y la decisión solo se puede tomar comparando el valor p con el nivel de significancia elegido, solo con un valor p no se puede tomar una decisión, solo después de comparar el valor p al nivel de significancia elegido para que se tome una decisión , y mientras no se tome una decisión, el error tipo I ni siquiera se define.
¿Cuál es entonces el valor p? El rechazo potencialmente incorrecto de se debe al hecho de que sacamos una muestra aleatoria debajo de H 0 , por lo que podría ser que tengamos '' mala suerte '' al extraer la muestra, y que esta '' mala suerte '' genere a un falso rechazo de H 0 . Entonces, el valor p (aunque esto no es del todo correcto) es más parecido a la probabilidad de obtener una '' mala muestra ''. La interpretación correcta del valor p es que es la probabilidad de que el estadístico de prueba exceda o iguale el valor del estadístico de prueba derivado de una muestra extraída al azar bajo H 0H0 H0 H0 H0
Tasa de descubrimiento falso (FDR)
Como se explicó anteriormente, cada vez que se rechaza la hipótesis nula, se considera esto como 'evidencia estadística' para . Así que hemos encontrado nuevos conocimientos científicos, por lo tanto, se llama descubrimiento . También se explicó anteriormente que podemos hacer descubrimientos falsos (es decir, rechazar falsamente H 0 ) cuando cometemos un error de tipo I. En ese caso tenemos una falsa creencia de una verdad científica. Solo queremos descubrir cosas realmente verdaderas y, por lo tanto, uno trata de mantener los descubrimientos falsos al mínimo, es decir, controlará un error tipo I. No es tan difícil ver que la probabilidad de un error de tipo I es el nivel de significancia elegido α . Entonces, para controlar los errores de tipo I, uno corrige un αH1 H0 α α -nivel que refleja su disposición a aceptar '' evidencia falsa ''.
Intuitivamente, esto significa que si extraemos una gran cantidad de muestras, y con cada muestra realizamos la prueba, entonces una fracción de estas pruebas conducirá a una conclusión errónea. Es importante tener en cuenta que estamos 'promediando muchas muestras' ; Así que la misma prueba, muchas muestras.α
Si usamos la misma muestra para hacer muchas pruebas diferentes, entonces tenemos un error de prueba múltiple (vea mi respuesta en Límite de error familiar: ¿Reutilizar conjuntos de datos en diferentes estudios de preguntas independientes conduce a problemas de prueba múltiples? ). En ese caso, se puede controlar la inflación utilizando técnicas para controlar la tasa de error familiar (FWER) , como, por ejemplo, una corrección de Bonferroni.α
Un enfoque diferente que FWER es controlar la tasa de descubrimiento falso (FDR) . En ese caso, uno controla el número de descubrimientos falsos (FD) entre todos los descubrimientos (D), por lo que uno controla , D es el número deH0rechazado.FDD H0
Entonces, la probabilidad de error de tipo I tiene que ver con la ejecución de la misma prueba en muchas muestras diferentes. Para una gran cantidad de muestras, la probabilidad de error tipo I convergerá a la cantidad de muestras que conducen a un falso rechazo dividido por la cantidad total de muestras extraídas .
El FDR tiene que ver con muchas pruebas en la misma muestra y para una gran cantidad de pruebas convergerá con la cantidad de pruebas donde se comete un error tipo I (es decir, la cantidad de descubrimientos falsos) dividido por la cantidad total de rechazos de (es decir, el número total de descubrimientos)H0 .
Tenga en cuenta que, comparando los dos párrafos anteriores:
El FDR le dice que, si realiza muchas pruebas en la misma muestra y encuentra 1000 descubrimientos (es decir, rechazos de ), entonces con un FDR de 0.38 tendrá 0.38 × 1000 descubrimientos falsos.H0 0.38×1000
fuente
The correct interpretation of the p-value is that it is the probability that the test-statistic exceeds the value of the test-statistic derived from a randomly drawn sample under H0
Es asi? ¿No es "igual o superior"? El valor P es el problema de que bajo H0 verdadero observamos la diferencia o asociación esto o más fuerte que el realmente observado.La primera afirmación no es estrictamente cierta.
De un ingenioso artículo sobre el malentendido de importancia: ( http://myweb.brooklyn.liu.edu/cortiz/PDF%20Files/Misinterpretations%20of%20Significance.pdf )
Más simplemente, para evaluar la probabilidad de que haya rechazado incorrectamente H0, necesita la probabilidad de que H0 sea verdadera, lo que simplemente no puede obtener con esta prueba.
fuente
La interpretación correcta de un valor p es la probabilidad condicional de un resultado al menos tan conductor de la hipótesis alternativa como el valor observado (al menos como "extremo"), suponiendo que la hipótesis nula sea verdadera . Las interpretaciones incorrectas generalmente implican una probabilidad marginal o un cambio de la condición:
fuente
El valor p nos permite determinar si la hipótesis nula (o la hipótesis reclamada) puede ser rechazada o no. Si el valor p es menor que el nivel de significancia, α, entonces esto representa un resultado estadísticamente significativo, y la hipótesis nula debe ser rechazada. Si el valor p es mayor que el nivel de significancia, α, entonces la hipótesis nula no puede ser rechazada. Esta es la razón de buscar el valor p si está usando la tabla o una calculadora en línea, como esta, la calculadora de valor p , para encontrar el valor p del estadístico de prueba.
Ahora sé que mencionó los errores de tipo I y tipo II. Esto realmente no tiene nada que ver con el valor p. Esto tiene que ver con los datos originales, como el tamaño de la muestra utilizada y los valores obtenidos para los datos. Si el tamaño de la muestra es demasiado pequeño, por ejemplo, esto puede conducir a un error tipo I.
fuente