¿Malentendido un valor P?

16

Así que he estado leyendo mucho sobre cómo interpretar correctamente un valor P, y de lo que he leído, el valor p no dice NADA sobre la probabilidad de que la hipótesis nula sea verdadera o falsa. Sin embargo, al leer la siguiente declaración:

El valor p representa la probabilidad de cometer un error de tipo I o rechazar la hipótesis nula cuando es verdadera. Cuanto menor es el valor p, menor es la probabilidad de que rechace erróneamente la hipótesis nula.

EDITAR: Y luego, 5 minutos después, leí:

Las interpretaciones incorrectas de los valores de P son muy comunes. El error más común es interpretar un valor de P como la probabilidad de cometer un error al rechazar una hipótesis nula verdadera (un error de Tipo I).

Esto me confundio. ¿Cuál es el correcto? ¿Y alguien puede explicar cómo interpretar correctamente el valor p y cómo se relaciona correctamente con la probabilidad de cometer un error tipo I?

rb612
fuente
1
The p – value represents the probability of making a type I error, or rejecting the null hypothesis when it is trueEl valor p representa la probabilidad anterior de cometer un error tipo I, es decir, de rechazar la hipótesis nula bajo el supuesto de que es cierta.
ttnphns
44
@Paul: la probabilidad de rechazar el nulo condicional en que el nulo sea verdadero es la probabilidad de un error de tipo I, esto no es lo mismo que un valor p. La probabilidad de un error de tipo I es igual (para variables aleatorias continuas) al nivel de significancia elegido, vea también mi respuesta a continuación.
Sí, ya veo, tienes toda la razón.
Paul
44
@fcoppens La probabilidad de un error de tipo I solo es igual al nivel alfa elegido previamente si usted condiciona que la hipótesis nula sea verdadera. En un caso incondicional, no sabe si el nulo es verdadero o falso, por lo que solo puede especificar una probabilidad de error de tipo I si proporciona una probabilidad previa de la verdad del nulo.
Michael Lew - readmitir a Mónica
@Michael Lew: ¿Este condicionamiento en el nulo se menciona en mi respuesta a continuación?

Respuestas:

25

Debido a sus comentarios, haré dos secciones separadas:

valores p

En las pruebas de hipótesis estadísticas puede encontrar 'evidencia estadística' para la hipótesis alternativa ; Como expliqué en ¿Qué sigue si no rechazamos la hipótesis nula? , es similar a 'prueba por contradicción' en matemáticas.

Entonces, si queremos encontrar 'evidencia estadística', entonces asumimos lo contrario, lo que denotamos de lo que intentamos probar, lo que llamamos H 1 . Después de esto, extraemos una muestra, y de la muestra calculamos una llamada estadística de prueba (por ejemplo, un valor t en una prueba t).H0H1

Entonces, como suponemos que es verdadero y que nuestra muestra se extrae aleatoriamente de la distribución bajo H 0 , podemos calcular la probabilidad de observar valores que exceden o son iguales al valor derivado de nuestra muestra (aleatoria). Esta probabilidad se llama valor p.H0H0

Si este valor es "suficientemente pequeño", es decir, más pequeño que el nivel de significancia que hemos elegido, entonces rechazamos y consideramos que H 1 está "estadísticamente probado".H0 0H1

Varias cosas son importantes en esta forma de hacer:

  • hemos derivado probabilidades bajo el supuesto de que es verdaderoH0 0
  • hemos tomado una muestra aleatoria de la distribución que se asumió bajo H0 0
  • que decidir tener evidencias encontradas para si la prueba estadística derivada de la muestra al azar tiene una baja probabilidad de ser excedido. Por lo tanto, no es imposible que se exceda mientras H 0 es verdadero y en estos casos cometemos un error de tipo I. H1H0 0

Entonces, ¿qué es un error de tipo I? Se produce un error de tipo I cuando la muestra, extraída aleatoriamente de , lleva a la conclusión de que H 0 es falsa mientras que en realidad es verdadera.H0 0H0 0

Tenga en cuenta que esto implica que un valor de p no es la probabilidad de un error tipo I . De hecho, un error de tipo I es una decisión incorrecta de la prueba y la decisión solo se puede tomar comparando el valor p con el nivel de significancia elegido, solo con un valor p no se puede tomar una decisión, solo después de comparar el valor p al nivel de significancia elegido para que se tome una decisión , y mientras no se tome una decisión, el error tipo I ni siquiera se define.

¿Cuál es entonces el valor p? El rechazo potencialmente incorrecto de se debe al hecho de que sacamos una muestra aleatoria debajo de H 0 , por lo que podría ser que tengamos '' mala suerte '' al extraer la muestra, y que esta '' mala suerte '' genere a un falso rechazo de H 0 . Entonces, el valor p (aunque esto no es del todo correcto) es más parecido a la probabilidad de obtener una '' mala muestra ''. La interpretación correcta del valor p es que es la probabilidad de que el estadístico de prueba exceda o iguale el valor del estadístico de prueba derivado de una muestra extraída al azar bajo H 0H0H0H0H0


Tasa de descubrimiento falso (FDR)

Como se explicó anteriormente, cada vez que se rechaza la hipótesis nula, se considera esto como 'evidencia estadística' para . Así que hemos encontrado nuevos conocimientos científicos, por lo tanto, se llama descubrimiento . También se explicó anteriormente que podemos hacer descubrimientos falsos (es decir, rechazar falsamente H 0 ) cuando cometemos un error de tipo I. En ese caso tenemos una falsa creencia de una verdad científica. Solo queremos descubrir cosas realmente verdaderas y, por lo tanto, uno trata de mantener los descubrimientos falsos al mínimo, es decir, controlará un error tipo I. No es tan difícil ver que la probabilidad de un error de tipo I es el nivel de significancia elegido α . Entonces, para controlar los errores de tipo I, uno corrige un αH1H0αα-nivel que refleja su disposición a aceptar '' evidencia falsa ''.

Intuitivamente, esto significa que si extraemos una gran cantidad de muestras, y con cada muestra realizamos la prueba, entonces una fracción de estas pruebas conducirá a una conclusión errónea. Es importante tener en cuenta que estamos 'promediando muchas muestras' ; Así que la misma prueba, muchas muestras. α

Si usamos la misma muestra para hacer muchas pruebas diferentes, entonces tenemos un error de prueba múltiple (vea mi respuesta en Límite de error familiar: ¿Reutilizar conjuntos de datos en diferentes estudios de preguntas independientes conduce a problemas de prueba múltiples? ). En ese caso, se puede controlar la inflación utilizando técnicas para controlar la tasa de error familiar (FWER) , como, por ejemplo, una corrección de Bonferroni.α

Un enfoque diferente que FWER es controlar la tasa de descubrimiento falso (FDR) . En ese caso, uno controla el número de descubrimientos falsos (FD) entre todos los descubrimientos (D), por lo que uno controla , D es el número deH0rechazado.FDDH0

Entonces, la probabilidad de error de tipo I tiene que ver con la ejecución de la misma prueba en muchas muestras diferentes. Para una gran cantidad de muestras, la probabilidad de error tipo I convergerá a la cantidad de muestras que conducen a un falso rechazo dividido por la cantidad total de muestras extraídas .

El FDR tiene que ver con muchas pruebas en la misma muestra y para una gran cantidad de pruebas convergerá con la cantidad de pruebas donde se comete un error tipo I (es decir, la cantidad de descubrimientos falsos) dividido por la cantidad total de rechazos de (es decir, el número total de descubrimientos)H0 .

Tenga en cuenta que, comparando los dos párrafos anteriores:

  1. El contexto es diferente; una prueba y muchas muestras versus muchas pruebas y una muestra.
  2. El denominador para calcular la probabilidad de error de tipo I es claramente diferente del denominador para calcular el FDR. Los numeradores son similares en cierta forma, pero tienen un contexto diferente.

El FDR le dice que, si realiza muchas pruebas en la misma muestra y encuentra 1000 descubrimientos (es decir, rechazos de ), entonces con un FDR de 0.38 tendrá 0.38 × 1000 descubrimientos falsos.H00.38×1000

Tallo verde
fuente
55
The correct interpretation of the p-value is that it is the probability that the test-statistic exceeds the value of the test-statistic derived from a randomly drawn sample under H0Es asi? ¿No es "igual o superior"? El valor P es el problema de que bajo H0 verdadero observamos la diferencia o asociación esto o más fuerte que el realmente observado.
ttnphns
@ttnphns Para una estadística de prueba continua no hay diferencia porque la medida de un punto es cero. Para una estadística de prueba discreta tiene razón (+1). Cambié el texto en consecuencia.
1
Haces una distinción muy útil entre los valores P y las tasas de error tipo I, pero creo que debes ser más cauteloso con la palabra "probado". Agregar el modificador "estadísticamente" no lo suaviza lo suficiente, en mi opinión.
Michael Lew - reinstalar a Mónica el
1
Ha tratado la evidencia como si solo tuviera un estado binario: existe y no existe. En la comprensión estándar de la evidencia no estadística, el concepto de palabra tiene una existencia gradual, y es más complicado de lo que puede capturar una sola dimensión de fuerza. La dificultad proviene de la incompatibilidad de las consideraciones de tasa de error con las interpretaciones ordinarias de la evidencia. Me interesaría mucho leer cualquier relato que capture la interpretación no binaria de 'evidencia' en el marco de FDR. (Todavía no he visto uno.)
Michael Lew - reinstalar a Mónica el
1
Gracias por la corrección. Hice el cambio pertinente anoche y acredité tu publicación.
Antoni Parellada
4

La primera afirmación no es estrictamente cierta.

De un ingenioso artículo sobre el malentendido de importancia: ( http://myweb.brooklyn.liu.edu/cortiz/PDF%20Files/Misinterpretations%20of%20Significance.pdf )

"[Esta declaración] puede parecerse a la definición de un error de Tipo I (es decir, la probabilidad de rechazar el H0 aunque en realidad es cierto), pero habiendo rechazado realmente el H0, esta decisión sería incorrecta si y solo si el H0 era verdadero. Por lo tanto, la probabilidad "de que esté tomando la decisión equivocada" es p (H0) y esta probabilidad ... no se puede derivar con una prueba de significación de hipótesis nula. "

Más simplemente, para evaluar la probabilidad de que haya rechazado incorrectamente H0, necesita la probabilidad de que H0 sea verdadera, lo que simplemente no puede obtener con esta prueba.

Henry B
fuente
¡Gracias! Entonces, cuando estoy leyendo la primera parte de statsdonewrong.com/p-value.html , el autor concluye que el FDR es del 38%, por lo tanto, ¿la probabilidad de un error tipo I es del 38%?
rb612
FDR es una tasa de descubrimiento falso y es muy diferente del error tipo I, por lo que la respuesta a su pregunta en no. FDR tiene que ver con múltiples pruebas, es decir, cuando realiza múltiples pruebas en la misma muestra, consulte stats.stackexchange.com/questions/164181/… . FDR es una alternativa a la tasa de error de Familywise, pero para explicar que el número de caracteres en un comentario es demasiado limitado.
Agregué una segunda sección en mi respuesta para explicar FDR.
1
Así como no es posible determinar la probabilidad de que H0 sea verdadera sin un previo, tampoco es posible determinar FDR sin un previo. Tenga cuidado al interpretar los documentos del FDR, porque los antecedentes utilizados en ellos pueden no ser necesariamente relevantes para sus propias circunstancias experimentales.
Michael Lew - reinstalar a Mónica el
1

La interpretación correcta de un valor p es la probabilidad condicional de un resultado al menos tan conductor de la hipótesis alternativa como el valor observado (al menos como "extremo"), suponiendo que la hipótesis nula sea verdadera . Las interpretaciones incorrectas generalmente implican una probabilidad marginal o un cambio de la condición:

valor p=PAG(Al menos tan extremo como el resultado observadoEl |H0 0)PAG(Error tipo I).
Reinstalar a Mónica
fuente
-1

El valor p nos permite determinar si la hipótesis nula (o la hipótesis reclamada) puede ser rechazada o no. Si el valor p es menor que el nivel de significancia, α, entonces esto representa un resultado estadísticamente significativo, y la hipótesis nula debe ser rechazada. Si el valor p es mayor que el nivel de significancia, α, entonces la hipótesis nula no puede ser rechazada. Esta es la razón de buscar el valor p si está usando la tabla o una calculadora en línea, como esta, la calculadora de valor p , para encontrar el valor p del estadístico de prueba.

Ahora sé que mencionó los errores de tipo I y tipo II. Esto realmente no tiene nada que ver con el valor p. Esto tiene que ver con los datos originales, como el tamaño de la muestra utilizada y los valores obtenidos para los datos. Si el tamaño de la muestra es demasiado pequeño, por ejemplo, esto puede conducir a un error tipo I.

usuario1445657
fuente
2
-1. Lamento darle la bienvenida a nuestro sitio con un voto negativo, pero esta respuesta es completamente incorrecta: simplemente no es el caso de que el valor p sea la probabilidad de la verdad de la hipótesis nula. Esto se discute ampliamente en muchos hilos sobre valores p y pruebas de hipótesis, como stats.stackexchange.com/questions/31 .
whuber
1
Modifiqué un poco la respuesta original para que sea más precisa.
user1445657