Interpretación del valor p en la prueba de hipótesis

36

Recientemente me encontré con el artículo "La insignificancia de las pruebas de significación de hipótesis nulas", Jeff Gill (1999) . El autor planteó algunas ideas falsas comunes con respecto a la prueba de hipótesis y los valores p, sobre los cuales tengo dos preguntas específicas:

  1. El valor p es técnicamente , que, como lo señala el artículo, generalmente no nos dice nada sobre , a menos que conozcamos las distribuciones marginales, lo cual rara vez es el caso en las pruebas de hipótesis "cotidianas". Cuando obtenemos un valor p pequeño y "rechazamos la hipótesis nula", ¿cuál es exactamente el enunciado probabilístico que estamos haciendo, ya que no podemos decir nada sobre ?P(observation|H0)P(H0|observation)P(H0|observation)
  2. La segunda pregunta se refiere a una declaración particular de la página 6 (652) del documento:

Dado que el valor p, o el rango de valores p indicado por las estrellas, no se establece a priori, no es la probabilidad a largo plazo de cometer un error de Tipo I, sino que generalmente se trata como tal.

¿Alguien puede ayudar a explicar qué se entiende por esta declaración?

gung - Restablece a Monica
fuente
TY para la referencia al documento
Ludovic Kuty
@ezbentley: tal vez sea interesante echar un vistazo a mi respuesta: stats.stackexchange.com/questions/166323/…

Respuestas:

33

(Técnicamente, el valor P es la probabilidad de observar datos al menos tan extremos como los realmente observados, dada la hipótesis nula).

Q1. La decisión de rechazar la hipótesis nula sobre la base de un valor P pequeño generalmente depende de la 'disyunción de Fisher': o ha ocurrido un evento raro o la hipótesis nula es falsa. En efecto, la rareza del evento es lo que le dice el valor P en lugar de la probabilidad de que el valor nulo sea falso.

La probabilidad de que el nulo sea falso puede obtenerse de los datos experimentales solo por medio del teorema de Bayes, que requiere la especificación de la probabilidad 'previa' de la hipótesis nula (presumiblemente a lo que Gill se refiere como "distribuciones marginales").

Q2 Esta parte de tu pregunta es mucho más difícil de lo que parece. Existe una gran confusión con respecto a los valores de P y las tasas de error, que es, presumiblemente, a lo que Gill se refiere con "pero generalmente se trata como tal". La combinación de los valores P de Fisherian con las tasas de error de Neyman-Pearson se ha denominado una mezcla incoherente, y lamentablemente está muy extendida. Ninguna respuesta breve será completamente adecuada aquí, pero puedo señalarle un par de buenos documentos (sí, uno es mío). Ambos te ayudarán a entender el papel de Gill.

Hurlbert, S. y Lombardi, C. (2009). Colapso final del marco teórico de decisión de Neyman-Pearson y surgimiento del neofisheriano. Annales Zoologici Fennici, 46 (5), 311–349. (Enlace al papel)

Lew, MJ (2012). Mala práctica estadística en farmacología (y otras disciplinas biomédicas básicas): probablemente no conozca P. British Journal of Pharmacology, 166 (5), 1559-1567. doi: 10.1111 / j.1476-5381.2012.01931.x (Enlace al documento)

Michael Lew
fuente
Gracias por la aclaración. ¿Es técnicamente incorrecto hacer una declaración como "the small p-value indicates that the sample mean(or regression coefficient, etc) is significantly different from zero"? La fuente de confusión parece ser que no se hace una afirmación probabilística real de la hipótesis nula cuando decimos que la nula es "rechazada".
2
@ezbentley, eso realmente depende de lo que quieras decir con significativo. Esa palabra no es realmente muy significativa en la mayoría de los contextos porque ha sido contaminada por el híbrido Fisher-Neyman-Pearson. Si obtuvo un valor P muy pequeño, es justo decir que la media verdadera probablemente no sea cero, pero es importante decir cuál fue la media observada e indicar su variabilidad (SEM o intervalo de confianza), y no No olvide decir cuál era el tamaño de la muestra. Un valor P no sustituye la especificación del tamaño del efecto observado.
Michael Lew
Gracias por la explicación. Necesito profundizar en el paradigma de Fisher y Neyman-Pearson.
@Michael Lew: Tal vez podría ser interesante echar un vistazo a mi respuesta: stats.stackexchange.com/questions/166323/…
Su párrafo bajo Q1 es probablemente la mejor explicación del problema que he visto hasta ahora. Gracias.
Maxim.K
22

+1 a @MichaelLew, que le ha proporcionado una buena respuesta. Quizás todavía pueda contribuir proporcionando una forma de pensar acerca de Q2. Considere la siguiente situación:

  • p
  • α0.05
  • p0.01

pp0.02p0.049¯pα

p

gung - Restablece a Monica
fuente
1
Trabajando en un campo (epi) donde a menudo es extremadamente difícil creer que la hipótesis H_0 = 0 es realmente cierta, creo que este punto se pasa por alto y merece mucha más atención.
boscovich
1
α
1
+1, pero la sugerencia de que el significado de un valor P no está claro cuando el nulo es falso es engañoso. Cuanto menor es el valor P, mayor es la discrepancia entre lo nulo y lo observado. Cuanto mayor sea el tamaño de la muestra, más se puede suponer que el tamaño del efecto real es el tamaño del efecto observado. Es muy útil observar que las pruebas de significación son análogas a la estimación.
Michael Lew
3
@MichaelLew, no estoy seguro de que el valor p signifique estas cosas por sí solo. En conjunción w / N (y específicamente, manteniendo N constante) una p menor corresponderá a una mayor discrepancia b / t nula y observada. Incluso entonces, eso es más de algo que se puede inferir de p en lugar de algo que p significa . También es cierto que con tamaños de efectos de N más grandes observados deberían estar más cerca de los verdaderos ES, pero no me queda claro qué papel juega p allí. Por ejemplo, con un falso nulo, el verdadero efecto aún podría ser muy pequeño, y con un gran N esperaríamos que el ES observado estuviera cerca, pero p aún podría ser grande.
gung - Restablece a Monica
1
...this fallacy shows up in statistics textbooks, as when Canavos and Miller (1999, p.255) stipulate: "If the null hypothesis is true, then a type I error occurs if (due to sampling error) the P-value is less than or equal to $alpha$"α
8

Me gustaría hacer un comentario relacionado con "la insignificancia de la prueba de significación de hipótesis nulas", pero que no responde a la pregunta del OP.

pH0H0:{θ=0}θ=ϵϵϵ0ϵ0

Stéphane Laurent
fuente
3
+1 Sí, el verdadero problema con las pruebas de hipótesis convencionales es que responde a una pregunta que realmente no le interesa haber respondido, es decir, "¿hay evidencia significativa de una diferencia?", En lugar de "¿hay evidencia de una diferencia significativa? ". Por supuesto, lo que realmente se desea es, en general, "¿cuál es la probabilidad de que mi hipótesis de investigación sea verdadera?", Pero esto no puede responderse dentro de un marco frecuentista. La mala interpretación generalmente surge de los intentos de tratar la prueba frecuentista en términos bayesianos.
Dikran Marsupial
1
No es una buena idea separar el significado de los valores P y el tamaño de la muestra. Un valor P más pequeño indica un tamaño de efecto más grande en cualquier tamaño de muestra particular, y para cualquier valor P particular, un tamaño de muestra más grande indica que el tamaño de efecto verdadero probablemente esté más cerca del tamaño de efecto observado. Las pruebas de significancia deben pensarse en el contexto de la estimación, no en los errores. Una muestra más grande siempre brinda más información: la forma de interpretarla depende del experimentador. La gran muestra de efecto insignificante es solo un problema para la prueba de hipótesis Neyman-Pearsonian.
Michael Lew