Recientemente me encontré con el artículo "La insignificancia de las pruebas de significación de hipótesis nulas", Jeff Gill (1999) . El autor planteó algunas ideas falsas comunes con respecto a la prueba de hipótesis y los valores p, sobre los cuales tengo dos preguntas específicas:
- El valor p es técnicamente , que, como lo señala el artículo, generalmente no nos dice nada sobre , a menos que conozcamos las distribuciones marginales, lo cual rara vez es el caso en las pruebas de hipótesis "cotidianas". Cuando obtenemos un valor p pequeño y "rechazamos la hipótesis nula", ¿cuál es exactamente el enunciado probabilístico que estamos haciendo, ya que no podemos decir nada sobre ?
- La segunda pregunta se refiere a una declaración particular de la página 6 (652) del documento:
Dado que el valor p, o el rango de valores p indicado por las estrellas, no se establece a priori, no es la probabilidad a largo plazo de cometer un error de Tipo I, sino que generalmente se trata como tal.
¿Alguien puede ayudar a explicar qué se entiende por esta declaración?
hypothesis-testing
p-value
gung - Restablece a Monica
fuente
fuente
Respuestas:
(Técnicamente, el valor P es la probabilidad de observar datos al menos tan extremos como los realmente observados, dada la hipótesis nula).
Q1. La decisión de rechazar la hipótesis nula sobre la base de un valor P pequeño generalmente depende de la 'disyunción de Fisher': o ha ocurrido un evento raro o la hipótesis nula es falsa. En efecto, la rareza del evento es lo que le dice el valor P en lugar de la probabilidad de que el valor nulo sea falso.
La probabilidad de que el nulo sea falso puede obtenerse de los datos experimentales solo por medio del teorema de Bayes, que requiere la especificación de la probabilidad 'previa' de la hipótesis nula (presumiblemente a lo que Gill se refiere como "distribuciones marginales").
Q2 Esta parte de tu pregunta es mucho más difícil de lo que parece. Existe una gran confusión con respecto a los valores de P y las tasas de error, que es, presumiblemente, a lo que Gill se refiere con "pero generalmente se trata como tal". La combinación de los valores P de Fisherian con las tasas de error de Neyman-Pearson se ha denominado una mezcla incoherente, y lamentablemente está muy extendida. Ninguna respuesta breve será completamente adecuada aquí, pero puedo señalarle un par de buenos documentos (sí, uno es mío). Ambos te ayudarán a entender el papel de Gill.
Hurlbert, S. y Lombardi, C. (2009). Colapso final del marco teórico de decisión de Neyman-Pearson y surgimiento del neofisheriano. Annales Zoologici Fennici, 46 (5), 311–349. (Enlace al papel)
Lew, MJ (2012). Mala práctica estadística en farmacología (y otras disciplinas biomédicas básicas): probablemente no conozca P. British Journal of Pharmacology, 166 (5), 1559-1567. doi: 10.1111 / j.1476-5381.2012.01931.x (Enlace al documento)
fuente
"the small p-value indicates that the sample mean(or regression coefficient, etc) is significantly different from zero"
? La fuente de confusión parece ser que no se hace una afirmación probabilística real de la hipótesis nula cuando decimos que la nula es "rechazada".+1 a @MichaelLew, que le ha proporcionado una buena respuesta. Quizás todavía pueda contribuir proporcionando una forma de pensar acerca de Q2. Considere la siguiente situación:
fuente
...this fallacy shows up in statistics textbooks, as when Canavos and Miller (1999, p.255) stipulate: "If the null hypothesis is true, then a type I error occurs if (due to sampling error) the P-value is less than or equal to $alpha$"
Me gustaría hacer un comentario relacionado con "la insignificancia de la prueba de significación de hipótesis nulas", pero que no responde a la pregunta del OP.
fuente