Editar: La base de mi pregunta es defectuosa, y necesito dedicar un tiempo a determinar si incluso puede tener sentido.
Edición 2: Aclarando que reconozco que un valor p no es una medida directa de la probabilidad de una hipótesis nula, pero que supongo que cuanto más cercano sea un valor p a 1, más probable es que haya una hipótesis se ha elegido para pruebas experimentales cuya hipótesis nula correspondiente es verdadera, mientras que cuanto más cercano es un valor p a 0, más probable es que se haya elegido una hipótesis para pruebas experimentales cuya hipótesis nula correspondiente es falsa. No puedo ver cómo esto es falso a menos que el conjunto de todas las hipótesis (o todas las hipótesis elegidas para experimentos) sea de alguna manera patológico.
Edición 3: Creo que todavía no estoy usando una terminología clara para hacer mi pregunta. A medida que los números de la lotería se leen y los compara con su boleto uno por uno, algo cambia. La probabilidad de que haya ganado no cambia, pero la probabilidad de que pueda apagar la radio sí lo hace. Hay un cambio similar que ocurre cuando se realizan los experimentos, pero tengo la sensación de que la terminología que estoy usando ("los valores p cambian la probabilidad de que se haya elegido una hipótesis verdadera") no es la terminología correcta.
Edición 4: He recibido dos respuestas sorprendentemente detalladas e informativas que contienen una gran cantidad de información para que yo pueda trabajar. Los votaré a ambos de vez en cuando y volveré a aceptar uno cuando haya aprendido lo suficiente de ambas respuestas para saber que respondieron o invalidaron mi pregunta. Esta pregunta abrió una lata de gusanos mucho más grande que la que esperaba comer.
En los documentos que he leído, he visto resultados con p> 0.05 después de la validación llamados "falsos positivos". Sin embargo, ¿no es aún más probable que haya elegido una hipótesis para probar con una hipótesis nula correspondiente falsa cuando los datos experimentales tienen una p <0.50 que es baja pero> 0.05, y no son tanto la hipótesis nula como la hipótesis nula? La hipótesis de investigación es estadísticamente incierta / insignificante (dado el corte convencional de significancia estadística) en cualquier lugar entre 0.05 <p < 0.95 cualquiera que sea el inverso de p <0.05, dada la asimetría señalada en el enlace de @ NickStauner .
Llamemos a ese número A y definámoslo como el valor p que dice lo mismo acerca de la probabilidad de que haya elegido una hipótesis nula verdadera para su experimento / análisis que un valor p de 0.05 dice acerca de la probabilidad de que usted ' Elegimos una verdadera hipótesis no nula para su experimento / análisis. 0.05 <p <A solo dice: "El tamaño de su muestra no fue lo suficientemente grande como para responder la pregunta, y no podrá juzgar la importancia de la aplicación / del mundo real hasta que obtenga una muestra más grande y obtenga sus estadísticas significado resuelto "?
En otras palabras, ¿no debería ser correcto llamar a un resultado definitivamente falso (en lugar de simplemente no admitido) si y solo si p> A?
Esto me parece sencillo, pero un uso tan extendido me dice que podría estar equivocado. Soy yo:
a) malinterpretar las matemáticas,
b) quejarse de una convención inofensiva si no es exactamente correcta,
c) completamente correcta, o
d) otra?
Reconozco que esto suena como un llamado a opiniones, pero parece una pregunta con una respuesta matemáticamente correcta (una vez que se establece un límite de importancia) de que yo o (casi) todos los demás nos estamos equivocando.
fuente
Respuestas:
Su pregunta se basa en una premisa falsa:
Un valor p no es una probabilidad de que la hipótesis nula sea verdadera. Por ejemplo, si tomó mil casos donde la hipótesis nula es verdadera, la mitad de ellos lo tendrá
p < .5
. Esas medias serán todas nulas.De hecho, la idea que
p > .95
significa que la hipótesis nula es "probablemente cierta" es igualmente engañosa. Si la hipótesis nula es verdadera, la probabilidadp > .95
es exactamente la misma que la probabilidad de quep < .05
.ETA: Su edición deja en claro cuál es el problema: todavía tiene el problema anterior (que está tratando un valor p como una probabilidad posterior, cuando no lo es). Es importante tener en cuenta que esta no es una distinción filosófica sutil (ya que creo que está implicando con su discusión de los boletos de lotería): tiene enormes implicaciones prácticas para cualquier interpretación de los valores p.
Pero no es una transformación que puede realizar en los valores de p que les permite conocer a lo que está buscando, y se llama la tasa de falso descubrimiento local. (Como se describe en este bonito artículo , es el equivalente frecuente de la "probabilidad de error posterior", así que piénselo de esa manera si lo desea).
Trabajemos con un ejemplo concreto. Supongamos que está realizando una prueba t para determinar si una muestra de 10 números (de una distribución normal) tiene una media de 0 (una prueba t de una muestra y dos lados). Primero, veamos cómo se ve la distribución del valor p cuando la media en realidad es cero, con una breve simulación R:
Como podemos ver, los valores p nulos tienen una distribución uniforme (igualmente probable en todos los puntos entre 0 y 1). Esta es una condición necesaria de los valores p: de hecho, ¡es precisamente lo que significan los valores p! (Dado que el valor nulo es verdadero, hay un 5% de posibilidades de que sea inferior a .05, un 10% de posibilidades de que sea inferior a .1 ...)
Ahora consideremos la hipótesis alternativa: casos donde el nulo es falso. Ahora, esto es un poco más complicado: cuando el nulo es falso, "¿qué tan falso" es? La media de la muestra no es 0, pero ¿es .5? 1? 10? ¿Varía al azar, a veces pequeño y a veces grande? Por simplicidad, digamos que siempre es igual a .5 (pero recuerde esa complicación, será importante más adelante):
Observe que la distribución ahora no es uniforme: ¡se desplaza hacia 0! En su comentario menciona una "asimetría" que brinda información: esta es esa asimetría.
Entonces, imagine que conocía ambas distribuciones, pero está trabajando con un nuevo experimento, y también tiene un antecedente de que hay un 50% de posibilidades de que sea nulo y un 50% de que sea una alternativa. Obtiene un valor p de .7. ¿Cómo puedes pasar de eso y el valor p a una probabilidad?
Lo que debes hacer es comparar densidades :
Y mira tu valor p:
Esa relación entre la densidad nula y la densidad alternativa se puede utilizar para calcular la tasa de descubrimiento falso local : cuanto mayor sea la nula en relación con la alternativa, mayor será el FDR local. Esa es la probabilidad de que la hipótesis sea nula (técnicamente tiene una interpretación frecuentista más estricta, pero aquí la mantendremos simple). Si ese valor es muy alto, entonces puede hacer la interpretación "la hipótesis nula es casi cierto". De hecho, puede hacer un umbral de .05 y .95 del FDR local: esto tendría las propiedades que está buscando. (Y dado que el FDR local aumenta monotónicamente con el valor p, al menos si lo está haciendo bien, esto se traducirá en algunos umbrales A y B donde puede decir "
Ahora, ya puedo oírte preguntar "¿por qué no usamos eso en lugar de valores p?" Dos razones:
No necesita ninguno de esos para una prueba de valor p, y una prueba de valor p aún le permite evitar falsos positivos (que es su propósito principal). Ahora, es posible estimar ambos valores en múltiples pruebas de hipótesis, cuando tiene miles de valores p (como una prueba para cada uno de los miles de genes: consulte este documento o este documento, por ejemplo), pero no cuando Estás haciendo una sola prueba.
Finalmente, podría decir: "¿No sigue siendo erróneo el documento al decir que una replicación que conduce a un valor p superior a .05 es necesariamente un falso positivo?" Bueno, si bien es cierto que obtener un valor p de .04 y otro valor p de .06 realmente no significa que el resultado original fuera incorrecto, en la práctica es una medida razonable para elegir. Pero en cualquier caso, ¡te alegrará saber que otros tienen sus dudas al respecto! El documento al que se refiere es algo controvertido en estadística: este documento utiliza un método diferente y llega a una conclusión muy diferente sobre los valores p de la investigación médica, y luego ese estudio fue criticado por algunos bayesianos prominentes (y vueltas y más vueltas ...) Entonces, si bien su pregunta se basa en algunas presunciones erróneas sobre los valores p, creo que examina una suposición interesante por parte del documento que cita.
fuente
Podría decirse que la hipótesis nula, como se dice literalmente, es a menudo más probable que incorrecta, porque las hipótesis nulas son más comúnmente, literalmente, hipótesis de efecto cero . (Para algunos contraejemplos útiles, vea las respuestas a: " ¿Son inapropiados los conjuntos de datos grandes para la prueba de hipótesis? "). Los problemas filosóficos como el efecto mariposa amenazan la validez literal de cualquier hipótesis; por lo tanto, el valor nulo es útil en general como base de comparación para una hipótesis alternativa de algún efecto distinto de cero. Tal hipótesis alternativa puede seguir siendo más plausible que la nula después de que se hayan recopilado datos que habrían sido improbables si la nula fuera cierta. Por lo tanto, los investigadores suelen inferir el apoyo a una hipótesis alternativa a partir de la evidencia contra el nulo, pero eso no es lo que los valores p cuantifican directamente ( Wagenmakers, 2007 ) .
Como sospecha, la significación estadística es una función del tamaño de la muestra , así como del tamaño del efecto y la consistencia. (Véase @ respuesta de Gung a la reciente pregunta: " ¿Cómo puede una prueba t ser estadísticamente significativa si la diferencia media es casi 0? ") Las preguntas que a menudo propongo pedir de nuestros datos son: "¿Cuál es el efecto dep p
x
ely
? " Por varias razones (incluida la OMI, programas educativos mal concebidos y de otra manera deficientes en estadística, especialmente según lo enseñado por no estadísticos), a menudo nos encontramos haciendo una pregunta literalmente relacionada: "¿Cuál es la probabilidad de muestrear datos como el mío al azar? de una población en la quex
no afectay
Dado que los datos generalmente deberían representar observaciones empíricamente objetivas, no deberían ser falsos; solo las inferencias sobre ellos deberían enfrentar este riesgo, idealmente. (El error de medición también ocurre, por supuesto, pero ese problema está fuera del alcance de esta respuesta, por lo que, aparte de mencionarlo aquí, lo dejaré solo de lo contrario). Siempre existe algún riesgo de hacer una inferencia falsamente positiva sobre que el valor nulo sea menos útil que la hipótesis alternativa, al menos a menos que el inferidor sepa que el nulo es verdadero. Solo en la circunstancia bastante difícil de concebir el conocimiento de que el nulo es literalmente verdadero, una inferencia que favorezca una hipótesis alternativa es definitivamente falsa ... al menos, por lo que puedo imaginar en este momento.
Claramente, el uso generalizado o la convención no es la mejor autoridad en validez epistémica o inferencial. Incluso los recursos publicados son falibles; ver, por ejemplo, Fallacy en la definición del valor p . Su referencia ( Hurlbert y Lombardi, 2009 ) también ofrece una exposición interesante de este principio (página 322):
Re: su pregunta de opción múltiple, selecciono
d
. Es posible que haya malinterpretado algunos conceptos aquí, pero ciertamente no está solo si es así, y le dejaré el juicio a usted, ya que solo usted sabe lo que realmente cree. La mala interpretación implica cierta certeza, mientras que hacer una pregunta implica lo contrario, y ese impulso de cuestionar cuando es incierto es lamentable y está lejos de ser omnipresente, desafortunadamente. Este asunto de la naturaleza humana hace que la incorrección de nuestras convenciones sea tristemente inofensiva y merezca quejas como las mencionadas aquí. (¡Gracias en parte a ti!) Sin embargo, tu propuesta tampoco es completamente correcta.Referencias
- Goodman, SN (1992). Un comentario sobre replicación, valores P y evidencia. Estadísticas en medicina, 11 (7), 875–879.
- Goodman, SN (2001). De los valores P y Bayes: una propuesta modesta. Epidemiología, 12 (3), 295–297. Recuperado de http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf .
- Goodman, S. (2008). Una docena sucia: doce conceptos erróneos de valor P Seminarios en hematología, 45 (3), 135–140. Recuperado de http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf .
- Gorroochurn, P., Hodge, SE, Heiman, GA, Durner, M. y Greenberg, DA (2007). No replicación de los estudios de asociación: ¿"pseudo-fallas" para replicar? Genética en medicina, 9 (6), 325–331. Recuperado de http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .
- Hurlbert, SH y Lombardi, CM (2009). Colapso final del marco teórico de decisión de Neyman-Pearson y surgimiento del neofisheriano. Annales Zoologici Fennici, 46 (5), 311–349. Recuperado de http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .
- Lew, MJ (2013). Para P o no para P: Sobre la naturaleza evidencial de los valores P y su lugar en la inferencia científica. arXiv: 1311.0081 [stat.ME]. Recuperado dehttp://arxiv.org/abs/1311.0081 .
- Moyé, LA (2008). Bayesianos en ensayos clínicos: dormidos en el interruptor. Estadísticas en medicina, 27 (4), 469–482.
- Nuzzo, R. (12 de febrero de 2014). Método científico: errores estadísticos. Nature News, 506 (7487). Recuperado de http://www.nature.com/news/scientific-method-statistical-errors-1.14700 .
- Wagenmakers, EJ (2007). Una solución práctica a los problemas generalizados de los valores de p . Psychonomic Bulletin & Review, 14 (5), 779–804. Recuperado de http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .
fuente