¿Por qué los resultados 0.05 <p <0.95 se llaman falsos positivos?

9

Editar: La base de mi pregunta es defectuosa, y necesito dedicar un tiempo a determinar si incluso puede tener sentido.

Edición 2: Aclarando que reconozco que un valor p no es una medida directa de la probabilidad de una hipótesis nula, pero que supongo que cuanto más cercano sea un valor p a 1, más probable es que haya una hipótesis se ha elegido para pruebas experimentales cuya hipótesis nula correspondiente es verdadera, mientras que cuanto más cercano es un valor p a 0, más probable es que se haya elegido una hipótesis para pruebas experimentales cuya hipótesis nula correspondiente es falsa. No puedo ver cómo esto es falso a menos que el conjunto de todas las hipótesis (o todas las hipótesis elegidas para experimentos) sea de alguna manera patológico.

Edición 3: Creo que todavía no estoy usando una terminología clara para hacer mi pregunta. A medida que los números de la lotería se leen y los compara con su boleto uno por uno, algo cambia. La probabilidad de que haya ganado no cambia, pero la probabilidad de que pueda apagar la radio sí lo hace. Hay un cambio similar que ocurre cuando se realizan los experimentos, pero tengo la sensación de que la terminología que estoy usando ("los valores p cambian la probabilidad de que se haya elegido una hipótesis verdadera") no es la terminología correcta.

Edición 4: He recibido dos respuestas sorprendentemente detalladas e informativas que contienen una gran cantidad de información para que yo pueda trabajar. Los votaré a ambos de vez en cuando y volveré a aceptar uno cuando haya aprendido lo suficiente de ambas respuestas para saber que respondieron o invalidaron mi pregunta. Esta pregunta abrió una lata de gusanos mucho más grande que la que esperaba comer.

En los documentos que he leído, he visto resultados con p> 0.05 después de la validación llamados "falsos positivos". Sin embargo, ¿no es aún más probable que haya elegido una hipótesis para probar con una hipótesis nula correspondiente falsa cuando los datos experimentales tienen una p <0.50 que es baja pero> 0.05, y no son tanto la hipótesis nula como la hipótesis nula? La hipótesis de investigación es estadísticamente incierta / insignificante (dado el corte convencional de significancia estadística) en cualquier lugar entre 0.05 <p < 0.95 cualquiera que sea el inverso de p <0.05, dada la asimetría señalada en el enlace de @ NickStauner .

Llamemos a ese número A y definámoslo como el valor p que dice lo mismo acerca de la probabilidad de que haya elegido una hipótesis nula verdadera para su experimento / análisis que un valor p de 0.05 dice acerca de la probabilidad de que usted ' Elegimos una verdadera hipótesis no nula para su experimento / análisis. 0.05 <p <A solo dice: "El tamaño de su muestra no fue lo suficientemente grande como para responder la pregunta, y no podrá juzgar la importancia de la aplicación / del mundo real hasta que obtenga una muestra más grande y obtenga sus estadísticas significado resuelto "?

En otras palabras, ¿no debería ser correcto llamar a un resultado definitivamente falso (en lugar de simplemente no admitido) si y solo si p> A?

Esto me parece sencillo, pero un uso tan extendido me dice que podría estar equivocado. Soy yo:

a) malinterpretar las matemáticas,
b) quejarse de una convención inofensiva si no es exactamente correcta,
c) completamente correcta, o
d) otra?

Reconozco que esto suena como un llamado a opiniones, pero parece una pregunta con una respuesta matemáticamente correcta (una vez que se establece un límite de importancia) de que yo o (casi) todos los demás nos estamos equivocando.

Andrew Klaassen
fuente
1
Hola David. Aquí está el documento que me hizo pensar en ello: enlace
Andrew Klaassen
2
p<0.05p0.05pαp
1
Puede eliminar su pregunta si lo desea, pero como ha recibido dos votos a favor (oh, diablos, hagámoslo 3), una respuesta votada y está a punto de recibir otra respuesta de "la suya verdadera", solicito que la deje. Activo y trabajar en él como mejor le parezca, aunque respetuosamente difiero a su derecho a hacer lo que desee. ¡Salud!
Nick Stauner
1
Estoy de acuerdo con @Nick, Andrew: aquí tienes una pregunta convincente y provocativa que ha atraído algunas reflexiones y atención, por lo que te agradeceríamos que la mantuvieras publicada y, si puedes, la refines un poco para enfocarte en cuestión clave sobre cómo se interpretan los valores p. La parte novedosa, por lo que puedo decir, es la sugerencia de que el criterio de rechazo debe basarse en un gran valor p. Re su comentario: un falso positivo ocurre cuando la prueba es significativa pero se sabe que la hipótesis nula es verdadera.
whuber
1
@whuber: El enfoque de fondo más convincente para mí es en qué resultado sugeriría que un experimento de seguimiento con un tamaño de muestra más grande es probable que sea productivo. Dadas las respuestas hasta ahora, parece que necesito preguntar si los valores p podrían incluso estar relacionados con esa pregunta. Reconociendo que la hipótesis nula es verdadera como la medida de un falso positivo: ¿Cuándo diría que una hipótesis nula es verdadera fuera de la situación p> (1 - α)?
Andrew Klaassen

Respuestas:

15

Su pregunta se basa en una premisa falsa:

¿No es la hipótesis nula aún más probable que no sea incorrecta cuando p <0,50

Un valor p no es una probabilidad de que la hipótesis nula sea verdadera. Por ejemplo, si tomó mil casos donde la hipótesis nula es verdadera, la mitad de ellos lo tendrá p < .5. Esas medias serán todas nulas.

De hecho, la idea que p > .95significa que la hipótesis nula es "probablemente cierta" es igualmente engañosa. Si la hipótesis nula es verdadera, la probabilidad p > .95es exactamente la misma que la probabilidad de que p < .05.

ETA: Su edición deja en claro cuál es el problema: todavía tiene el problema anterior (que está tratando un valor p como una probabilidad posterior, cuando no lo es). Es importante tener en cuenta que esta no es una distinción filosófica sutil (ya que creo que está implicando con su discusión de los boletos de lotería): tiene enormes implicaciones prácticas para cualquier interpretación de los valores p.

Pero no es una transformación que puede realizar en los valores de p que les permite conocer a lo que está buscando, y se llama la tasa de falso descubrimiento local. (Como se describe en este bonito artículo , es el equivalente frecuente de la "probabilidad de error posterior", así que piénselo de esa manera si lo desea).

Trabajemos con un ejemplo concreto. Supongamos que está realizando una prueba t para determinar si una muestra de 10 números (de una distribución normal) tiene una media de 0 (una prueba t de una muestra y dos lados). Primero, veamos cómo se ve la distribución del valor p cuando la media en realidad es cero, con una breve simulación R:

null.pvals = replicate(10000, t.test(rnorm(10, mean=0, sd=1))$p.value)
hist(null.pvals)

ingrese la descripción de la imagen aquí

Como podemos ver, los valores p nulos tienen una distribución uniforme (igualmente probable en todos los puntos entre 0 y 1). Esta es una condición necesaria de los valores p: de hecho, ¡es precisamente lo que significan los valores p! (Dado que el valor nulo es verdadero, hay un 5% de posibilidades de que sea inferior a .05, un 10% de posibilidades de que sea inferior a .1 ...)

Ahora consideremos la hipótesis alternativa: casos donde el nulo es falso. Ahora, esto es un poco más complicado: cuando el nulo es falso, "¿qué tan falso" es? La media de la muestra no es 0, pero ¿es .5? 1? 10? ¿Varía al azar, a veces pequeño y a veces grande? Por simplicidad, digamos que siempre es igual a .5 (pero recuerde esa complicación, será importante más adelante):

alt.pvals = replicate(10000, t.test(rnorm(10, mean=.5, sd=1))$p.value)
hist(alt.pvals)

ingrese la descripción de la imagen aquí

Observe que la distribución ahora no es uniforme: ¡se desplaza hacia 0! En su comentario menciona una "asimetría" que brinda información: esta es esa asimetría.

Entonces, imagine que conocía ambas distribuciones, pero está trabajando con un nuevo experimento, y también tiene un antecedente de que hay un 50% de posibilidades de que sea nulo y un 50% de que sea una alternativa. Obtiene un valor p de .7. ¿Cómo puedes pasar de eso y el valor p a una probabilidad?

Lo que debes hacer es comparar densidades :

lines(density(alt.pvals, bw=.02))
plot(density(null.pvals, bw=.02))

Y mira tu valor p:

abline(v=.7, col="red", lty=2)

ingrese la descripción de la imagen aquí

Esa relación entre la densidad nula y la densidad alternativa se puede utilizar para calcular la tasa de descubrimiento falso local : cuanto mayor sea la nula en relación con la alternativa, mayor será el FDR local. Esa es la probabilidad de que la hipótesis sea nula (técnicamente tiene una interpretación frecuentista más estricta, pero aquí la mantendremos simple). Si ese valor es muy alto, entonces puede hacer la interpretación "la hipótesis nula es casi cierto". De hecho, puede hacer un umbral de .05 y .95 del FDR local: esto tendría las propiedades que está buscando. (Y dado que el FDR local aumenta monotónicamente con el valor p, al menos si lo está haciendo bien, esto se traducirá en algunos umbrales A y B donde puede decir "

Ahora, ya puedo oírte preguntar "¿por qué no usamos eso en lugar de valores p?" Dos razones:

  1. Debe decidir una probabilidad previa de que la prueba sea nula
  2. Necesita saber la densidad bajo la alternativa. Esto es muy difícil de adivinar, porque necesita determinar qué tan grandes pueden ser los tamaños y las variaciones de sus efectos , ¡y con qué frecuencia son así!

No necesita ninguno de esos para una prueba de valor p, y una prueba de valor p aún le permite evitar falsos positivos (que es su propósito principal). Ahora, es posible estimar ambos valores en múltiples pruebas de hipótesis, cuando tiene miles de valores p (como una prueba para cada uno de los miles de genes: consulte este documento o este documento, por ejemplo), pero no cuando Estás haciendo una sola prueba.

Finalmente, podría decir: "¿No sigue siendo erróneo el documento al decir que una replicación que conduce a un valor p superior a .05 es necesariamente un falso positivo?" Bueno, si bien es cierto que obtener un valor p de .04 y otro valor p de .06 realmente no significa que el resultado original fuera incorrecto, en la práctica es una medida razonable para elegir. Pero en cualquier caso, ¡te alegrará saber que otros tienen sus dudas al respecto! El documento al que se refiere es algo controvertido en estadística: este documento utiliza un método diferente y llega a una conclusión muy diferente sobre los valores p de la investigación médica, y luego ese estudio fue criticado por algunos bayesianos prominentes (y vueltas y más vueltas ...) Entonces, si bien su pregunta se basa en algunas presunciones erróneas sobre los valores p, creo que examina una suposición interesante por parte del documento que cita.

David Robinson
fuente
Hola David. Punto justo. Trabajaré en reformular mi pregunta para no equivocarme en esa parte y ver si aún veo un problema.
Andrew Klaassen
@David_Robinson: ¿Sería correcto usar el valor p como la tasa de falsa alarma en la regla bayesiana, y poder sacar conclusiones sobre la probabilidad de la investigación y / o hipótesis nulas a partir de eso? Establecer el anterior al 50% y jugar rápido y suelto desde allí? :-)
Andrew Klaassen
1
¡Sí, fascinante! ¿Puedes incluirlo en tu respuesta? Pero hay una asimetría entre cómo se comporta p cuando nulo es verdadero versus cuando es falso que ~ debe ~ dar alguna información sobre la probabilidad de que la hipótesis nula sea verdadera en función del valor p extraído de los datos. Si una hipótesis nula verdadera produce valores p distribuidos uniformemente, y una hipótesis no nula verdadera produce valores p que están sesgados hacia 0, al extraer ap = 0.01 mármol ~ debe ~ sugerir que es más probable que haya elegido el no -nula jarra de experimentos, incluso si la probabilidad no cambia al hacer el experimento.
Andrew Klaassen
1
@AndrewKlaassen: Puede que le interese el concepto de "tasa de descubrimiento falso local". Es un equivalente frecuentista a la probabilidad posterior bayesiana de que el nulo sea verdadero. Requiere dos cosas: a) Una probabilidad previa de que el nulo sea verdadero (a veces llamado pi0), yb) una estimación de la densidad para la hipótesis alternativa. En las pruebas de hipótesis múltiples (si tenía miles de valores p), es posible estimar ambos al observar la densidad. Si tengo un poco más de tiempo, puedo construir una explicación más profunda en mi respuesta.
David Robinson
1
@ AndrewKlaassen: vea mi edición, donde explico el FDR local en detalle, por qué es la forma de calcular su valor "A" (aunque es posible que desee cambiar .05 mientras calcula A), y también por qué rara vez se usa . De todos modos, para aclarar un punto que realmente no cabe en la respuesta: su ejemplo con el boleto de lotería no comprende el punto que yo y otros hemos estado haciendo. No nos estábamos obsesionando con la idea de "¿cambian las probabilidades con nueva información" (tanto los bayesianos como los frecuentas tienen su interpretación de eso): el punto es que no los estabas cambiando de la manera correcta!
David Robinson
10

p>.05p<.05p>.05ing (NHST). Los malentendidos no son infrecuentes en la literatura de investigación publicada, ya que NHST es notoriamente contraintuitivo. Este es uno de los gritos de guerra de la invasión (que apoyo, pero no sigo ... todavía). He trabajado con impresiones equivocadas como estas hasta hace poco, así que simpatizo de todo corazón.

pp ppp) , entre otras ventajas, y dejando de lado desventajas discutibles. (Para ser justos, vea " ¿Cuáles son las desventajas del análisis bayesiano? " También ha comentado para citar artículos que podrían ofrecer algunas buenas respuestas allí: Moyé, 2008; Hurlbert & Lombardi, 2009 ).

Podría decirse que la hipótesis nula, como se dice literalmente, es a menudo más probable que incorrecta, porque las hipótesis nulas son más comúnmente, literalmente, hipótesis de efecto cero . (Para algunos contraejemplos útiles, vea las respuestas a: " ¿Son inapropiados los conjuntos de datos grandes para la prueba de hipótesis? "). Los problemas filosóficos como el efecto mariposa amenazan la literal de cualquier hipótesis; por lo tanto, el valor nulo es útil en general como base de comparación para una hipótesis alternativa de algún efecto distinto de cero. Tal hipótesis alternativa puede seguir siendo más plausible que la nula después de que se hayan recopilado datos que habrían sido improbables si la nula fuera cierta. Por lo tanto, los investigadores suelen inferir el apoyo a una hipótesis alternativa a partir de la evidencia contra el nulo, pero eso no es lo que cuantifican directamente ( Wagenmakers, 2007 ) .

Como sospecha, es una función del de la , así como del tamaño del efecto y la consistencia. (Véase @ respuesta de Gung a la reciente pregunta: " ¿Cómo puede una prueba t ser estadísticamente significativa si la diferencia media es casi 0? ") Las preguntas que a menudo propongo pedir de nuestros datos son: "¿Cuál es el efecto de xel y? " Por varias razones (incluida la OMI, programas educativos mal concebidos y de otra manera deficientes en estadística, especialmente según lo enseñado por no estadísticos), a menudo nos encontramos haciendo una pregunta literalmente relacionada: "¿Cuál es la probabilidad de muestrear datos como el mío al azar? de una población en la que xno afectaypp

.05<p<.95- otro de Goodman (2008) sucio docena); esto depende mucho más del significado de los datos, con lo que la significación estadística solo se refiere en cierta medida. Vea mi respuesta a lo anterior .

¿No debería ser correcto llamar a un resultado definitivamente falso (en lugar de simplemente no admitido) si ... p> 0.95?

Dado que los datos generalmente deberían representar observaciones empíricamente objetivas, no deberían ser falsos; solo las inferencias sobre ellos deberían enfrentar este riesgo, idealmente. (El error de medición también ocurre, por supuesto, pero ese problema está fuera del alcance de esta respuesta, por lo que, aparte de mencionarlo aquí, lo dejaré solo de lo contrario). Siempre existe algún riesgo de hacer una inferencia falsamente positiva sobre que el valor nulo sea menos útil que la hipótesis alternativa, al menos a menos que el inferidor sepa que el nulo es verdadero. Solo en la circunstancia bastante difícil de concebir el conocimiento de que el nulo es literalmente verdadero, una inferencia que favorezca una hipótesis alternativa es definitivamente falsa ... al menos, por lo que puedo imaginar en este momento.

Claramente, el uso generalizado o la convención no es la mejor autoridad en validez epistémica o inferencial. Incluso los recursos publicados son falibles; ver, por ejemplo, Fallacy en la definición del valor p . Su referencia ( Hurlbert y Lombardi, 2009 ) también ofrece una exposición interesante de este principio (página 322):

StatSoft (2007) se jacta en su sitio web de que su manual en línea "es el único recurso de Internet sobre estadísticas recomendado por la Enciclopedia Británica". Nunca ha sido tan importante la 'Autoridad de desconfianza', como dice la calcomanía. [URL rota cómicamente convertida en texto hipervinculado]

ppEspero poder convencer a Michael para que toque aquí etiquetándolo como lo he hecho (pero no estoy seguro de que las etiquetas de usuario envíen notificaciones cuando se editen, no creo que el suyo en el OP lo haya hecho). Él puede ser el único que puede salvar a Nuzzo, ¡incluso la naturaleza misma! ¡Ayúdanos Obi-Wan! (Y perdóneme si mi respuesta aquí demuestra que todavía no he entendido las implicaciones de su trabajo, lo que estoy seguro de que tengo en cualquier caso ...) Por cierto, Nuzzo también ofrece una intrigante autodefensa y refutación de "Problema 3" de Wagenmaakers: ver la figura "Causa probable" de Nuzzo y citas de apoyo ( Goodman, 2001 , 1992; Gorroochurn, Hodge, Heiman, Durner y Greenberg, 2007 ) . Estos solo pueden contener la respuesta que '

Re: su pregunta de opción múltiple, selecciono d. Es posible que haya malinterpretado algunos conceptos aquí, pero ciertamente no está solo si es así, y le dejaré el juicio a usted, ya que solo usted sabe lo que realmente cree. La mala interpretación implica cierta certeza, mientras que hacer una pregunta implica lo contrario, y ese impulso de cuestionar cuando es incierto es lamentable y está lejos de ser omnipresente, desafortunadamente. Este asunto de la naturaleza humana hace que la incorrección de nuestras convenciones sea tristemente inofensiva y merezca quejas como las mencionadas aquí. (¡Gracias en parte a ti!) Sin embargo, tu propuesta tampoco es completamente correcta.

pp, Soy una autoridad débil en el mejor de los casos, y agradezco cualquier corrección o elaboración que otros puedan ofrecer a lo que he dicho aquí. Todo lo que puedo concluir es que probablemente haya una respuesta matemáticamente correcta, y puede ser que la mayoría de las personas se equivoquen. La respuesta correcta ciertamente no es fácil, como lo demuestran las siguientes referencias ...

pp

Referencias

- Goodman, SN (1992). Un comentario sobre replicación, valores P y evidencia. Estadísticas en medicina, 11 (7), 875–879.
- Goodman, SN (2001). De los valores P y Bayes: una propuesta modesta. Epidemiología, 12 (3), 295–297. Recuperado de http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf .
- Goodman, S. (2008). Una docena sucia: doce conceptos erróneos de valor P Seminarios en hematología, 45 (3), 135–140. Recuperado de http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf .
- Gorroochurn, P., Hodge, SE, Heiman, GA, Durner, M. y Greenberg, DA (2007). No replicación de los estudios de asociación: ¿"pseudo-fallas" para replicar? Genética en medicina, 9 (6), 325–331. Recuperado de http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .
- Hurlbert, SH y Lombardi, CM (2009). Colapso final del marco teórico de decisión de Neyman-Pearson y surgimiento del neofisheriano. Annales Zoologici Fennici, 46 (5), 311–349. Recuperado de http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .
- Lew, MJ (2013). Para P o no para P: Sobre la naturaleza evidencial de los valores P y su lugar en la inferencia científica. arXiv: 1311.0081 [stat.ME]. Recuperado dehttp://arxiv.org/abs/1311.0081 .
- Moyé, LA (2008). Bayesianos en ensayos clínicos: dormidos en el interruptor. Estadísticas en medicina, 27 (4), 469–482.
- Nuzzo, R. (12 de febrero de 2014). Método científico: errores estadísticos. Nature News, 506 (7487). Recuperado de http://www.nature.com/news/scientific-method-statistical-errors-1.14700 .
- Wagenmakers, EJ (2007). Una solución práctica a los problemas generalizados de los valores de p . Psychonomic Bulletin & Review, 14 (5), 779–804. Recuperado de http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .

Nick Stauner
fuente
Todavía estoy trabajando en su respuesta exhaustiva (gracias por ello), pero su mención de la "invasión bayesiana" me hizo pensar en "Bayesianos en ensayos clínicos: dormidos en el interruptor", reimpreso como el Capítulo 12 aquí , que yo ' También estoy lentamente envolviendo mi cabeza.
Andrew Klaassen
"¿Has llegado a una página que no está disponible para ver o has alcanzado el límite de visualización de este libro" ...?
Nick Stauner
1
Eso es lamentable. Si tiene acceso al diario, también puede encontrarlo aquí . Una búsqueda de la frase "los bayesianos ahora están derribando las barreras tradicionales en los ensayos clínicos" también podría llevarlo allí.
Andrew Klaassen
1
El colapso final del marco teórico de decisión de Neyman-Pearson y el surgimiento del neoFisherian también contienen una historia entretenida de valores p y ataques contra los usos del análisis bayesiano en la investigación. No puedo decir que lo entiendo lo suficientemente bien como para evaluarlo, pero creo que es bueno al menos estar al tanto de los correctivos para los entusiasmos actuales.
Andrew Klaassen
1
@NickStauner Acabo de encontrar esta discusión. No es necesario que al menos una cuenta esté equivocada si hay un conjunto de cuentas que no están de acuerdo. Pueden basarse en diferentes modelos. [Si eres un juego, deberías leer el libro de Bill Thompson The Nature of Statistical Evidence (2005).] Sin embargo, mi cuenta es definitivamente correcta ;-) (Aunque esta mañana fue rechazada nuevamente por un diario). Encontré el artículo de Nuzzo para ser descuidado y potencialmente engañoso.
Michael Lew