¿Por qué los valores p más bajos no son más pruebas contra el nulo? Argumentos de Johansson 2011

31

Johansson (2011) en " Salve lo imposible: valores p, evidencia y probabilidad " (aquí también hay un enlace a la revista ) afirma que los valores más bajos a menudo se consideran como una evidencia más fuerte contra el nulo. Johansson implica que las personas considerarían que la evidencia contra el nulo es más fuerte si su prueba estadística arrojó un valor de , que si su prueba estadística arrojara un valor de . Johansson enumera cuatro razones por las cuales el valor no puede usarse como evidencia contra el nulo:p 0.01 ppp0.01pp0.45p

  1. p se distribuye uniformemente bajo la hipótesis nula y, por lo tanto, nunca puede indicar evidencia de la nula.
  2. p está condicionado únicamente a la hipótesis nula y, por lo tanto, no es adecuado para cuantificar la evidencia, porque la evidencia siempre es relativa en el sentido de ser evidencia a favor o en contra de una hipótesis relativa a otra hipótesis.
  3. p designa la probabilidad de obtener evidencia (dada la nula), en lugar de la fuerza de la evidencia.
  4. p depende de datos no observados e intenciones subjetivas y, por lo tanto, implica, dada la interpretación probatoria, que la fuerza probatoria de los datos observados depende de cosas que no ocurrieron e intenciones subjetivas.

Lamentablemente, no puedo obtener una comprensión intuitiva del artículo de Johansson. Para mí, un valor de indica que hay menos posibilidades de que el valor nulo sea verdadero, que un valor de . ¿Por qué los valores más bajos no son evidencia más fuerte contra nulo? 0.01 p 0.45 pp0.01p0.45p

luciano
fuente
Hola @luciano! Veo que no has aceptado ninguna respuesta en este hilo. ¿Qué tipo de respuesta estás buscando? ¿Es su pregunta principalmente sobre los argumentos de Johannson específicamente, o sobre valores p más bajos en general?
ameba dice Reinstate Monica
Esto se trata de los marcos frecuentistas Fisher vs Neyman-Pearson. Ver más en esta respuesta por @gung .
Firebug

Respuestas:

21

Mi valoración personal de sus argumentos:

  1. Aquí habla de usar como evidencia para el Nulo, mientras que su tesis es que no puede usarse como evidencia contra el Nulo. Entonces, creo que este argumento es en gran medida irrelevante.pp
  2. Creo que esto es un malentendido. La prueba pescadores sigue fuertemente la idea del racionalismo crítico de Popper que establece que no puedes apoyar una teoría sino solo criticarla. Entonces, en ese sentido, solo hay una única hipótesis (la Nula) y simplemente verifica si sus datos están de acuerdo con ella.p
  3. No estoy de acuerdo aquí. Depende de la estadística de prueba, pero suele ser una transformación de un tamaño de efecto que habla en contra de Null. Entonces, cuanto mayor sea el efecto, menor será el valor p --- todas las demás cosas son iguales. Por supuesto, para diferentes conjuntos de datos o hipótesis esto ya no es válido. p
  4. No estoy seguro de entender completamente esta declaración, pero por lo que he entendido que esto es menos un problema de como de personas que lo usan incorrectamente. estaba destinado a tener la interpretación de frecuencia a largo plazo y esa es una característica, no un error. Pero no puede culpar a por las personas que toman un solo valor de como prueba de su hipótesis o por las personas que publican solo . p p p p <ppppp<.05

Su sugerencia de usar la razón de probabilidad como una medida de evidencia es, en mi opinión, una buena (pero aquí la idea de un factor de Bayes es más general), pero en el contexto en el que la presenta es un poco peculiar: primero se va los fundamentos de las pruebas de Fisherian donde no existe una hipótesis alternativa para calcular la razón de probabilidad. Pero como evidencia contra el Nulo es Fisherian. Por lo tanto, él confunde a Fisher y Neyman-Pearson. En segundo lugar, la mayoría de las estadísticas de prueba que utilizamos son (funciones de) la razón de probabilidad y en ese caso es una transformación de la razón de probabilidad. Como dice Cosma Shalizi :ppp

entre todas las pruebas de un tamaño dado , el que tiene la menor probabilidad de falla, o la potencia más alta, tiene la forma "diga 'señal' si , de lo contrario diga 'ruido' , "y que el umbral varía inversamente con . La cantidad es la razón de probabilidad; El lema de Neyman-Pearson dice que para maximizar la potencia, deberíamos decir "señal" si es suficientemente más probable que el ruido.q ( x ) / p ( x ) > t ( s ) t s q ( x ) / p ( xsq(x)/p(x)>t(s)tsq(x)/p(x)

Aquí es la densidad bajo el estado "señal" y la densidad bajo el estado "ruido". La medida de "suficientemente probable" sería aquí que es . Tenga en cuenta que en las pruebas correctas de Neyman-Pearson, se sustituye por una fija tal que . p ( x ) P ( q ( X ) / p ( x ) > t o b sH 0 ) p t o b s t ( s ) P ( q ( X ) / p ( x ) > t ( s ) H 0 ) = αq(x)p(x)P(q(X)/p(x)>tobsH0)ptobst(s)P(q(X)/p(x)>t(s)H0)=α

Momo
fuente
66
+1 para el punto 3 solo. Cox describe el valor p como una calibración de la razón de probabilidad (u otra estadística de prueba) y es un punto de vista que a menudo se olvida.
Scortchi - Restablece a Monica
(+1) Buena respuesta, @Momo. Me pregunto si podría mejorarse agregando algo como "¡Pero lo son!" en una fuente grande como el encabezado de su respuesta, porque esta parece ser su respuesta a la pregunta del título de OP "¿Por qué los valores p más bajos no son más pruebas contra el valor nulo?". Desacredita todos los argumentos dados, pero no proporciona explícitamente una respuesta a la pregunta del título.
ameba dice Reinstate Monica
1
Dudaría un poco en hacer eso, todo es muy sutil y muy dependiente de suposiciones, contextos, etc. Por ejemplo, puede negar que las declaraciones probabilísticas pueden usarse como "evidencia" y, por lo tanto, la declaración es correcta. Desde el punto de vista de los pescadores no lo es. Además, no diría que desacredité (todos) los argumentos, creo que solo proporciono una perspectiva diferente y señalo algunos defectos lógicos en el argumento. El autor argumenta bien su punto y trata de proporcionar una solución a un enfoque pertinente que por sí solo puede considerarse igualmente problemático.
Momo
9

La razón por la cual los argumentos como el de Johansson se reciclan con tanta frecuencia parece estar relacionada con el hecho de que los valores P son índices de la evidencia contra el valor nulo, pero no son medidas de la evidencia. La evidencia tiene más dimensiones de las que cualquier número individual puede medir, por lo que siempre hay aspectos de la relación entre los valores P y la evidencia que las personas pueden encontrar difíciles.

He revisado muchos de los argumentos utilizados por Johansson en un documento que muestra la relación entre los valores P y las funciones de probabilidad, y por lo tanto evidencia: http://arxiv.org/abs/1311.0081 Lamentablemente, ese documento ha sido rechazado tres veces, aunque sus argumentos y la evidencia para ellos no han sido refutados. (Parece que es desagradable para los árbitros que sostienen opiniones como las de Johansson en lugar de equivocadas).

Michael Lew
fuente
+1 @Michael Lew, ¿qué hay de cambiar el título? Para P (ee) o no para P (ee) ... no suena como un dilema. Todos sabemos qué hacer en esa situación. = D Bromas aparte, ¿cuáles fueron las razones por las que tu documento fue rechazado?
Un viejo en el mar.
4

Agregando a la buena respuesta de @ Momo:

1

JohnRos
fuente
2
Vale la pena señalar que la evidencia en sí no se ve afectada por la multiplicidad de pruebas, incluso si su respuesta a la evidencia puede ser alterada. La evidencia en los datos es la evidencia en los datos y no se ve afectada por ningún cálculo que pueda realizar en su computadora. La "corrección" típica de los valores p para la multiplicidad de pruebas tiene que ver con la preservación de las tasas de error falso positivo, sin corregir la relación entre el valor p y la evidencia experimental.
Michael Lew
1

¿Johansson está hablando de los valores p de dos experimentos diferentes? Si es así, comparar los valores p puede ser como comparar manzanas con chuletas de cordero. Si el experimento "A" involucra una gran cantidad de muestras, incluso una pequeña diferencia intrascendente puede ser estadísticamente significativa. Si el experimento "B" involucra solo unas pocas muestras, una diferencia importante puede ser estadísticamente insignificante. Peor aún (por eso dije chuletas de cordero y no naranjas), las escamas pueden ser totalmente incomparables (psi en una y kwh en la otra).

Emil Friedman
fuente
3
Mi impresión es que Johansson no está hablando de comparar valores p de diferentes experimentos. A la luz de ese comentario de @ Glen_b, ¿te importaría aclarar tu publicación, Emil? Está bien plantear un punto relacionado ('Creo que J está mal en el contexto A, pero tendría algún mérito en el contexto B'), pero debe quedar claro que eso es lo que estás haciendo. Si está haciendo una pregunta o comentario, elimine esta publicación y hágala un comentario.
gung - Restablece a Monica