Johansson (2011) en " Salve lo imposible: valores p, evidencia y probabilidad " (aquí también hay un enlace a la revista ) afirma que los valores más bajos a menudo se consideran como una evidencia más fuerte contra el nulo. Johansson implica que las personas considerarían que la evidencia contra el nulo es más fuerte si su prueba estadística arrojó un valor de , que si su prueba estadística arrojara un valor de . Johansson enumera cuatro razones por las cuales el valor no puede usarse como evidencia contra el nulo:p 0.01 pp
- se distribuye uniformemente bajo la hipótesis nula y, por lo tanto, nunca puede indicar evidencia de la nula.
- está condicionado únicamente a la hipótesis nula y, por lo tanto, no es adecuado para cuantificar la evidencia, porque la evidencia siempre es relativa en el sentido de ser evidencia a favor o en contra de una hipótesis relativa a otra hipótesis.
- designa la probabilidad de obtener evidencia (dada la nula), en lugar de la fuerza de la evidencia.
- depende de datos no observados e intenciones subjetivas y, por lo tanto, implica, dada la interpretación probatoria, que la fuerza probatoria de los datos observados depende de cosas que no ocurrieron e intenciones subjetivas.
Lamentablemente, no puedo obtener una comprensión intuitiva del artículo de Johansson. Para mí, un valor de indica que hay menos posibilidades de que el valor nulo sea verdadero, que un valor de . ¿Por qué los valores más bajos no son evidencia más fuerte contra nulo? 0.01 p 0.45 p
Respuestas:
Mi valoración personal de sus argumentos:
Su sugerencia de usar la razón de probabilidad como una medida de evidencia es, en mi opinión, una buena (pero aquí la idea de un factor de Bayes es más general), pero en el contexto en el que la presenta es un poco peculiar: primero se va los fundamentos de las pruebas de Fisherian donde no existe una hipótesis alternativa para calcular la razón de probabilidad. Pero como evidencia contra el Nulo es Fisherian. Por lo tanto, él confunde a Fisher y Neyman-Pearson. En segundo lugar, la mayoría de las estadísticas de prueba que utilizamos son (funciones de) la razón de probabilidad y en ese caso es una transformación de la razón de probabilidad. Como dice Cosma Shalizi :ppags pags
Aquí es la densidad bajo el estado "señal" y la densidad bajo el estado "ruido". La medida de "suficientemente probable" sería aquí que es . Tenga en cuenta que en las pruebas correctas de Neyman-Pearson, se sustituye por una fija tal que . p ( x ) P ( q ( X ) / p ( x ) > t o b s ∣ H 0 ) p t o b s t ( s ) P ( q ( X ) / p ( x ) > t ( s ) ∣ H 0 ) = αq( x ) p ( x ) PAGS( q( X) / p ( x ) > to bs∣ H0 0) pags to b s t ( s ) PAGS( q( X) / p ( x ) > t ( s ) ∣ H0 0) = α
fuente
La razón por la cual los argumentos como el de Johansson se reciclan con tanta frecuencia parece estar relacionada con el hecho de que los valores P son índices de la evidencia contra el valor nulo, pero no son medidas de la evidencia. La evidencia tiene más dimensiones de las que cualquier número individual puede medir, por lo que siempre hay aspectos de la relación entre los valores P y la evidencia que las personas pueden encontrar difíciles.
He revisado muchos de los argumentos utilizados por Johansson en un documento que muestra la relación entre los valores P y las funciones de probabilidad, y por lo tanto evidencia: http://arxiv.org/abs/1311.0081 Lamentablemente, ese documento ha sido rechazado tres veces, aunque sus argumentos y la evidencia para ellos no han sido refutados. (Parece que es desagradable para los árbitros que sostienen opiniones como las de Johansson en lugar de equivocadas).
fuente
Agregando a la buena respuesta de @ Momo:
fuente
¿Johansson está hablando de los valores p de dos experimentos diferentes? Si es así, comparar los valores p puede ser como comparar manzanas con chuletas de cordero. Si el experimento "A" involucra una gran cantidad de muestras, incluso una pequeña diferencia intrascendente puede ser estadísticamente significativa. Si el experimento "B" involucra solo unas pocas muestras, una diferencia importante puede ser estadísticamente insignificante. Peor aún (por eso dije chuletas de cordero y no naranjas), las escamas pueden ser totalmente incomparables (psi en una y kwh en la otra).
fuente