Pregunta:
Un malentendido común de los valores p es que representan la probabilidad de que la hipótesis nula sea verdadera. Sé que eso no es correcto y sé que los valores p solo representan la probabilidad de encontrar una muestra tan extrema como esta, dado que la hipótesis nula es verdadera. Sin embargo, intuitivamente, uno debería poder derivar el primero del último. Debe haber una razón por la cual nadie está haciendo esto. ¿Qué información nos falta que nos impide derivar la probabilidad de que la hipótesis sea verdadera a partir del valor p y los datos relacionados?
Ejemplo:
Nuestra hipótesis es "La vitamina D afecta el estado de ánimo" (la hipótesis nula es "sin efecto"). Digamos que realizamos un estudio estadístico apropiado con 1000 personas y encontramos una correlación entre el estado de ánimo y los niveles de vitaminas. En igualdad de condiciones, un valor p de 0.01 indica una mayor probabilidad de hipótesis verdaderas que un valor p de 0.05. Digamos que obtenemos un valor p de 0.05. ¿Por qué no podemos calcular la probabilidad real de que nuestra hipótesis sea cierta? ¿Qué información nos falta?
Terminología alternativa para estadísticos frecuentes:
Si acepta la premisa de mi pregunta, puede dejar de leer aquí. Lo siguiente es para las personas que se niegan a aceptar que una hipótesis puede tener una interpretación de probabilidad. Olvidemos la terminología por un momento. En lugar...
Digamos que estás apostando con tu amigo. Tu amigo te muestra mil estudios estadísticos sobre temas no relacionados. Para cada estudio, solo se le permite observar el valor p, el tamaño de la muestra y la desviación estándar de la muestra. Para cada estudio, su amigo le ofrece algunas probabilidades de apostar que la hipótesis presentada en el estudio es cierta. Puede optar por tomar la apuesta o no. Después de haber hecho apuestas para los 1000 estudios, un oráculo asciende sobre usted y le dice qué hipótesis es correcta. Esta información le permite liquidar las apuestas. Mi afirmación es que existe una estrategia óptima para este juego.. En mi visión del mundo, eso es equivalente a conocer las probabilidades de que la hipótesis sea cierta, pero si no estamos de acuerdo con eso, está bien. En ese caso, simplemente podemos hablar sobre formas de emplear los valores p para maximizar las expectativas de las apuestas.
fuente
Respuestas:
Otras respuestas se vuelven filosóficas, pero no veo por qué se necesita aquí. Consideremos tu ejemplo:
Para , obtener corresponde al coeficiente de correlación de la muestra . La hipótesis nula es . La hipótesis alternativa es .n=1000 p=0.05 ρ^=0.062 H0:ρ=0 H1:ρ≠0
El valor es y podemos calcularlo en función del muestreo distribución de bajo nulo; No se necesita nada más.
Desea calcular
y para esto necesitas un montón de ingredientes adicionales. De hecho, aplicando el teorema de Bayes podemos reescribirlo de la siguiente manera:
Por lo tanto, para calcular la probabilidad posterior de nulo, debe tener dos cosas adicionales:
Si está dispuesto a asumir que --- aunque personalmente no estoy seguro de por qué esto debería ser una suposición significativa, --- aún tendrá que asumir la distribución de bajo alternativa. En este caso, podrá calcular algo llamado factor de Bayes :P(ρ=0)=0.5 ρ
Como puede ver, el factor Bayes no depende de la probabilidad previa de nulo, pero sí depende de la probabilidad previa de (bajo la alternativa).ρ
[Tenga en cuenta que el nominador en el factor Bayes no es el valor p, debido a la igualdad en lugar del signo de desigualdad. Así que cuando se calcula el factor de Bayes o no estamos utilizando el p-valor en sí en absoluto. Pero, por supuesto, estamos utilizando la distribución de muestreo .]P(H0) P(ρ^|ρ=0)
fuente
Quid est veritas?
Puedo aceptar la respuesta de @ ameba tan fácilmente como el póster original. Advierto, sin embargo, que en todo mi trabajo, no he encontrado un análisis bayesiano que calcule "la probabilidad de que la hipótesis nula sea verdadera". ¡Y tal conclusión atraería una gran cantidad de argumentos de quienes revisan su trabajo! Filosóficamente, lo haceRegresemos a la pregunta: "¿Qué es la verdad?" Quizás la "verdad" es irrefutable, incluso para evidenciarse. La estadística es una herramienta de la ciencia para cuantificar la incertidumbre. Todavía mantengo que, si bien la evidencia puede señalar fuertemente una verdad, siempre existe el riesgo de un hallazgo falso positivo, y el buen estadístico debe informar este riesgo. Incluso en las pruebas teóricas de decisión bayesianas, se da una regla de decisión para que podamos aceptar o rechazar hipótesis basadas en factores de Bayes que son aproximadamente proporcionales a , pero nuestra creencia nunca es o incluso cuando nuestra decisión lo es. La teoría de la decisión nos brinda un medio para "avanzar" con un conocimiento parcial y aceptar estos riesgos.Pr(H0|X) 1 0
Parte de la justificación de la prueba estadística de hipótesis nulas (NHST) y el valor es la filosofía de falsificación de Karl Popper . En esto: una suposición crítica es que la "verdad" nunca se conoce, solo podemos reducir otras hipótesis. Un interesante y una crítica válida de NHST es que usted está obligado a hacer suposiciones ridículas, al igual que hace el fumar no causa cáncer cuando usted está realmente interesado en un estudio descriptivo (no inferencial), y no son más que la descripción de cómo mucho el cáncer de fumar causa .p
La crítica inversa se ha aplicado a los estudios bayesianos en los que se pueden aplicar generosamente los antecedentes: Dennis Lindley ha dicho: "Con una probabilidad previa 0 de que la luna esté hecha de queso, los astronautas que regresan con los brazos llenos de queso aún no pueden convencer".
La información que falta para determinar si la hipótesis nula es verdadera es, trivialmente, el conocimiento de si la hipótesis nula es verdadera. Irónicamente, cuando nos centramos en estadísticas descriptivas, podemos aceptar rangos tolerables de posibles efectos y concluir con cierta firmeza que una tendencia es probablemente cierta: pero las pruebas estadísticas no nos llevan a tales hallazgos. Incluso en la inferencia bayesiana, ningún dato conducirá a un posterior singular sin tener algunos problemas metodológicos, por lo que la incorporación de un previo no soluciona este problema.
fuente
Hay dos intentos de hacer exactamente lo que has dicho en la historia estadística, el Bayesiano y el Fiducial. RA Fisher fundó dos escuelas de pensamiento estadístico, la escuela probabilista construida alrededor del método de máxima verosimilitud y la escuela Fiducial, que terminó en fracaso pero que intenta hacer exactamente lo que quiere.
La respuesta breve de por qué falló es que sus distribuciones de probabilidad no terminaron integrándose a la unidad. La lección, al final, fue que la probabilidad previa es algo necesario para crear lo que está tratando de crear. De hecho, vas por el camino de uno de los mejores estadísticos de la historia y más de unos pocos de los otros grandes murieron con la esperanza de una solución a este problema. Si se encontrara, colocaría los métodos de hipótesis nula a la par con los métodos bayesianos en términos de los tipos de problemas que podrían resolver. De hecho, superaría a Bayes, excepto donde existiera información previa real.
También debe tener cuidado con su afirmación de que un valor p indica una mayor probabilidad de la alternativa. Eso solo es cierto en la escuela de Probabilidad de Pescadores. No es del todo cierto en la escuela frecuente de Pearson-Neyman. Su apuesta en la parte inferior parece ser una apuesta de Pearson-Neyman, mientras que su valor p es incompatible, ya que proviene de la escuela de pescadores.
Para ser caritativo, voy a suponer, por ejemplo, que no hay sesgo de publicación y, por lo tanto, solo aparecen resultados significativos en las revistas que crean una alta tasa de falsos descubrimientos. Estoy tratando esto como una muestra aleatoria de todos los estudios realizados, independientemente de los resultados. Yo diría que sus probabilidades de apuesta no serían coherentes en el sentido clásico de la palabra de Finetti.
En el mundo de De Finetti, una apuesta es coherente si los jugadores no pueden apostar en la casa de apuestas para que se enfrenten a una pérdida segura. En la construcción más simple, es como la solución al problema de cortar el pastel. Una persona corta la pieza por la mitad, pero la otra persona elige qué pieza quiere. En esta construcción, una persona indicaría los precios de las apuestas en cada hipótesis, pero la otra persona elegiría comprar o vender la apuesta. En esencia, podría vender en corto el nulo. Para ser óptimo, las probabilidades tendrían que ser estrictamente justas. Los valores P no conducen a probabilidades justas.
Para ilustrar esto, considere el estudio de Wetzels, et al en http://ejwagenmakers.com/2011/WetzelsEtAl2011_855.pdf
La cita es: Ruud Wetzels, Dora Matzke, Michael D. Lee, Jeffrey N. Rounder, Geoffrey J. Iverson y Eric-Jan Wagenmakers. Evidencia estadística en psicología experimental: una comparación empírica utilizando 855 t pruebas. Perspectivas sobre la ciencia psicológica. 6 (3) 291-298. 2011
Esta es una comparación directa de 855 pruebas t publicadas que utilizan factores de Bayes para evitar el problema de la distribución previa. En el 70% de los valores p entre 0,05 y 0,01, los factores de Bayes fueron, en el mejor de los casos, anecdóticos. Esto se debe a la forma matemática utilizada por los frequentistas para resolver el problema.
Los métodos de hipótesis nulas suponen que el modelo es verdadero y, por su construcción, utilizan una distribución estadística minimax en lugar de una distribución de probabilidad. Ambos factores afectan las diferencias entre las soluciones bayesianas y no bayesianas. Considere un estudio en el que el método bayesiano evalúa la probabilidad posterior de una hipótesis como tres por ciento. Imagine que el valor p es inferior al cinco por ciento. Ambos son ciertos ya que el tres por ciento es menos del cinco por ciento. No obstante, el valor p no es una probabilidad. Solo establece el valor máximo que podría ser la probabilidad de ver los datos, no la probabilidad real de que una hipótesis sea verdadera o falsa. De hecho, bajo la construcción del valor p, no se puede distinguir entre los efectos debido al azar con un nulo verdadero y un nulo falso con buenos datos.
Si observa el estudio de Wetzel, notará que es muy obvio que las probabilidades implicadas por los valores p no coinciden con las probabilidades implicadas por la medida bayesiana. Como la medida bayesiana es admisible y coherente, y la no bayesiana no es coherente, no es seguro asumir el mapa de valores p con las probabilidades verdaderas. La suposición forzada de que el valor nulo es válido proporciona buenas probabilidades de cobertura, pero no produce buenas probabilidades de juego.
Para tener una mejor idea de por qué, considere el primer axioma de Cox de que la plausibilidad de una hipótesis se puede describir con un número real. Implícitamente, esto significa que todas las hipótesis tienen un número real vinculado a su plausibilidad. En los métodos de hipótesis nula, solo el nulo tiene un número real vinculado a su plausibilidad. La hipótesis alternativa no tiene medidas hechas y ciertamente no es el complemento de la probabilidad de observar los datos dado que el nulo es verdadero. De hecho, si el nulo es verdadero, entonces el complemento es falso por suposición sin tener en cuenta los datos.
Si construyó las probabilidades usando valores p como base de su medición, entonces el Bayesiano que usa mediciones Bayesianas siempre sería capaz de obtener una ventaja sobre usted. Si el Bayesiano establece las probabilidades, entonces la teoría de decisión de Pearson y Neyman proporcionaría una declaración de apuesta o no apuesta, pero no podrían definir la cantidad a apostar. Como las probabilidades bayesianas eran justas, la ganancia esperada del uso del método de Pearson y Neyman sería cero.
De hecho, el estudio de Wetzel es realmente de lo que estás hablando, pero con 145 apuestas menos. Si observa la tabla tres, verá algunos estudios en los que el Frecuentista rechaza el nulo, pero el Bayesiano encuentra que la probabilidad favorece al nulo.
fuente
Un análisis frecuente no puede darle la probabilidad de que una hipótesis particular sea verdadera (o falsa) porque no tiene una frecuencia de ejecución larga (es verdadera o no), por lo que no podemos asignarle una probabilidad (excepto tal vez 0 o 1 ) Si desea conocer la probabilidad de que una hipótesis particular sea cierta, necesitamos adoptar un marco bayesiano (donde es sencillo, solo tenemos que considerar las probabilidades anteriores, etc.).
Los frecuentes pueden encontrar estrategias óptimas para actuar sobre pruebas de hipótesis nulas ( marco de Neyman-Pearson ) pero no pueden traducir eso en una probabilidad de que la hipótesis sea verdadera, sino solo debido a su definición de probabilidad.
fuente
El problema en su configuración es el Oracle. Por lo general, no se trata de liquidar las apuestas. Digamos que está apostando a que la probabilidad de que sea cierto que fumar cause cáncer es del 97%. ¿Cuándo vendrá este Oráculo para liquidar la apuesta? Nunca. Entonces, ¿cómo probarías que tu estrategia óptima es óptima?
Sin embargo, si elimina un Oracle e introduce otros agentes como competidores y clientes, entonces habría una estrategia óptima. Sin embargo, me temo que no se basará en valores p. Sería más similar al enfoque de Gosset con funciones de pérdida. Por ejemplo, usted y sus competidores en el sector agrícola están apostando a que el pronóstico del tiempo sea cierto. Quien elija una mejor estrategia va a ganar más dinero. No hay necesidad en Oracle, y las apuestas se liquidan en los mercados. Aquí no puede basar la estrategia en valores p, debe contabilizar las pérdidas y ganancias en dólares.
fuente
En la hipótesis, desea probar alguna afirmación sobre el mundo real, por ejemplo, la longitud promedio de todos los hombres es de 1.75 m. Luego formularíamos una prueba de hipótesis como, por ejemplo, versus .H0:μL=1.75 H1:μL≠1.75
Esta es nuestra declaración y queremos probar si en el mundo real esto es un hecho. Pero los frecuentistas afirman que en el mundo real esto es verdadero o falso. Como en el mundo real es verdadero o falso, esto significa que en el mundo real es 0 o 1.H0 P(H0=TRUE)
Entonces, en teoría, el resultado de nuestra prueba de hipótesis debería ser es verdadero o falso, pero como solo trabajamos en una muestra, no podemos sacar conclusiones tan difíciles, por lo tanto, tratamos de usar alguna variante estadística de una técnica matemática llamada 'prueba por contradicción' . Para más detalles vea ¿Qué sigue si no rechazamos la hipótesis nula? .H0
Para un hilo sobre valores p, vea ¿ Comprender mal un valor P?
Los baysianos hacen algo diferente; expresan su creencia o credibilidad que tienen al concluir la prueba, por lo que no es realmente la probabilidad de que sea verdadera, sino más bien el grado de creencia que tienen en su conclusión que hacen después de la prueba sobre . Es por eso que se llama "credibilidad".H0 H0
Tomando su ejemplo, prueba " vitamina D afecta el estado de ánimo" versus " vitamina D no afecta el estado de ánimo".H 1 :H0: H1:
Sobre la base de una muestra, calcula un estadístico de prueba y su probabilidad de ser excedido cuando es verdadero. Si este valor del estadístico de prueba es muy bajo (por debajo de nuestro nivel de significancia elegido), entonces asumir que es verdadero conduce a algo muy improbable o lleva a decir "una contradicción estadística" yH 0H0 H0
fuente