Usar el valor p para calcular la probabilidad de que la hipótesis sea verdadera; ¿Qué más se necesita?

9

Pregunta:

Un malentendido común de los valores p es que representan la probabilidad de que la hipótesis nula sea verdadera. Sé que eso no es correcto y sé que los valores p solo representan la probabilidad de encontrar una muestra tan extrema como esta, dado que la hipótesis nula es verdadera. Sin embargo, intuitivamente, uno debería poder derivar el primero del último. Debe haber una razón por la cual nadie está haciendo esto. ¿Qué información nos falta que nos impide derivar la probabilidad de que la hipótesis sea verdadera a partir del valor p y los datos relacionados?

Ejemplo:

Nuestra hipótesis es "La vitamina D afecta el estado de ánimo" (la hipótesis nula es "sin efecto"). Digamos que realizamos un estudio estadístico apropiado con 1000 personas y encontramos una correlación entre el estado de ánimo y los niveles de vitaminas. En igualdad de condiciones, un valor p de 0.01 indica una mayor probabilidad de hipótesis verdaderas que un valor p de 0.05. Digamos que obtenemos un valor p de 0.05. ¿Por qué no podemos calcular la probabilidad real de que nuestra hipótesis sea cierta? ¿Qué información nos falta?

Terminología alternativa para estadísticos frecuentes:

Si acepta la premisa de mi pregunta, puede dejar de leer aquí. Lo siguiente es para las personas que se niegan a aceptar que una hipótesis puede tener una interpretación de probabilidad. Olvidemos la terminología por un momento. En lugar...

Digamos que estás apostando con tu amigo. Tu amigo te muestra mil estudios estadísticos sobre temas no relacionados. Para cada estudio, solo se le permite observar el valor p, el tamaño de la muestra y la desviación estándar de la muestra. Para cada estudio, su amigo le ofrece algunas probabilidades de apostar que la hipótesis presentada en el estudio es cierta. Puede optar por tomar la apuesta o no. Después de haber hecho apuestas para los 1000 estudios, un oráculo asciende sobre usted y le dice qué hipótesis es correcta. Esta información le permite liquidar las apuestas. Mi afirmación es que existe una estrategia óptima para este juego.. En mi visión del mundo, eso es equivalente a conocer las probabilidades de que la hipótesis sea cierta, pero si no estamos de acuerdo con eso, está bien. En ese caso, simplemente podemos hablar sobre formas de emplear los valores p para maximizar las expectativas de las apuestas.

hypothesis-testing bayesian p-value frequentist Atte Juvonen
fuente

Ver, por ejemplo: math.tut.fi/~piche/bayes/notes06.pdf

klumbard el

13

"¿Qué información nos falta?", La probabilidad previa de que H0 sea verdadera. Es solo el teorema de Bayes; Para calcular el posterior, debe tener un previo.

ameba

1

@ AdamO No veo cómo eso se desprende de la regla de Cromwell, que se trata de lo anterior, no de lo posterior. Creo que puede estar confundiendo "verdad" con "cierto conocimiento". Si estuviéramos interesados en cierto conocimiento, estaríamos usando la lógica, en lugar del razonamiento probabilístico.

Dikran Marsupial

1

@ Adam, no te sigo. OP preguntó "¿Qué información nos falta que nos impide derivar la probabilidad de que la hipótesis sea verdadera a partir del valor p y los datos relacionados?" ¿Qué tiene que ver la probabilidad 1 y saber algo como verdad con eso?

ameba

1

En respuesta a su comentario anterior @Atte: bueno, si uno quiere asumir un previo de 0.5, entonces está bien, pero no veo por qué esto siempre debería ser una suposición significativa. En cualquier caso, es una suposición.

ameba

5

Otras respuestas se vuelven filosóficas, pero no veo por qué se necesita aquí. Consideremos tu ejemplo:

Nuestra hipótesis es "La vitamina D afecta el estado de ánimo" (la hipótesis nula es "sin efecto"). Digamos que realizamos un estudio estadístico apropiado con 1000 personas y encontramos una correlación entre el estado de ánimo y los niveles de vitaminas. En igualdad de condiciones, un valor p de 0.01 indica una mayor probabilidad de hipótesis verdaderas que un valor p de 0.05. Digamos que obtenemos un valor p de 0.05. ¿Por qué no podemos calcular la probabilidad real de que nuestra hipótesis sea cierta? ¿Qué información nos falta?

Para , obtener corresponde al coeficiente de correlación de la muestra . La hipótesis nula es . La hipótesis alternativa es . $n=1000$ $p=0.05$ $\hat \rho=0.062$ $H_0: \rho=0$ $H_1: \rho\ne 0$

El valor es y podemos calcularlo en función del muestreo distribución de bajo nulo; No se necesita nada más.

p -value = P (| \hat{ρ} | \geq 0.062 | ρ = 0),

$p\text{-value} = P\big(|\hat\rho|\ge 0.062 \;\big|\; \rho=0\big),$

\hat{ρ}

$\hat\rho$

Desea calcular

P (H_{0} | data) = P (ρ = 0 | \hat{ρ} = 0.062),

$P(H_0\;|\;\text{data})=P\big(\rho=0\;\big|\; \hat\rho= 0.062\big),$

y para esto necesitas un montón de ingredientes adicionales. De hecho, aplicando el teorema de Bayes podemos reescribirlo de la siguiente manera:

\frac{P (\hat{ρ} = 0.062 | ρ = 0) \cdot P (ρ = 0)}{P (\hat{ρ} = 0.062 | ρ = 0) \cdot P (ρ = 0) + P (\hat{ρ} = 0.062 | ρ \neq 0) \cdot (1 - P (ρ = 0))} .

$\frac{P\big( \hat\rho= 0.062 \;\big|\;\rho=0\big) \cdot P(\rho=0)}{P\big( \hat\rho= 0.062 \;\big|\;\rho=0\big) \cdot P(\rho=0)+P\big( \hat\rho= 0.062 \;\big|\;\rho\ne0\big) \cdot (1-P(\rho=0))}.$

Por lo tanto, para calcular la probabilidad posterior de nulo, debe tener dos cosas adicionales:

Antes de que la hipótesis nula sea verdadera: . $P(\rho=0)$
Suposición acerca de cómo se distribuye si la hipótesis alternativa es verdadera. Esto es necesario para calcular el término . $\rho$ $P\big( \hat\rho= 0.062 \;\big|\;\rho\ne0\big)$

Si está dispuesto a asumir que --- aunque personalmente no estoy seguro de por qué esto debería ser una suposición significativa, --- aún tendrá que asumir la distribución de bajo alternativa. En este caso, podrá calcular algo llamado factor de Bayes : $P(\rho=0)=0.5$ $\rho$

B = \frac{P (\hat{ρ} = 0.062 | ρ = 0)}{P (\hat{ρ} = 0.062 | ρ \neq 0)} .

$B=\frac{P\big( \hat\rho= 0.062 \;\big|\;\rho=0\big) }{P\big( \hat\rho= 0.062 \;\big|\;\rho\ne0\big)}.$

Como puede ver, el factor Bayes no depende de la probabilidad previa de nulo, pero sí depende de la probabilidad previa de (bajo la alternativa). $\rho$

[Tenga en cuenta que el nominador en el factor Bayes no es el valor p, debido a la igualdad en lugar del signo de desigualdad. Así que cuando se calcula el factor de Bayes o no estamos utilizando el p-valor en sí en absoluto. Pero, por supuesto, estamos utilizando la distribución de muestreo .] $P(H_0)$ $P(\hat\rho\;|\;\rho=0)$

ameba
fuente

La pregunta es sobre "la probabilidad de que sea verdadero", ¿crees que los bayesianos calculan esto? ¿O calculan la "credibilidad" de que sea verdadero? Es decir, calculan su grado de creencia de que es verdadero (dados los datos que observan) o calculan la probabilidad de que sea verdadero?

H_{0}

$H_0$

H_{0}

$H_0$

H_{0}

$H_0$

H_{0}

$H_0$

2

No entiendo la distinción que estás haciendo @fcop. En la visión del mundo bayesiano, la probabilidad es el grado de creencia ( por ejemplo, ver aquí ).

ameba

Entonces, ¿por qué lo llaman "credibilidad"?

1

Lo siento @fcop, no quiero tener una discusión filosófica o semántica aquí. El OP pregunta qué se necesita para calcular y estaba respondiendo esta pregunta específica desde el punto de vista matemático.

P (H_{0})

$P(H_0)$

ameba

@fcop ver también stats.stackexchange.com/questions/173056/…

Tim

7

Quid est veritas?

Puedo aceptar la respuesta de @ ameba tan fácilmente como el póster original. Advierto, sin embargo, que en todo mi trabajo, no he encontrado un análisis bayesiano que calcule "la probabilidad de que la hipótesis nula sea verdadera". ¡Y tal conclusión atraería una gran cantidad de argumentos de quienes revisan su trabajo! Filosóficamente, lo haceRegresemos a la pregunta: "¿Qué es la verdad?" Quizás la "verdad" es irrefutable, incluso para evidenciarse. La estadística es una herramienta de la ciencia para cuantificar la incertidumbre. Todavía mantengo que, si bien la evidencia puede señalar fuertemente una verdad, siempre existe el riesgo de un hallazgo falso positivo, y el buen estadístico debe informar este riesgo. Incluso en las pruebas teóricas de decisión bayesianas, se da una regla de decisión para que podamos aceptar o rechazar hipótesis basadas en factores de Bayes que son aproximadamente proporcionales a , pero nuestra creencia nunca es o incluso cuando nuestra decisión lo es. La teoría de la decisión nos brinda un medio para "avanzar" con un conocimiento parcial y aceptar estos riesgos. $Pr(H_0 | X)$ $1$ $0$

Parte de la justificación de la prueba estadística de hipótesis nulas (NHST) y el valor es la filosofía de falsificación de Karl Popper . En esto: una suposición crítica es que la "verdad" nunca se conoce, solo podemos reducir otras hipótesis. Un interesante y una crítica válida de NHST es que usted está obligado a hacer suposiciones ridículas, al igual que hace el fumar no causa cáncer cuando usted está realmente interesado en un estudio descriptivo (no inferencial), y no son más que la descripción de cómo mucho el cáncer de fumar causa . $p$

La crítica inversa se ha aplicado a los estudios bayesianos en los que se pueden aplicar generosamente los antecedentes: Dennis Lindley ha dicho: "Con una probabilidad previa 0 de que la luna esté hecha de queso, los astronautas que regresan con los brazos llenos de queso aún no pueden convencer".

La información que falta para determinar si la hipótesis nula es verdadera es, trivialmente, el conocimiento de si la hipótesis nula es verdadera. Irónicamente, cuando nos centramos en estadísticas descriptivas, podemos aceptar rangos tolerables de posibles efectos y concluir con cierta firmeza que una tendencia es probablemente cierta: pero las pruebas estadísticas no nos llevan a tales hallazgos. Incluso en la inferencia bayesiana, ningún dato conducirá a un posterior singular sin tener algunos problemas metodológicos, por lo que la incorporación de un previo no soluciona este problema.

AdamO
fuente

1

"" Con probabilidad previa 0 de que la luna esté hecha de queso ", pero dado" cogito ergo sum "(y tal vez ni siquiera eso) es todo lo que sabemos con certeza, si damos una probabilidad previa de 0 de que la luna esté hecha de queso ? 0 y 1 deben reservarse para lo lógicamente imposible y cierto, y eps y 1-eps para declaraciones sobre el mundo real. El marco bayesiano está bien, siempre que sus antecedentes representen con precisión su conocimiento previo del problema (pero eso en sí mismo es un problema)

Dikran Marsupial

1

@DikranMarsupial Su argumento en contra de dicho uso de 0/1 es precisamente lo que sugiere la cita. Se ridiculiza la situación para explicar la necesidad de lo que Lindley llama la regla de Cromwell .

nwn

1

@watarok gracias por el enlace / aclaración, parece que la mención en la respuesta es un poco engañosa, ya que Lindley no está criticando los estudios bayesianos, solo los antecedentes demasiado confiados.

Dikran Marsupial

@DikranMarsupial Creo que el tema de los antecedentes de confianza excesiva es uno que se puede aplicar a todas las estadísticas bayesianas. Un previo no informativo a menudo conduce a inferencias y análisis frecuentistas aproximados de todos modos. La diferencia está en la interpretación: los resultados bayesianos deben coincidir con la idea de una "verdad" o "parámetro verdadero". Eso está bien siempre que describamos cuidadosamente las suposiciones y cómo se fijan las tasas de potencia y error.

AdamO

@watarok mi profesor de estadísticas bayesiano escocés usó esa cita regularmente, pero nunca describió su relevancia. Estoy agradecido de saberlo ahora.

AdamO

6

Hay dos intentos de hacer exactamente lo que has dicho en la historia estadística, el Bayesiano y el Fiducial. RA Fisher fundó dos escuelas de pensamiento estadístico, la escuela probabilista construida alrededor del método de máxima verosimilitud y la escuela Fiducial, que terminó en fracaso pero que intenta hacer exactamente lo que quiere.

La respuesta breve de por qué falló es que sus distribuciones de probabilidad no terminaron integrándose a la unidad. La lección, al final, fue que la probabilidad previa es algo necesario para crear lo que está tratando de crear. De hecho, vas por el camino de uno de los mejores estadísticos de la historia y más de unos pocos de los otros grandes murieron con la esperanza de una solución a este problema. Si se encontrara, colocaría los métodos de hipótesis nula a la par con los métodos bayesianos en términos de los tipos de problemas que podrían resolver. De hecho, superaría a Bayes, excepto donde existiera información previa real.

También debe tener cuidado con su afirmación de que un valor p indica una mayor probabilidad de la alternativa. Eso solo es cierto en la escuela de Probabilidad de Pescadores. No es del todo cierto en la escuela frecuente de Pearson-Neyman. Su apuesta en la parte inferior parece ser una apuesta de Pearson-Neyman, mientras que su valor p es incompatible, ya que proviene de la escuela de pescadores.

Para ser caritativo, voy a suponer, por ejemplo, que no hay sesgo de publicación y, por lo tanto, solo aparecen resultados significativos en las revistas que crean una alta tasa de falsos descubrimientos. Estoy tratando esto como una muestra aleatoria de todos los estudios realizados, independientemente de los resultados. Yo diría que sus probabilidades de apuesta no serían coherentes en el sentido clásico de la palabra de Finetti.

En el mundo de De Finetti, una apuesta es coherente si los jugadores no pueden apostar en la casa de apuestas para que se enfrenten a una pérdida segura. En la construcción más simple, es como la solución al problema de cortar el pastel. Una persona corta la pieza por la mitad, pero la otra persona elige qué pieza quiere. En esta construcción, una persona indicaría los precios de las apuestas en cada hipótesis, pero la otra persona elegiría comprar o vender la apuesta. En esencia, podría vender en corto el nulo. Para ser óptimo, las probabilidades tendrían que ser estrictamente justas. Los valores P no conducen a probabilidades justas.

Para ilustrar esto, considere el estudio de Wetzels, et al en http://ejwagenmakers.com/2011/WetzelsEtAl2011_855.pdf

La cita es: Ruud Wetzels, Dora Matzke, Michael D. Lee, Jeffrey N. Rounder, Geoffrey J. Iverson y Eric-Jan Wagenmakers. Evidencia estadística en psicología experimental: una comparación empírica utilizando 855 t pruebas. Perspectivas sobre la ciencia psicológica. 6 (3) 291-298. 2011

Esta es una comparación directa de 855 pruebas t publicadas que utilizan factores de Bayes para evitar el problema de la distribución previa. En el 70% de los valores p entre 0,05 y 0,01, los factores de Bayes fueron, en el mejor de los casos, anecdóticos. Esto se debe a la forma matemática utilizada por los frequentistas para resolver el problema.

Los métodos de hipótesis nulas suponen que el modelo es verdadero y, por su construcción, utilizan una distribución estadística minimax en lugar de una distribución de probabilidad. Ambos factores afectan las diferencias entre las soluciones bayesianas y no bayesianas. Considere un estudio en el que el método bayesiano evalúa la probabilidad posterior de una hipótesis como tres por ciento. Imagine que el valor p es inferior al cinco por ciento. Ambos son ciertos ya que el tres por ciento es menos del cinco por ciento. No obstante, el valor p no es una probabilidad. Solo establece el valor máximo que podría ser la probabilidad de ver los datos, no la probabilidad real de que una hipótesis sea verdadera o falsa. De hecho, bajo la construcción del valor p, no se puede distinguir entre los efectos debido al azar con un nulo verdadero y un nulo falso con buenos datos.

Si observa el estudio de Wetzel, notará que es muy obvio que las probabilidades implicadas por los valores p no coinciden con las probabilidades implicadas por la medida bayesiana. Como la medida bayesiana es admisible y coherente, y la no bayesiana no es coherente, no es seguro asumir el mapa de valores p con las probabilidades verdaderas. La suposición forzada de que el valor nulo es válido proporciona buenas probabilidades de cobertura, pero no produce buenas probabilidades de juego.

Para tener una mejor idea de por qué, considere el primer axioma de Cox de que la plausibilidad de una hipótesis se puede describir con un número real. Implícitamente, esto significa que todas las hipótesis tienen un número real vinculado a su plausibilidad. En los métodos de hipótesis nula, solo el nulo tiene un número real vinculado a su plausibilidad. La hipótesis alternativa no tiene medidas hechas y ciertamente no es el complemento de la probabilidad de observar los datos dado que el nulo es verdadero. De hecho, si el nulo es verdadero, entonces el complemento es falso por suposición sin tener en cuenta los datos.

Si construyó las probabilidades usando valores p como base de su medición, entonces el Bayesiano que usa mediciones Bayesianas siempre sería capaz de obtener una ventaja sobre usted. Si el Bayesiano establece las probabilidades, entonces la teoría de decisión de Pearson y Neyman proporcionaría una declaración de apuesta o no apuesta, pero no podrían definir la cantidad a apostar. Como las probabilidades bayesianas eran justas, la ganancia esperada del uso del método de Pearson y Neyman sería cero.

De hecho, el estudio de Wetzel es realmente de lo que estás hablando, pero con 145 apuestas menos. Si observa la tabla tres, verá algunos estudios en los que el Frecuentista rechaza el nulo, pero el Bayesiano encuentra que la probabilidad favorece al nulo.

Dave Harris
fuente

5

Un análisis frecuente no puede darle la probabilidad de que una hipótesis particular sea verdadera (o falsa) porque no tiene una frecuencia de ejecución larga (es verdadera o no), por lo que no podemos asignarle una probabilidad (excepto tal vez 0 o 1 ) Si desea conocer la probabilidad de que una hipótesis particular sea cierta, necesitamos adoptar un marco bayesiano (donde es sencillo, solo tenemos que considerar las probabilidades anteriores, etc.).

Los frecuentes pueden encontrar estrategias óptimas para actuar sobre pruebas de hipótesis nulas ( marco de Neyman-Pearson ) pero no pueden traducir eso en una probabilidad de que la hipótesis sea verdadera, sino solo debido a su definición de probabilidad.

Dikran Marsupial
fuente

¿Podría ser más preciso sobre "no se puede traducir eso en una probabilidad de que la hipótesis sea cierta, sino solo por su definición de probabilidad" porque no entiendo por qué ese es el caso?

Los frecuentes definen las probabilidades en términos de frecuencias a largo plazo, y la verdad de una hipótesis particular no tiene una frecuencia a largo plazo (no trivial), por lo que un frecuentista no puede atribuirle una probabilidad. en.wikipedia.org/wiki/Frequentist_probability Es por eso que decimos cosas ligeramente crípticas como "podemos rechazar la hipótesis nula en el nivel de significancia X" en lugar de "la probabilidad de que H0 sea falsa es p" (que es el forma de respuesta que generalmente queremos).

Dikran Marsupial

1

@fcop las expresiones como , o no son expresiones válidas en la teoría de probabilidad frecuentista , porque o cualquier hipótesis no es una variable aleatoria. Vea también esta publicación de Larry Wasserman para más detalles.

p (H_{0} = t r u e)

$p(H_0=\mathrm{true})$

p (H_{0} = t r u e | D)

$p(H_0=\mathrm{true}|D)$

p (D | H_{0} = t r u e)

$p(D|H_0=\mathrm{true})$

H_{0}

$H_0$

matus

Vea mi respuesta en este hilo, también para @matus.

@DikranMarsupial ¿un Bayesiano no aceptaría algo como "verdad" si la probabilidad de un resultado particular es 1 y para todas las demás posibilidades es 0? ¿Alguna vez puedes obtener esto en un análisis bayesiano? Necesitaría una probabilidad que domina el anterior, pero luego los frecuentadores y los bayesianos tendrían que reconocerlo: los datos nos lo han dicho todo.

AdamO

1

Después de haber hecho apuestas para los 1000 estudios, un oráculo asciende sobre usted y le dice qué hipótesis es correcta. Esta información le permite liquidar las apuestas. Mi afirmación es que existe una estrategia óptima para este juego.

El problema en su configuración es el Oracle. Por lo general, no se trata de liquidar las apuestas. Digamos que está apostando a que la probabilidad de que sea cierto que fumar cause cáncer es del 97%. ¿Cuándo vendrá este Oráculo para liquidar la apuesta? Nunca. Entonces, ¿cómo probarías que tu estrategia óptima es óptima?

Sin embargo, si elimina un Oracle e introduce otros agentes como competidores y clientes, entonces habría una estrategia óptima. Sin embargo, me temo que no se basará en valores p. Sería más similar al enfoque de Gosset con funciones de pérdida. Por ejemplo, usted y sus competidores en el sector agrícola están apostando a que el pronóstico del tiempo sea cierto. Quien elija una mejor estrategia va a ganar más dinero. No hay necesidad en Oracle, y las apuestas se liquidan en los mercados. Aquí no puede basar la estrategia en valores p, debe contabilizar las pérdidas y ganancias en dólares.

Aksakal
fuente

¿Por qué no podemos asumir que un Oráculo vendrá a liquidar las apuestas de inmediato?

Atte Juvonen el

¿Por qué no podemos suponer que una vez que estimamos la media de la muestra, Oracle viene y nos dice qué significa la población? Es lo mismo, si lo piensas. Es simplemente poco realista.

Aksakal

0

En la hipótesis, desea probar alguna afirmación sobre el mundo real, por ejemplo, la longitud promedio de todos los hombres es de 1.75 m. Luego formularíamos una prueba de hipótesis como, por ejemplo, versus . $H_0: \mu_L=1.75$ $H_1: \mu_L \ne 1.75$

Esta es nuestra declaración y queremos probar si en el mundo real esto es un hecho. Pero los frecuentistas afirman que en el mundo real esto es verdadero o falso. Como en el mundo real es verdadero o falso, esto significa que en el mundo real es 0 o 1. $H_0$ $P(H_0=TRUE)$

Entonces, en teoría, el resultado de nuestra prueba de hipótesis debería ser es verdadero o falso, pero como solo trabajamos en una muestra, no podemos sacar conclusiones tan difíciles, por lo tanto, tratamos de usar alguna variante estadística de una técnica matemática llamada 'prueba por contradicción' . Para más detalles vea ¿Qué sigue si no rechazamos la hipótesis nula? . $H_0$

Para un hilo sobre valores p, vea ¿ Comprender mal un valor P?

Los baysianos hacen algo diferente; expresan su creencia o credibilidad que tienen al concluir la prueba, por lo que no es realmente la probabilidad de que sea verdadera, sino más bien el grado de creencia que tienen en su conclusión que hacen después de la prueba sobre . Es por eso que se llama "credibilidad". $H_0$ $H_0$

Tomando su ejemplo, prueba " vitamina D afecta el estado de ánimo" versus " vitamina D no afecta el estado de ánimo". $H_0:$ $H_1:$

Sobre la base de una muestra, calcula un estadístico de prueba y su probabilidad de ser excedido cuando es verdadero. Si este valor del estadístico de prueba es muy bajo (por debajo de nuestro nivel de significancia elegido), entonces asumir que es verdadero conduce a algo muy improbable o lleva a decir "una contradicción estadística" y $H_0$ $H_0$

$H_0$ $H_0$ $H_1$

$H_0$ $H_0$ $H_1$ $H_0$

$H_0$ $H_1$

Simplemente expresan su creencia en su "conclusión de la prueba" derivada de los "datos disponibles".

fuente

Usar el valor p para calcular la probabilidad de que la hipótesis sea verdadera; ¿Qué más se necesita?

Respuestas: