14

Entonces, esta puede ser una pregunta común, pero nunca he encontrado una respuesta satisfactoria.

¿Cómo se determina la probabilidad de que la hipótesis nula sea verdadera (o falsa)?

Digamos que les das a los estudiantes dos versiones diferentes de una prueba y quieres ver si las versiones son equivalentes. Realiza una prueba t y le da un valor p de .02. ¡Qué buen valor p! Eso debe significar que es poco probable que las pruebas sean equivalentes, ¿verdad? No. Desafortunadamente, parece que P (resultados | nulo) no le dice P (nulo | resultados). Lo normal es rechazar la hipótesis nula cuando nos encontramos con un valor p bajo, pero ¿cómo sabemos que no estamos rechazando una hipótesis nula que probablemente sea cierta? Para dar un ejemplo tonto, puedo diseñar una prueba para el ébola con una tasa de falsos positivos de .02: poner 50 bolas en un cubo y escribir "ébola" en una. Si pruebo a alguien con esto y eligen la bola de "ébola", el valor p (P (recogiendo la bola | no tienen ébola)) es .02,

Cosas que he considerado hasta ahora:

Asumiendo P (nulo | resultados) ~ = P (resultados | nulo) - claramente falso para algunas aplicaciones importantes.
Aceptar o rechazar hipótesis sin conocer P (nulo | resultados) - ¿Por qué las aceptamos o rechazamos entonces? ¿No es cierto que rechazamos lo que creemos que ES PROBABLEMENTE falso y aceptamos lo que PROBABLEMENTE es cierto?
Usa el teorema de Bayes, pero ¿cómo obtienes tus antecedentes? ¿No terminas en el mismo lugar tratando de determinarlos experimentalmente? Y elegirlos a priori parece muy arbitrario.
Encontré una pregunta muy similar aquí: stats.stackexchange.com/questions/231580/. La respuesta aquí parece decir básicamente que no tiene sentido preguntar acerca de la probabilidad de que una hipótesis nula sea cierta, ya que esa es una pregunta bayesiana. Tal vez soy un bayesiano de corazón, pero no puedo imaginar no hacer esa pregunta. De hecho, parece que el malentendido más común de los valores p es que son la probabilidad de una hipótesis nula verdadera. Si realmente no puede hacer esta pregunta como frecuentista, entonces mi pregunta principal es la # 3: ¿cómo obtiene sus antecedentes sin quedarse atrapado en un bucle?

Editar: Gracias por todas las respuestas reflexivas. Quiero abordar un par de temas comunes.

Definición de probabilidad: estoy seguro de que hay mucha literatura sobre esto, pero mi ingenua concepción es algo así como "la creencia de que un ser perfectamente racional habría dado la información" o "las probabilidades de apuestas que maximizarían las ganancias si la situación se repitió y las incógnitas se les permitió variar ".
¿Podemos saber P (H0 | resultados)? Ciertamente, esta parece ser una pregunta difícil. Sin embargo, creo que cada probabilidad es teóricamente conocible, ya que la probabilidad siempre está condicionada a la información dada. Todos los eventos sucederán o no, por lo que la probabilidad no existe con información completa. Solo existe cuando no hay información suficiente, por lo que debe ser reconocible. Por ejemplo, si me dicen que alguien tiene una moneda y le pregunto la probabilidad de cara, diría que 50%. Puede suceder que la moneda tenga un peso del 70% en cara, pero no se me dio esa información, por lo que la probabilidad fue del 50% para la información que tenía, así como a pesar de que cae en la cola, la probabilidad fue del 70% cabezas cuando me enteré de eso. Como la probabilidad siempre está condicionada a un conjunto de datos (insuficientes),
Editar: "Siempre" puede ser un poco demasiado fuerte. Puede haber algunas preguntas filosóficas para las cuales no podemos determinar la probabilidad. Aún así, en situaciones del mundo real, aunque "casi nunca" tenemos certeza absoluta, "casi siempre" debería haber una mejor estimación.

probability hypothesis-testing bayesian Kalev Maricq
fuente

1

Si su 'hipótesis nula' es algo así como

, es decir, que alguna diferencia es cero, entonces rechazarla significa que ha encontrado evidencia suficientemente fuerte de que

. En su lugar, podría obtener una hipótesis nula como

, es decir, que alguna diferencia es al menos tan grande como

(donde

es lo que el investigador considera la diferencia más pequeña que les importa), y rechazar significa que usted encontró

H_{0} : θ = 0

$H_{0}: \theta = 0$

H_{A} : θ = 0

$H_{A}: \theta = 0$

H_{0} : | θ | \geq Δ

$H_{0}: |\theta| \ge \Delta$

Δ

$\Delta$

Δ

$\Delta$

(es decir

). Ver pruebas de equivalenciastats.stackexchange.com/tags/tost/info

H_{A} : | θ | < Δ

$H_{A}: |\theta| < \Delta$

- Δ < θ < Δ

$-\Delta < \theta < \Delta$

Alexis

El poder de un experimento (y de la prueba estadística que analiza los resultados del experimento) es la probabilidad de que si hubiera un efecto de un tamaño determinado o mayor, el experimento lo detectaría en un umbral de significación dado. statsdonewrong.com/power.html

Bennett Brown

ver stats.stackexchange.com/questions/166323/…

Tu ejemplo de moneda es bueno. Muestra que nunca se puede conocer P (H0 | resultados) si solo conoce los resultados y no hace más suposiciones . ¿ Conoces la probabilidad de que las caras en un lanzamiento dado "asuman" una cierta justicia de la moneda? Si. (pero esto es hipotético, dados los supuestos, y nunca sabrás si tus supuestos son ciertos) ¿ Conoces la probabilidad de caras en un lanzamiento dado mientras conoces varios resultados anteriores? ¡No! y no importa qué tan grande sea el número de resultados previos que conozca. No se puede saber exactamente la probabilidad de cara en el próximo lanzamiento.

Sextus Empiricus

13

Ciertamente ha identificado un problema importante y el bayesianismo es un intento de resolverlo. Puede elegir un previo no informativo si lo desea. Dejaré que otros llenen más sobre el enfoque de Bayes.

Sin embargo, en la gran mayoría de las circunstancias, sabesel nulo es falso en la población, simplemente no sabes qué tan grande es el efecto. Por ejemplo, si inventa una hipótesis totalmente absurda, por ejemplo, que el peso de una persona está relacionado con si su número de seguro social es impar o par, y de alguna manera logra obtener información precisa de toda la población, los dos medios no serán exactamente iguales. Diferirán (probablemente) en una cantidad insignificante, pero no coincidirán exactamente. 'Si sigue esta ruta, enfatizará los valores de p y las pruebas de significación y pasará más tiempo mirando la estimación del tamaño del efecto y su precisión. Por lo tanto, si tiene una muestra muy grande, es posible que las personas con SSN impar pesen 0.001 libras más que las personas con SSN par, y que el error estándar para esta estimación es 0.000001 libras, por lo que p <0.05 pero a nadie debería importarle.

Peter Flom - Restablece a Monica
fuente

1

No es que no esté de acuerdo con usted, pero no piense que cuando se preocupa por p (datos | H0) o p (H0 | datos) está hablando de estudios con

baja . El ejemplo que da es fácil en ambos frameworks bayesiano y frecuentista porque sus respectivas debilidades / subjetividad no importan a la luz de los abundantes datos. El único error que aún puede cometer en esta situación que importaría es confundir la importancia con el tamaño del efecto.

n

$n$

David Ernst

1

Buen punto sobre el tamaño del efecto. ¿Existe un análogo a situaciones como la prueba de una enfermedad, donde la pregunta es de naturaleza booleana?

Kalev Maricq

1

FWIW, estoy perfectamente dispuesto a creer que no existe una relación entre el peso de una persona y si su SSN es impar o par. En un estudio observacional, estas variables se correlacionarán con algunas otras variables, etc., de modo que finalmente haya una asociación marginal no 0. Creo que el punto válido es que, para la mayoría de las cosas en que los investigadores invierten su tiempo para investigar, hay una razón decente para sospechar que existe un efecto real distinto de 0.

gung - Restablece a Monica

1

@gung puedes creer lo que quieras, pero definitivamente hay una relación distinta de cero entre el peso y el número de seguro social. Sabemos algo más sobre la relación que no sea su existencia y que probablemente sea pequeña.

emory

1

Sé que el peso es una variable continua. Aunque podríamos registrarlo como un número entero de kilogramos. Su comentario fue sobre un estudio observacional (haciendo inferencias sobre una población basada en una muestra). Dado que mi estudio está financiado por dólares hipotéticos, es un estudio de población que utiliza escalas de precisión infinitas, sin necesidad de inferencia estadística.

emory

3

Para responder a esta pregunta, debe definir la probabilidad. Esto se debe a que la hipótesis nula es verdadera (excepto que casi nunca lo es cuando se consideran hipótesis de punto nulo) o falsa. Una definición es que mi probabilidad describe mi creencia personal acerca de la probabilidad de que mis datos surjan de esa hipótesis en comparación con la probabilidad de que mis datos surjan de las otras hipótesis que estoy considerando. Si comienzas desde este marco, tu anterior es simplemente tu creencia basada en toda tu información previa pero excluyendo los datos disponibles.

jaradniemi
fuente

Buen punto. Creo que mi idea de probabilidad es algo así como "la creencia perfectamente racional" en lugar de la personal. Edité mi pregunta para abordar sus puntos.

Kalev Maricq

2

La idea clave es que, en términos generales, puede mostrar empíricamente que algo es falso (solo proporcione un contraejemplo), pero no puede mostrar que algo es definitivamente cierto (necesitaría probar "todo" para mostrar que no hay contraejemplos).

La falsabilidad es la base del método científico: usted asume que una teoría es correcta y compara sus predicciones con lo que observa en el mundo real (por ejemplo, la teoría gravitacional de Netwon se creía "verdadera", hasta que se descubrió que sí lo era no funciona demasiado bien en circunstancias extremas).

Esto también es lo que sucede en la prueba de hipótesis: cuando P (resultados | nulo) es bajo, los datos contradicen la teoría (o usted tuvo mala suerte), por lo que tiene sentido rechazar la hipótesis nula. De hecho, suponga que nulo es verdadero, entonces P (nulo) = P (nulo | resultados) = 1, por lo que la única forma en que P (resultados | nulo) es bajo es que P (resultados) es bajo (mala suerte).

Por otro lado, cuando P (resultados | nulo) es alto, quién sabe. Tal vez nulo es falso, pero P (resultado) es alto, en cuyo caso realmente no puede hacer nada, además de diseñar un mejor experimento.

Permítanme reiterar: solo pueden demostrar que la hipótesis nula es (probablemente) falsa. Entonces diría que la respuesta es la mitad de su segundo punto: no necesita saber P (nulo | resultados) cuando P (resultados | nulo) es bajo para rechazar nulo, pero no puede decir que nulo es verdadero si P (resultados | nulo) es alto.

Esta es también la razón por la cual la reproducibilidad es muy importante: sería sospechoso tener mala suerte cinco de cada cinco.

Oso negro
fuente

H_{0} :

$H_0:$

H_{a l t e r n a t i v e} :

$H_{alternative}:$

Estoy de acuerdo con Martijn. Si me puede decir cómo determinar la probabilidad de que la hipótesis nula sea falsa, consideraría que es una respuesta exitosa a mi pregunta.

Kalev Maricq

μ_{1000}

$\mu_{1000}$

P (μ_{1000} = 3.50)

$P(\mu_{1000}=3.50)$ es pequeño incluso para un dado justo. Los valores p se construyen de manera diferente a P (resultado | nulo), y se hacen con mayor precisión para definir el error de tipo I, describiendo 'resultado' como 'el resultado al que rechazamos'. De esa manera tenemos un error tipo I como P (nulo rechazado | nulo verdadero) = P (resultado de rechazo | nulo). Entonces, imagine que el nulo es verdadero (hipotéticamente), entonces tenemos una probabilidad P (resultado de rechazo | nulo) para cometer un error de tipo I.

Sextus Empiricus

2

-------------------------------------------------- ---------------------

(Editar: creo que sería útil poner una versión de mi comentario a esta pregunta en la parte superior de esta respuesta, ya que es mucho más corta)

El cálculo no simétrico de p (a | b) ocurre cuando se ve como una relación causal, como p (resultado | hipótesis). Este cálculo no funciona en ambas direcciones: una hipótesis causa una distribución de resultados posibles, pero un resultado no causa una distribución de hipótesis.

P (resultado | hipótesis) es un valor teórico basado en la relación de causalidad hipótesis -> resultado.

Si p (a | b) expresa una correlación o frecuencia observada (no necesariamente una relación causal), entonces se vuelve simétrica. Por ejemplo, si anotamos la cantidad de juegos que un equipo deportivo gana / pierde y la cantidad de juegos que el equipo deportivo anota menos o igual que / más de 2 goles en una tabla de contingencia. Entonces P (win | score> 2) y P (score> 2 | win) son objetos experimentales / observacionales (no teóricos) similares.

-------------------------------------------------- -------------------

Muy simplista

La expresión P (resultado | hipótesis) parece tan simple que hace que uno piense fácilmente que simplemente puede revertir los términos. Sin embargo, 'resultado' es una variable estocástica, con una distribución de probabilidad (dada la hipótesis). Y 'hipótesis' no es (típicamente) una variable estocástica. Si hacemos de 'hipótesis' una variable estocástica, entonces implica una distribución de probabilidad de diferentes hipótesis posibles, de la misma manera que tenemos una distribución de probabilidad de resultados diferentes. (pero los resultados no nos dan esta distribución de hipótesis de probabilidad, y simplemente cambian la distribución, por medio del teorema de Bayes)

Un ejemplo

Supongamos que tiene un jarrón con canicas rojas / azules en una proporción de 50/50 del cual extrae 10 canicas. Entonces puede expresar fácilmente algo como P (resultado | experimento de florero), pero no tiene mucho sentido expresar P (experimento de florero | resultado). El resultado (por sí solo) no es la distribución de probabilidad de diferentes experimentos con jarrón posibles.

Si tiene varios tipos posibles de experimentos con vasos, en ese caso es posible usar expresar algo como P (tipo de experimento con vasos) y usar la regla de Bayes para obtener un P (tipo de experimento con vasos | resultado), porque ahora el tipo de El experimento del florero es una variable estocástica. (nota: más precisamente es P (tipo de experimento con florero | resultado y distribución del tipo de experimento con florero))

Aún así, este P (tipo de experimento de florero | resultado) requiere una (meta) hipótesis sobre una distribución inicial dada P (tipo de experimento de florero).

Intuición

tal vez la siguiente expresión ayuda a entender la única dirección

X) Podemos expresar la probabilidad de X dada una hipótesis sobre X.

así

1) Podemos expresar la probabilidad de resultados dada una hipótesis sobre los resultados.

y

2) Podemos expresar la probabilidad de una hipótesis dada una (meta) hipótesis sobre estas hipótesis.

Es la regla de Bayes la que nos permite expresar un inverso de (1) pero necesitamos (2) para esto, la hipótesis debe ser una variable estocástica.

Rechazo como solución

Por lo tanto, no podemos obtener una probabilidad absoluta de una hipótesis dados los resultados. Ese es un hecho de la vida, tratar de luchar contra este hecho parece ser el origen de no encontrar una respuesta satisfactoria. La solución para encontrar una respuesta satisfactoria es: aceptar que no se puede obtener una probabilidad (absoluta) de una hipótesis.

Frecuentes

De la misma manera que no podemos aceptar una hipótesis, tampoco deberíamos rechazar (automáticamente) la hipótesis cuando P (resultado | hipótesis) está cerca de cero. Solo significa que hay evidencia que respalda el cambio de nuestras creencias y también depende de P (resultado) y P (hipótesis) cómo debemos expresar nuestras nuevas creencias.

Cuando los frecuentistas tienen algún esquema de rechazo, entonces está bien. Lo que expresan no es si una hipótesis es verdadera o falsa, o la probabilidad de tales casos. No pueden hacer eso (sin antecedentes). Lo que expresan en cambio es algo sobre la tasa de fracaso (confianza) de su método (dado que ciertas suposiciones son ciertas).

Omnisciente

Una forma de sacar todo esto es eliminar el concepto de probabilidad. Si observa la población completa de 100 canicas en el florero, puede expresar ciertas afirmaciones sobre una hipótesis. Entonces, si te vuelves omnisciente y el concepto de probabilidad es irrelevante, entonces puedes establecer si una hipótesis es verdadera o no (aunque la probabilidad también está fuera de la ecuación)

Sexto empírico
fuente

Su ejemplo de jarrón tiene sentido. Sin embargo, en la vida real, casi nunca sabemos cuántas canicas de cada color hay en el florero. Siempre me encuentro con una pregunta más como "¿Hay más canicas rojas que azules" y mi información es que saqué 4 canicas rojas y 1 canica azul del florero. Ahora, puedo hacer suposiciones como "probablemente hay ~ 100 canicas y cada canica es roja o azul con un 50% de probabilidad" pero en la vida real, a menudo me encuentro sin saber cómo obtener de manera no arbitraria y no circular Estos antecedentes.

Kalev Maricq

Esa es más una pregunta epistemológica que un problema sobre la probabilidad. Una expresión como P (resultado | hipótesis) es de manera similar "falsa", es decir, es una expresión hipotética. Puede expresar la probabilidad de un resultado, dada una cierta creencia hipotética sobre la "realidad". De la misma manera que la probabilidad de un resultado experimental es hipotética, una expresión para la probabilidad de alguna teoría (con o sin alguna observación de un resultado) requiere una cierta creencia hipotética sobre la "realidad". Sí, los antecedentes son algo arbitrarios. Pero también lo es una hipótesis.

Sextus Empiricus

Hablando de las probabilidades. Tenga en cuenta que la regla de Bayes se trata de dos variables estocásticas: P (a | b) P (b) = P (b | a) P (a). Puedes relacionar las probabilidades condicionales. Si uno de esos P (b | a) es una relación causal , como en "la teoría conduce a la distribución de resultados", puede calcularlo con exactitud. Tal caso es solo porque la causalidad (1direccional). La hipótesis permite saber (hipotéticamente) todo lo que necesita, las canicas en el florero. Al revés, no funciona. Un resultado experimental 4 rojo vs 1 azul, no causa la distribución de probabilidad de canicas en el florero.

Sextus Empiricus

Probabilidad de que la hipótesis nula sea verdadera

Respuestas:

-------------------------------------------------- ---------------------

-------------------------------------------------- -------------------

Muy simplista

Un ejemplo

Intuición

Rechazo como solución

Frecuentes

Omnisciente