Este cómic xkcd (Frequentists vs. Bayesians) se burla de un estadístico frecuentista que obtiene un resultado obviamente equivocado.
Sin embargo, me parece que su razonamiento es realmente correcto en el sentido de que sigue la metodología frecuentista estándar.
Entonces mi pregunta es "¿aplica correctamente la metodología frecuentista?"
- Si no: ¿cuál sería una inferencia frecuentista correcta en este escenario? ¿Cómo integrar el "conocimiento previo" sobre la estabilidad del sol en la metodología frecuentista?
- En caso afirmativo: wtf? ;-)
bayesian
frequentist
repied2
fuente
fuente
Respuestas:
El problema principal es que el primer experimento (Sun se volvió nova) no es repetible, lo que lo hace muy inadecuado para la metodología frecuentista que interpreta la probabilidad como una estimación de la frecuencia con que se produce un evento y que podemos repetir el experimento muchas veces. En contraste, la probabilidad bayesiana se interpreta como nuestro grado de creencia que brinda todo el conocimiento previo disponible, lo que lo hace adecuado para el razonamiento de sentido común sobre eventos únicos. El experimento del lanzamiento de dados es repetible, pero me parece muy poco probable que cualquier frecuentador ignore intencionalmente la influencia del primer experimento y tenga tanta confianza en la importancia de los resultados obtenidos.
Aunque parece que el autor se burla de la dependencia frecuentista de los experimentos repetibles y su desconfianza de los anteriores, dando la inadecuación de la configuración experimental a la metodología frecuentista, diría que el tema real de este cómic no es la metodología frecuentista sino el seguimiento ciego de la metodología inadecuada en general. Si es divertido o no depende de usted (para mí lo es), pero creo que es más engañoso que aclara las diferencias entre los dos enfoques.
fuente
Hasta donde puedo ver, el bit frecuentista es razonable hasta aquí:
Sea la hipótesis de que el sol no ha explotado y la hipótesis de que sí. El valor p es, por lo tanto, la probabilidad de observar el resultado (la máquina dice "sí") bajo . Suponiendo que la máquina detecta correctamente la presencia de ausencia de neutrinos, entonces si la máquina dice "sí" bajo entonces es porque la máquina nos está mintiendo como resultado de rodar dos seises. Por lo tanto, el valor p es 1/36, por lo que siguiendo la práctica científica normal cuasi-Fisher, un frecuentista rechazaría la hipótesis nula, al nivel de significancia del 95% .H 1 H 0 H 0H0 H1 H0 H0
Pero rechazar la hipótesis nula no significa que tenga derecho a aceptar la hipótesis alternativa, por lo que el análisis no justifica la conclusión frecuente. Las pruebas de hipótesis frecuentes encarnan la idea del falsacionismo (más o menos), no se puede demostrar que nada es cierto, solo refutar. Entonces, si desea afirmar , asume que es verdadero y solo continúa si puede demostrar que es inconsistente con los datos. Sin embargo, eso no significa que sea cierto, solo que sobrevive a la prueba y continúa como una hipótesis viable al menos hasta la próxima prueba.H 0 H 0 H 1H1 H0 H0 H1
El Bayesiano también es simplemente sentido común, señalando que no hay nada que perder haciendo la apuesta. Estoy seguro de que los enfoques frecuentistas, cuando se toman en cuenta los costos falsos positivos y falsos negativos (¿Neyman-Peason?), Llegarían a la misma conclusión como la mejor estrategia en términos de ganancias a largo plazo.
Para resumir: tanto el frecuentista como el bayesiano están siendo descuidados aquí: el frecuentador por seguir ciegamente una receta sin considerar el nivel apropiado de importancia, los costos falsos positivos / falsos negativos o la física del problema (es decir, no usar su sentido común) . El Bayesiano está siendo descuidado por no declarar explícitamente sus antecedentes, pero nuevamente usando el sentido común, los antecedentes que está usando son obviamente correctos (es mucho más probable que la máquina esté mintiendo que el sol realmente explotó), la negligencia es quizás excusable.
fuente
¿Por qué este resultado parece "incorrecto"? Un bayesiano diría que el resultado parece contrario a la intuición porque tenemos creencias "anteriores" sobre cuándo explotará el sol, y la evidencia provista por esta máquina no es suficiente para eliminar esas creencias (principalmente debido a su incertidumbre debido a la lanzamiento de moneda). Pero un frecuentador es capaz de hacer tal evaluación, simplemente debe hacerlo en el contexto de los datos, en lugar de creerlo.
La verdadera fuente de la paradoja es el hecho de que la prueba estadística frecuentista realizada no tiene en cuenta todos los datos disponibles. No hay ningún problema con el análisis en el cómic, pero el resultado parece extraño porque sabemos que lo más probable es que el sol no explote durante mucho tiempo. ¿Pero CÓMO sabemos esto? Porque hemos realizado mediciones, observaciones y simulaciones que pueden restringir cuándo explotará el sol. Por lo tanto, nuestro pleno conocimiento debe tener en cuenta esas mediciones y puntos de datos.
En un análisis bayesiano, esto se hace mediante el uso de esas mediciones para construir un previo (aunque, el procedimiento para convertir las mediciones en un previo no está bien definido: en algún momento debe haber un previo inicial, o de lo contrario son "todas las tortugas el camino hacia abajo "). Entonces, cuando el Bayesiano usa su anterior, realmente está tomando en cuenta mucha información adicional que el análisis del valor p del frecuentista no conoce.
Por lo tanto, para mantenerse en pie de igualdad, un análisis frecuentista completo del problema debe incluir los mismos datos adicionales sobre la explosión del sol que se utilizan para construir el previo bayesiano. Pero, en lugar de usar los anteriores, un frecuentador simplemente expandiría la probabilidad de que esté usando para incorporar esas otras mediciones, y su valor p se calcularía usando esa probabilidad completa.
LL=L (Máquina dijo Sí | El sol ha explotado) * (Todos los demás datos sobre el sol | El sol ha explotado)L
Un análisis frecuentista completo probablemente mostraría que la segunda parte de la probabilidad será mucho más restrictiva y será la contribución dominante al cálculo del valor p (porque tenemos una gran cantidad de información sobre el sol y los errores en esta información son pequeños (con suerte)).
Prácticamente, uno no necesita salir y recolectar todos los puntos de datos obtenidos de los últimos 500 años para hacer un cálculo frecuente, uno puede aproximarlos como un término de probabilidad simple que codifica la incertidumbre sobre si el sol ha explotado o no. Esto se volverá similar al anterior de Bayesian, pero es ligeramente diferente filosóficamente porque es una probabilidad, lo que significa que codifica alguna medición previa (en oposición a un prior, que codifica alguna creencia a priori). Este nuevo término se convertirá en una parte de la probabilidad y se utilizará para construir intervalos de confianza (o valores p o lo que sea), en oposición al anterior bayesiano, que se integra para formar intervalos creíbles o posteriores.
fuente
El mayor problema que veo es que no hay una estadística de prueba derivada. valor (con todas las críticas que los estadísticos bayesianos formulan contra él) para un valor de una estadística de prueba se define como (suponiendo que se rechaza el valor nulo para valores mayores de , como sería el caso con las estadísticas , por ejemplo). Si necesita tomar una decisión de mayor importancia, puede aumentar el valor crítico e impulsar la región de rechazo más arriba. Efectivamente, eso es lo que hacen múltiples correcciones de prueba como Bonferroni, indicándole que use un umbral mucho más bajo parat T P r o b [ T ≥ t | H 0 ] T χ 2 p 0 , 1 / 36 , 2 / 36 , ...p t T Prob[T≥t|H0] T χ2 p -valores. En cambio, el estadista frecuentista está atrapado aquí con las pruebas de tamaños en la cuadrícula de .0,1/36,2/36,…
Por supuesto, este enfoque "frecuente" no es científico, ya que el resultado difícilmente será reproducible. Una vez que el Sol se convierte en supernova, permanece supernova, por lo que el detector debe seguir diciendo "Sí" una y otra vez. Sin embargo, una ejecución repetida de esta máquina es poco probable que produzca el resultado "Sí" nuevamente. Esto se reconoce en áreas que quieren presentarse como rigurosas y tratar de reproducir sus resultados experimentales ... lo que, hasta donde yo entiendo, ocurre con probabilidad entre el 5% (publicar el documento original fue un error puro de tipo I) y en algún lugar alrededor del 30-40% en algunos campos médicos. La gente de metaanálisis puede completarlo con mejores números, esto es solo el zumbido que me viene de vez en cuando a través de la estadística de la vid.
Otro problema desde la perspectiva frecuentista "adecuada" es que tirar un dado es la prueba menos poderosa, con potencia = nivel de significancia (si no es menor; 2.7% de potencia para el nivel de significancia del 5% no es nada de qué jactarse). La teoría de Neyman-Pearson para las pruebas t agoniza al demostrar que se trata de un UMPT, y una gran cantidad de teoría estadística de cejas (que apenas entiendo, tengo que admitir) se dedica a derivar las curvas de potencia y encontrar las condiciones cuando un determinado La prueba es la más poderosa en una clase determinada. (Créditos: @Dikran Marsupial mencionó el tema del poder en uno de los comentarios).
No sé si esto te preocupa, pero el estadístico bayesiano se muestra aquí como el tipo que no sabe de matemáticas y tiene un problema con el juego. Un estadístico bayesiano adecuado postularía lo anterior, discutiría su grado de objetividad, derivaría lo posterior y demostraría cuánto aprendieron de los datos. Nada de eso se hizo, por lo que el proceso bayesiano se ha simplificado demasiado tanto como el frecuente.
Esta situación demuestra el cribado clásico para el problema del cáncer (y estoy seguro de que los bioestadísticos pueden describirlo mejor que yo). Cuando se examina una enfermedad rara con un instrumento imperfecto, la mayoría de los positivos se convierten en falsos positivos. Los estadísticos inteligentes lo saben, y saben mejor hacer un seguimiento de los analizadores baratos y sucios con biopsias más caras y más precisas.
fuente
No hay nada de malo en este cómic, y la razón no tiene nada que ver con las estadísticas. Es economía. Si el frecuentista es correcto, la Tierra será equivalente a inhabitable dentro de las 48 horas. El valor de $ 50 será efectivamente nulo. El Bayesiano, reconociendo esto, puede hacer la apuesta sabiendo que su beneficio es de $ 50 en el caso normal, y marginalmente nada en el caso explotado por el sol.
fuente
Ahora que el CERN ha decidido que los neutrinos no son más rápidos que la luz, el frente de choque de radiación electromagnética golpearía la tierra antes de que se notara el cambio de neutrinos. Esto tendría al menos (en el muy corto plazo) espectaculares efectos aurorales. Por lo tanto, el hecho de que esté oscuro no evitaría que los cielos se iluminen; la luna brillaba excesivamente (véase "La luna inconstante" de Larry Niven) y destellos espectaculares a medida que los satélites artificiales se evaporaban y se quemaban.
Con todo, ¿quizás la prueba equivocada? (Y si bien puede haber sido anterior, no habría tiempo suficiente para una determinación realista de posterior.
fuente
Estoy de acuerdo con @GeorgeLewis en que puede ser prematuro concluir que el enfoque frequentista es incorrecto: volvamos a ejecutar el detector de neutrinos varias veces más para recopilar más datos. No hay necesidad de perder el tiempo con los antecedentes.
fuente
Un punto más simple que puede perderse entre todas las respuestas detalladas aquí es que se representa al frecuentista sacando su conclusión basándose en una sola muestra. En la práctica, nunca harías esto.
Alcanzar una conclusión válida requiere un tamaño de muestra estadísticamente significativo (o, en otras palabras, la ciencia debe ser repetible). Entonces, en la práctica, el frecuentista correría la máquina varias veces y luego llegaría a una conclusión sobre los datos resultantes.
Presumiblemente esto implicaría hacerle a la máquina la misma pregunta varias veces más. Y, presumiblemente, si la máquina solo está equivocada, 1 de cada 36 veces aparecerá un patrón claro. Y a partir de ese patrón (en lugar de una sola lectura), el frecuentador sacará una conclusión (bastante precisa, diría yo) sobre si el sol ha explotado o no.
fuente
La respuesta a su pregunta: "¿aplica correctamente la metodología frecuentista?" es no, no aplica con precisión el enfoque frecuentista. El valor p para este problema no es exactamente 1/36.
Primero debemos notar que las hipótesis involucradas son
H0: El sol no ha explotado,
H1: El sol ha explotado.
Entonces,
valor-p = P ("la máquina devuelve sí" | el Sol no ha explotado).
Para calcular esta probabilidad, debemos tener en cuenta que "la máquina devuelve sí" es equivalente a "el detector de neutrinos mide el sol explotando Y dice el resultado verdadero O el detector de neutrinos no mide el sol explotando Y nos miente".
Suponiendo que el lanzamiento de dados es independiente de la medición del detector de neutrinos, podemos calcular el valor p definiendo:
p0 = P ("el detector de neutrinos mide la explosión del Sol" | el Sol no ha explotado),
Entonces, el valor p es
Valor p = p0 x 35/36 + (1-p0) x 1/36 = (1/36) x (1+ 34 x p0).
Para este problema, el valor p es un número entre 1/36 y 35/36. El valor p es igual a 1/36 si y solo si p0 = 0. Es decir, una suposición oculta en esta caricatura es que la máquina detectora nunca medirá la explosión del Sol si el Sol no ha explotado.
Además, se debe insertar mucha más información en la probabilidad de que existan evidencias externas de una explosión de anova.
Todo lo mejor.
fuente
No veo ningún problema con el enfoque del frecuentista. Si se rechaza la hipótesis nula, el valor p es la probabilidad de un error tipo 1. Un error tipo 1 está rechazando una hipótesis nula verdadera. En este caso tenemos un valor p de 0.028. Esto significa que entre todas las pruebas de hipótesis con este valor p realizado, aproximadamente 3 de cada cien rechazarán una hipótesis nula verdadera. Por construcción, este sería uno de esos casos. Los frecuentes aceptan que a veces rechazarán la hipótesis nula verdadera o retendrán la hipótesis nula falsa (errores de tipo 2), nunca han afirmado lo contrario. Además, cuantifican con precisión la frecuencia de sus inferencias erróneas a largo plazo.
Quizás, una forma menos confusa de ver este resultado es intercambiar los roles de las hipótesis. Como las dos hipótesis son simples, esto es fácil de hacer. Si lo nulo es que el sol se volvió nova, entonces el valor p es 35/36 = 0.972. Esto significa que esto no es evidencia contra la hipótesis de que el sol se volvió nova, por lo que no podemos rechazarlo en base a este resultado. Esto parece más razonable. Si estas pensando. ¿Por qué alguien asumiría que el sol se volvió nova? Te pregunto ¿Por qué alguien llevaría a cabo tal experimento si la sola idea de la explosión del sol parece ridícula?
Creo que esto solo muestra que uno tiene que evaluar la utilidad de un experimento de antemano. Este experimento, por ejemplo, sería completamente inútil porque prueba algo que ya sabemos simplemente al mirar hacia el cielo (que estoy seguro produce un valor p que es efectivamente cero). Diseñar un buen experimento es un requisito para producir una buena ciencia. Si su experimento está mal diseñado, no importa qué herramienta de inferencia estadística utilice, es poco probable que sus resultados sean útiles.
fuente
Muy interesante el tema.
Aquí hay algunos pensamientos, no un análisis perfecto ...
El uso del enfoque bayesiano con un previo no informativo generalmente proporciona una inferencia estadística comparable a la frecuente.
¿Por qué el Bayesiano tiene una fuerte creencia previa de que el sol no ha explotado? Porque él sabe como todos que el sol nunca ha explotado desde su comienzo.
Podemos ver en algunos modelos estadísticos simples con anteriores conjugados que usar una distribución previa es equivalente a usar la distribución posterior derivada de experimentos previos y preliminares no infomativos.
La oración anterior sugiere que el Frecuentista debería concluir como Bayesiano al incluir los resultados de experimentos preliminares en su modelo. Y esto es lo que realmente hace el Bayesiano : ¡su prior proviene de su conocimiento de los experimentos preliminares!
Desde esta perspectiva, no veo cómo reformular la pregunta en términos de prueba de hipótesis. Tomar no tiene sentido porque es un posible problema del experimento en mi interpretación, no una hipótesis verdadera / falsa. ¿Tal vez este es el error del frequentista?H0={the sun has not exploded}
fuente
Por supuesto, esta es una prueba frecuente de nivel 0.05: la hipótesis nula se rechaza menos del 5% del tiempo bajo la hipótesis nula e incluso el poder bajo la alternativa es excelente.
Por otro lado, la información previa nos dice que es bastante improbable que el sol se convierta en supernova en un momento determinado, pero que es más probable que mienta por casualidad.
En pocas palabras: en realidad no hay nada malo en el cómic y muestra que probar hipótesis inverosímiles conduce a una alta tasa de falsos descubrimientos. Además, es probable que desee tener en cuenta la información previa en su evaluación de las apuestas ofrecidas; es por eso que un posterior bayesiano en combinación con el análisis de decisiones es tan popular.
fuente
En mi opinión, un análisis frecuentista más correcto sería el siguiente: H0: El sol ha explotado y la máquina está diciendo la verdad. H1: El sol no ha explotado y la máquina está acostada.
El valor p aquí es = P (sol explotado). p (la máquina dice la verdad) = 0.97. P (sol estallado)
El estadístico no puede concluir nada sin conocer la naturaleza de la segunda probabilidad.
Aunque sabemos que P (el sol explotó) es 0, porque las estrellas como el sol no explotan en supernovas.
fuente