¿Qué tiene de malo el cómic Frequentists vs. Bayesians de XKCD?

113

xkcd comic número 1132

Este cómic xkcd (Frequentists vs. Bayesians) se burla de un estadístico frecuentista que obtiene un resultado obviamente equivocado.

Sin embargo, me parece que su razonamiento es realmente correcto en el sentido de que sigue la metodología frecuentista estándar.

Entonces mi pregunta es "¿aplica correctamente la metodología frecuentista?"

  • Si no: ¿cuál sería una inferencia frecuentista correcta en este escenario? ¿Cómo integrar el "conocimiento previo" sobre la estabilidad del sol en la metodología frecuentista?
  • En caso afirmativo: wtf? ;-)
repied2
fuente
17
Discusión en el blog de Gelman: andrewgelman.com/2012/11/16808
Glen
55
Creo que mucho está mal, tanto desde el punto de vista frecuentista como bayesiano. Mi mayor crítica cada uno: Primero, los valores de P son en última instancia heurísticos y son propiedades de varias cosas, incluidos el problema estadístico, los datos y el experimento. Aquí, los tres están gravemente tergiversados ​​para esa pregunta en particular. Segundo, el "Bayesiano" usa un enfoque teórico de decisión que no necesita ser Bayesiano. Sin embargo, es gracioso.
Momo
55
Para sacarlo del ámbito de las estadísticas ... el sol no es lo suficientemente masivo como para convertirse en nova. QED, el Bayesian tiene razón. ( El Sol se convertirá en un Gigante Rojo )
Ben Brocka
3
@Glen et alii, en particular, observan la respuesta de Randall Munroe a Gelman: andrewgelman.com/2012/11/16808/#comment-109366
jthetzel
2
La razón por la cual el estadístico frecuentista aquí es estúpido no es porque sea un frecuentador, sino porque obviamente sabe cómo funciona la máquina, por lo tanto sabe que es una medición inapropiada y de todos modos hace una inferencia.
rvl

Respuestas:

44

El problema principal es que el primer experimento (Sun se volvió nova) no es repetible, lo que lo hace muy inadecuado para la metodología frecuentista que interpreta la probabilidad como una estimación de la frecuencia con que se produce un evento y que podemos repetir el experimento muchas veces. En contraste, la probabilidad bayesiana se interpreta como nuestro grado de creencia que brinda todo el conocimiento previo disponible, lo que lo hace adecuado para el razonamiento de sentido común sobre eventos únicos. El experimento del lanzamiento de dados es repetible, pero me parece muy poco probable que cualquier frecuentador ignore intencionalmente la influencia del primer experimento y tenga tanta confianza en la importancia de los resultados obtenidos.

Aunque parece que el autor se burla de la dependencia frecuentista de los experimentos repetibles y su desconfianza de los anteriores, dando la inadecuación de la configuración experimental a la metodología frecuentista, diría que el tema real de este cómic no es la metodología frecuentista sino el seguimiento ciego de la metodología inadecuada en general. Si es divertido o no depende de usted (para mí lo es), pero creo que es más engañoso que aclara las diferencias entre los dos enfoques.

Matija Piskorec
fuente
1
(+1) Una buena referencia sobre este supuesto fuerte y crucial de repetibilidad en el frecuentismo es la Inferencia estadística en la ciencia (2000) , capítulo 1. (Aunque hay tantos problemas que es difícil saber cuál es el principal )
36
No tan rápido con el argumento de repetibilidad ... Primero, el experimento que es repetible es la consulta de la máquina, no del sol que se vuelve nova. La verdad es que el objeto de inferencia fijo pero desconocido. El experimento de consulta ciertamente puede repetirse, y si fuera por algunas veces más, la estrategia frecuentista fácilmente podría parecer razonable.
conjugateprior
66
En segundo lugar, uno no debería ser demasiado estricto en el negocio de la repetibilidad de todos modos, para que los frecuentadores no puedan inferir nada en situaciones no experimentales. Supongamos por un momento que 'sun goes nova' fue el evento candidato. No soy un físico, pero me dicen que el evento 'el sol se vuelve nova' ocurre con bastante frecuencia (pero no tanto por aquí), así que esto me parece una repetición. En cualquier caso, personas como David Cox (en 'Fundamentos de estadística') dicen alegremente cosas como: "las repeticiones contempladas son casi siempre hipotéticas . Esto en sí mismo no parece ningún inconveniente".
conjugateprior
77
¡Podríamos ver el sol como una muestra aleatoria de una población de soles en universos paralelos en los que, en principio, podríamos repetir el experimento si solo tuviéramos un espejo cuántico! ; o)
Dikran Marsupial
2
¿Por qué la comprobación de la explosión del sol no es repetible? Reviso todas las mañanas, y aún no ha explotado.
GKFX
27

Hasta donde puedo ver, el bit frecuentista es razonable hasta aquí:

Sea la hipótesis de que el sol no ha explotado y la hipótesis de que sí. El valor p es, por lo tanto, la probabilidad de observar el resultado (la máquina dice "sí") bajo . Suponiendo que la máquina detecta correctamente la presencia de ausencia de neutrinos, entonces si la máquina dice "sí" bajo entonces es porque la máquina nos está mintiendo como resultado de rodar dos seises. Por lo tanto, el valor p es 1/36, por lo que siguiendo la práctica científica normal cuasi-Fisher, un frecuentista rechazaría la hipótesis nula, al nivel de significancia del 95% .H 1 H 0 H 0H0H1H0H0

Pero rechazar la hipótesis nula no significa que tenga derecho a aceptar la hipótesis alternativa, por lo que el análisis no justifica la conclusión frecuente. Las pruebas de hipótesis frecuentes encarnan la idea del falsacionismo (más o menos), no se puede demostrar que nada es cierto, solo refutar. Entonces, si desea afirmar , asume que es verdadero y solo continúa si puede demostrar que es inconsistente con los datos. Sin embargo, eso no significa que sea ​​cierto, solo que sobrevive a la prueba y continúa como una hipótesis viable al menos hasta la próxima prueba.H 0 H 0 H 1H1H0H0H1

El Bayesiano también es simplemente sentido común, señalando que no hay nada que perder haciendo la apuesta. Estoy seguro de que los enfoques frecuentistas, cuando se toman en cuenta los costos falsos positivos y falsos negativos (¿Neyman-Peason?), Llegarían a la misma conclusión como la mejor estrategia en términos de ganancias a largo plazo.

Para resumir: tanto el frecuentista como el bayesiano están siendo descuidados aquí: el frecuentador por seguir ciegamente una receta sin considerar el nivel apropiado de importancia, los costos falsos positivos / falsos negativos o la física del problema (es decir, no usar su sentido común) . El Bayesiano está siendo descuidado por no declarar explícitamente sus antecedentes, pero nuevamente usando el sentido común, los antecedentes que está usando son obviamente correctos (es mucho más probable que la máquina esté mintiendo que el sol realmente explotó), la negligencia es quizás excusable.

Dikran Marsupial
fuente
44
Rechazar la hipótesis nula simplemente significa que la observación sería improbable SI H0 fuera cierto. No debe "aceptar" H1 sobre esta base, ya que básicamente dice que H1 debe ser cierto porque las observaciones serían poco probables si H0 fuera cierto. Sin embargo, las observaciones también pueden ser poco probables bajo H1 (que el ritual nulo ignora) y H1 puede ser menos probable que H0 a-priori (que el ritual nulo también ignora). Aceptar hipótesis es una pendiente resbaladiza hacia la interpretación de una prueba frecuentista como una prueba bayesiana, que comúnmente resulta en malentendidos en casos menos elementales.
Dikran Marsupial
44
Me topé con tu comentario. Y tengo la misma pregunta que @glassy tenía. Me gustaría objetar su comentario de que si sus hipótesis cubren todo el espacio de eventos, aquí siendo {"El sol se ha vuelto nova", "El sol no se volvió nova"}, tengo dificultades para entender su punto de cómo rechazar el " Sun se ha vuelto nova "no conduce automáticamente a" Sun no se volvió nova ". Declarar una declaración falsa implica que su negación debe ser verdadera. Sería genial si pudiera proporcionar un texto de referencia confiable donde este punto se explica claramente si es posible. Me interesaría saber más al respecto.
significado para el
3
Rechazar la hipótesis nula no significa automáticamente que la hipótesis nula sea probablemente falsa, solo que es razonable continuar con la hipótesis alternativa. Esto es (en parte) porque la prueba de hipótesis frecuentista no tiene en cuenta las probabilidades previas de las hipótesis. Más fundamentalmente, los métodos frecuentistas no se pueden utilizar para asignar una probabilidad a la verdad de una hipótesis específica, por lo que el vínculo entre "podemos rechazar la hipótesis nula" y "la hipótesis nula es probablemente falsa" es completamente subjetiva, en la medida en que Puedo ver.
Dikran Marsupial el
2
Este es mi punto de vista, la decisión de si aceptamos H1 es subjetiva y no es una consecuencia necesaria del resultado de la prueba "el rechazo de H0 generalmente conduce a aceptar H1". El problema es que la información que necesita para tomar la decisión [P (H0), P (H1), P (Z | H1)] no aparece en la prueba. Esencialmente, parte de esta información se incluye parcialmente en el establecimiento del umbral, pero esto generalmente es incompleto y a menudo se deja sin declarar e injustificado. Los anteriores todavía están allí en pruebas frecuentas, igualmente subjetivas, pero dejadas implícitas, ¡lo peor de ambos mundos! ; o)
Dikran Marsupial
3
@Dikran, creo que nos entendimos bien y deberíamos dejar de abusar de la sección de comentarios, pero una última observación: elijo subjetivamente aceptar H1 si elijo rechazar [rechazo de ameba] H0 en función de mi subjetivamente elegido basado en mi evaluación experta subjetiva de P (H1). Decir que "no estoy obligado a aceptar H1 solo porque puedo rechazar la ameba H0" no tiene ningún sentido lingüístico. Pero sí estoy de acuerdo con que "no estoy obligado a aceptar H1 solo porque puedo rechazar H0 al nivel del 5%". Mi punto principal: poder rechazar H0 al 5% de nivel rechazar . α
ameba
25

¿Por qué este resultado parece "incorrecto"? Un bayesiano diría que el resultado parece contrario a la intuición porque tenemos creencias "anteriores" sobre cuándo explotará el sol, y la evidencia provista por esta máquina no es suficiente para eliminar esas creencias (principalmente debido a su incertidumbre debido a la lanzamiento de moneda). Pero un frecuentador es capaz de hacer tal evaluación, simplemente debe hacerlo en el contexto de los datos, en lugar de creerlo.

La verdadera fuente de la paradoja es el hecho de que la prueba estadística frecuentista realizada no tiene en cuenta todos los datos disponibles. No hay ningún problema con el análisis en el cómic, pero el resultado parece extraño porque sabemos que lo más probable es que el sol no explote durante mucho tiempo. ¿Pero CÓMO sabemos esto? Porque hemos realizado mediciones, observaciones y simulaciones que pueden restringir cuándo explotará el sol. Por lo tanto, nuestro pleno conocimiento debe tener en cuenta esas mediciones y puntos de datos.

En un análisis bayesiano, esto se hace mediante el uso de esas mediciones para construir un previo (aunque, el procedimiento para convertir las mediciones en un previo no está bien definido: en algún momento debe haber un previo inicial, o de lo contrario son "todas las tortugas el camino hacia abajo "). Entonces, cuando el Bayesiano usa su anterior, realmente está tomando en cuenta mucha información adicional que el análisis del valor p del frecuentista no conoce.

Por lo tanto, para mantenerse en pie de igualdad, un análisis frecuentista completo del problema debe incluir los mismos datos adicionales sobre la explosión del sol que se utilizan para construir el previo bayesiano. Pero, en lugar de usar los anteriores, un frecuentador simplemente expandiría la probabilidad de que esté usando para incorporar esas otras mediciones, y su valor p se calcularía usando esa probabilidad completa.

LL=L (Máquina dijo Sí | El sol ha explotado) * (Todos los demás datos sobre el sol | El sol ha explotado)L

Un análisis frecuentista completo probablemente mostraría que la segunda parte de la probabilidad será mucho más restrictiva y será la contribución dominante al cálculo del valor p (porque tenemos una gran cantidad de información sobre el sol y los errores en esta información son pequeños (con suerte)).

Prácticamente, uno no necesita salir y recolectar todos los puntos de datos obtenidos de los últimos 500 años para hacer un cálculo frecuente, uno puede aproximarlos como un término de probabilidad simple que codifica la incertidumbre sobre si el sol ha explotado o no. Esto se volverá similar al anterior de Bayesian, pero es ligeramente diferente filosóficamente porque es una probabilidad, lo que significa que codifica alguna medición previa (en oposición a un prior, que codifica alguna creencia a priori). Este nuevo término se convertirá en una parte de la probabilidad y se utilizará para construir intervalos de confianza (o valores p o lo que sea), en oposición al anterior bayesiano, que se integra para formar intervalos creíbles o posteriores.

GeorgeLewis
fuente
1
Esta debería ser la respuesta aceptada o más votada.
Amelio Vazquez-Reina
11

El mayor problema que veo es que no hay una estadística de prueba derivada. valor (con todas las críticas que los estadísticos bayesianos formulan contra él) para un valor de una estadística de prueba se define como (suponiendo que se rechaza el valor nulo para valores mayores de , como sería el caso con las estadísticas , por ejemplo). Si necesita tomar una decisión de mayor importancia, puede aumentar el valor crítico e impulsar la región de rechazo más arriba. Efectivamente, eso es lo que hacen múltiples correcciones de prueba como Bonferroni, indicándole que use un umbral mucho más bajo parat T P r o b [ T t | H 0 ] T χ 2 p 0 , 1 / 36 , 2 / 36 , ...ptTProb[Tt|H0]Tχ2p-valores. En cambio, el estadista frecuentista está atrapado aquí con las pruebas de tamaños en la cuadrícula de .0,1/36,2/36,

Por supuesto, este enfoque "frecuente" no es científico, ya que el resultado difícilmente será reproducible. Una vez que el Sol se convierte en supernova, permanece supernova, por lo que el detector debe seguir diciendo "Sí" una y otra vez. Sin embargo, una ejecución repetida de esta máquina es poco probable que produzca el resultado "Sí" nuevamente. Esto se reconoce en áreas que quieren presentarse como rigurosas y tratar de reproducir sus resultados experimentales ... lo que, hasta donde yo entiendo, ocurre con probabilidad entre el 5% (publicar el documento original fue un error puro de tipo I) y en algún lugar alrededor del 30-40% en algunos campos médicos. La gente de metaanálisis puede completarlo con mejores números, esto es solo el zumbido que me viene de vez en cuando a través de la estadística de la vid.

Otro problema desde la perspectiva frecuentista "adecuada" es que tirar un dado es la prueba menos poderosa, con potencia = nivel de significancia (si no es menor; 2.7% de potencia para el nivel de significancia del 5% no es nada de qué jactarse). La teoría de Neyman-Pearson para las pruebas t agoniza al demostrar que se trata de un UMPT, y una gran cantidad de teoría estadística de cejas (que apenas entiendo, tengo que admitir) se dedica a derivar las curvas de potencia y encontrar las condiciones cuando un determinado La prueba es la más poderosa en una clase determinada. (Créditos: @Dikran Marsupial mencionó el tema del poder en uno de los comentarios).

No sé si esto te preocupa, pero el estadístico bayesiano se muestra aquí como el tipo que no sabe de matemáticas y tiene un problema con el juego. Un estadístico bayesiano adecuado postularía lo anterior, discutiría su grado de objetividad, derivaría lo posterior y demostraría cuánto aprendieron de los datos. Nada de eso se hizo, por lo que el proceso bayesiano se ha simplificado demasiado tanto como el frecuente.

Esta situación demuestra el cribado clásico para el problema del cáncer (y estoy seguro de que los bioestadísticos pueden describirlo mejor que yo). Cuando se examina una enfermedad rara con un instrumento imperfecto, la mayoría de los positivos se convierten en falsos positivos. Los estadísticos inteligentes lo saben, y saben mejor hacer un seguimiento de los analizadores baratos y sucios con biopsias más caras y más precisas.

StasK
fuente
2
Si entiendo su primer párrafo correctamente, está diciendo que el umbral (0.05 en el cómic) está demasiado alto. Si el cómic tuviera cinco dados en lugar de dos, ¿aceptarías que el umbral es lo suficientemente bajo? ¿Cómo se decide el umbral de todos modos?
ShreevatsaR
99
Pensé que el estadístico bayesiano simplemente tuvo en cuenta que las posibilidades de que el sol explote son mucho, mucho menores que las posibilidades de que la máquina mienta (por lo tanto, no necesariamente un jugador despistado).
Josh
8
Más al punto: si el sol se vuelve nova, el ganador de la apuesta no podrá cobrar sus 50 $ ...
kjetil b halvorsen
66
Creo que el punto aquí es que el estadístico frecuentista está siguiendo una receta sin pensar en el verdadero propósito del análisis. El llamado "Bayesiano" no es en realidad ser Bayesiano, solo alguien que usa su sentido común. Hay muchos ejemplos de recetas a ciegas en revistas científicas, por lo que la caricatura es divertida.
Dikran Marsupial
3
La falta de estadísticas de prueba no puede ser el problema, no creo. Una estadística de prueba es solo alguna función de los datos. Por lo tanto, la función de identidad, es decir, aquí el dato en sí, parece funcionar, al menos en principio.
conjugateprior
6

No hay nada de malo en este cómic, y la razón no tiene nada que ver con las estadísticas. Es economía. Si el frecuentista es correcto, la Tierra será equivalente a inhabitable dentro de las 48 horas. El valor de $ 50 será efectivamente nulo. El Bayesiano, reconociendo esto, puede hacer la apuesta sabiendo que su beneficio es de $ 50 en el caso normal, y marginalmente nada en el caso explotado por el sol.

Tony Boyles
fuente
Esto "tiene algo que ver con las estadísticas", ya que las estadísticas bayesianas modelan esto explícitamente como "minimizar una función de pérdida";)
Fabio Beltramini
5

Ahora que el CERN ha decidido que los neutrinos no son más rápidos que la luz, el frente de choque de radiación electromagnética golpearía la tierra antes de que se notara el cambio de neutrinos. Esto tendría al menos (en el muy corto plazo) espectaculares efectos aurorales. Por lo tanto, el hecho de que esté oscuro no evitaría que los cielos se iluminen; la luna brillaba excesivamente (véase "La luna inconstante" de Larry Niven) y destellos espectaculares a medida que los satélites artificiales se evaporaban y se quemaban.

Con todo, ¿quizás la prueba equivocada? (Y si bien puede haber sido anterior, no habría tiempo suficiente para una determinación realista de posterior.

SimonN
fuente
1
Más razón para rechazar la hipótesis de que el sol ha explotado, entonces. :-)
ShreevatsaR
Entonces, ¿esto es lo que significa al final del artículo cuando los autores dicen: "se necesitan estudios confirmatorios"?
DWin
En realidad, revisando casualmente esto, la inferencia clara está en el título. La máquina detecta si el sol se ha vuelto nova. No hay posibilidad de error en la detección. El bit de neutrino es irrelevante. Dado eso, entonces las estadísticas son tales que la máquina responderá "no", "no", "no" ... con una probabilidad de 1/36 de ser una declaración falsa (sí) hasta un evento único que termina la estadística se produce el proceso: esto también tendrá una probabilidad de 1/36 de ser reportado falsamente (no), si la máquina es consultada durante el intervalo de 8 minutos que tarda en hacerse evidente en la Tierra.
SimonN
4

Estoy de acuerdo con @GeorgeLewis en que puede ser prematuro concluir que el enfoque frequentista es incorrecto: volvamos a ejecutar el detector de neutrinos varias veces más para recopilar más datos. No hay necesidad de perder el tiempo con los antecedentes.

RobertF
fuente
2

Un punto más simple que puede perderse entre todas las respuestas detalladas aquí es que se representa al frecuentista sacando su conclusión basándose en una sola muestra. En la práctica, nunca harías esto.

Alcanzar una conclusión válida requiere un tamaño de muestra estadísticamente significativo (o, en otras palabras, la ciencia debe ser repetible). Entonces, en la práctica, el frecuentista correría la máquina varias veces y luego llegaría a una conclusión sobre los datos resultantes.

Presumiblemente esto implicaría hacerle a la máquina la misma pregunta varias veces más. Y, presumiblemente, si la máquina solo está equivocada, 1 de cada 36 veces aparecerá un patrón claro. Y a partir de ese patrón (en lugar de una sola lectura), el frecuentador sacará una conclusión (bastante precisa, diría yo) sobre si el sol ha explotado o no.

Aroth
fuente
44
¿Qué quiere decir con "tamaño de muestra estadísticamente significativo"?
Momo el
@Momo: más de una sola muestra, eso es seguro. No es válido observar un resultado improbable y luego sacar conclusiones de que lo improbable ha sucedido sin repetir primero la observación para asegurarse de que no fue una casualidad. Si desea un número exacto que represente un tamaño de muestra estadísticamente significativo o un algoritmo para determinar un número exacto, probablemente un estadístico puede proporcionar uno; Pero no soy un estadístico.
aroth
3
No creo que haya un problema particular con tener un tamaño de muestra de 1 es el problema, el problema es que la prueba no tiene poder estadístico (es decir, la prueba nunca rechazará la hipótesis nula cuando sea falsa). Sin embargo, esto revela un problema con el "ritual nulo" que se menciona en el artículo, que ignora la cuestión del poder estadístico (y qué es realmente H1, o información previa relevante para el problema).
Dikran Marsupial
1
@Dikran ¡Esa es una de las mejores respuestas posibles! El problema con el "frecuentista" en la caricatura es que se ha seguido un ritual estadístico particular sin realizar primero la evaluación necesaria de las propiedades de la prueba. (Incluso podría extenderse su análisis al considerar cuál debería ser una función de pérdida relevante para esta decisión). Como tal, la caricatura ensarta perfectamente a todas las personas que emplean procedimientos estadísticos sin comprenderlos o verificar sus suposiciones.
whuber
2

La respuesta a su pregunta: "¿aplica correctamente la metodología frecuentista?" es no, no aplica con precisión el enfoque frecuentista. El valor p para este problema no es exactamente 1/36.

Primero debemos notar que las hipótesis involucradas son

H0: El sol no ha explotado,

H1: El sol ha explotado.

Entonces,

valor-p = P ("la máquina devuelve sí" | el Sol no ha explotado).

Para calcular esta probabilidad, debemos tener en cuenta que "la máquina devuelve sí" es equivalente a "el detector de neutrinos mide el sol explotando Y dice el resultado verdadero O el detector de neutrinos no mide el sol explotando Y nos miente".

Suponiendo que el lanzamiento de dados es independiente de la medición del detector de neutrinos, podemos calcular el valor p definiendo:

p0 = P ("el detector de neutrinos mide la explosión del Sol" | el Sol no ha explotado),

Entonces, el valor p es

Valor p = p0 x 35/36 + (1-p0) x 1/36 = (1/36) x (1+ 34 x p0).

Para este problema, el valor p es un número entre 1/36 y 35/36. El valor p es igual a 1/36 si y solo si p0 = 0. Es decir, una suposición oculta en esta caricatura es que la máquina detectora nunca medirá la explosión del Sol si el Sol no ha explotado.

Además, se debe insertar mucha más información en la probabilidad de que existan evidencias externas de una explosión de anova.

Todo lo mejor.

Alexandre Patriota
fuente
1

No veo ningún problema con el enfoque del frecuentista. Si se rechaza la hipótesis nula, el valor p es la probabilidad de un error tipo 1. Un error tipo 1 está rechazando una hipótesis nula verdadera. En este caso tenemos un valor p de 0.028. Esto significa que entre todas las pruebas de hipótesis con este valor p realizado, aproximadamente 3 de cada cien rechazarán una hipótesis nula verdadera. Por construcción, este sería uno de esos casos. Los frecuentes aceptan que a veces rechazarán la hipótesis nula verdadera o retendrán la hipótesis nula falsa (errores de tipo 2), nunca han afirmado lo contrario. Además, cuantifican con precisión la frecuencia de sus inferencias erróneas a largo plazo.

Quizás, una forma menos confusa de ver este resultado es intercambiar los roles de las hipótesis. Como las dos hipótesis son simples, esto es fácil de hacer. Si lo nulo es que el sol se volvió nova, entonces el valor p es 35/36 = 0.972. Esto significa que esto no es evidencia contra la hipótesis de que el sol se volvió nova, por lo que no podemos rechazarlo en base a este resultado. Esto parece más razonable. Si estas pensando. ¿Por qué alguien asumiría que el sol se volvió nova? Te pregunto ¿Por qué alguien llevaría a cabo tal experimento si la sola idea de la explosión del sol parece ridícula?

Creo que esto solo muestra que uno tiene que evaluar la utilidad de un experimento de antemano. Este experimento, por ejemplo, sería completamente inútil porque prueba algo que ya sabemos simplemente al mirar hacia el cielo (que estoy seguro produce un valor p que es efectivamente cero). Diseñar un buen experimento es un requisito para producir una buena ciencia. Si su experimento está mal diseñado, no importa qué herramienta de inferencia estadística utilice, es poco probable que sus resultados sean útiles.

Jose garmilla
fuente
Ciertamente, pero el Bayesiano aún puede inferir una conclusión razonable con los datos / resultados de experimentos dados . A veces no puedes repetir un experimento o diseñarlo como quieras.
Amelio Vazquez-Reina
Ese es un punto justo, la inferencia bayesiana puede incorporar fácilmente la experiencia previa que hace que sea más difícil que los resultados extraordinarios tengan peso estadístico (nos protege contra las casualidades estadísticas). Sin embargo, este también es un experimento inútil en el marco bayesiano. Lo anterior está tan a favor de una conclusión que ningún resultado en este experimento puede cambiarlo. Si lo anterior es tan fuerte. ¿Por qué realizar un experimento sin posibilidad de modificarlo? Al considerar los antecedentes débiles (es probable que los datos cambien), creo que los métodos bayesianos y frecuentes suelen producir resultados "comparables".
Jose Garmilla
0

¿Cómo integrar el "conocimiento previo" sobre la estabilidad del sol en la metodología frecuentista?

Muy interesante el tema.

Aquí hay algunos pensamientos, no un análisis perfecto ...

El uso del enfoque bayesiano con un previo no informativo generalmente proporciona una inferencia estadística comparable a la frecuente.

¿Por qué el Bayesiano tiene una fuerte creencia previa de que el sol no ha explotado? Porque él sabe como todos que el sol nunca ha explotado desde su comienzo.

Podemos ver en algunos modelos estadísticos simples con anteriores conjugados que usar una distribución previa es equivalente a usar la distribución posterior derivada de experimentos previos y preliminares no infomativos.

La oración anterior sugiere que el Frecuentista debería concluir como Bayesiano al incluir los resultados de experimentos preliminares en su modelo. Y esto es lo que realmente hace el Bayesiano : ¡su prior proviene de su conocimiento de los experimentos preliminares!

Nxiixiθxixi=1i=1,,N

N+1xiy={Yes}Pr(xN+1=0)θ x 1 , , x N y 1 N y = { } θ θθθx1,,xNy1Ny={Yes}θ. Y el Bayesiano tiene la intención de reflejar esta información a través de su distribución previa sobre .θ

Desde esta perspectiva, no veo cómo reformular la pregunta en términos de prueba de hipótesis. Tomar no tiene sentido porque es un posible problema del experimento en mi interpretación, no una hipótesis verdadera / falsa. ¿Tal vez este es el error del frequentista?H0={the sun has not exploded}

Stéphane Laurent
fuente
El pasaje "... él sabe como todos que el sol nunca ha explotado desde su comienzo" me recuerda una historia sobre una reciente fiesta estadounidense en la que se consumen millones de pavos ( Meleagris gallopavo ). A medida que pasa el tiempo, cada día cualquier pavo inteligente "sabe como todos" que será alimentada y cuidada, ¡hasta ese fatídico (y totalmente inesperado) día de mediados de noviembre! Del mismo modo, nuestra confianza en la estabilidad del sol debería ser baja si solo tuviéramos que confiar en la historia relativamente corta de la observación humana del mismo.
whuber
@whuber Hubiera preferido enviarte este mensaje en privado. ¿Existe alguna conexión entre su comentario y el tema de discusión? No sé si soy yo quien me hace ideas, pero ha sido varias veces que siento que comentas mis respuestas principalmente para decir algo en contra de mis respuestas. El ejercicio presentado por el OP es la interpretación de una caricatura, y siento que criticas mi respuesta como si estuviera hablando de un problema real. Recientemente no aprecié y todavía no entiendo por qué evocaste una "intención" probable detrás de mis respuestas.
Stéphane Laurent
No hubo críticas, implícitas o intencionadas: a veces un comentario es realmente solo ... un comentario. Intentó resaltar (de una manera que pretende ser humorística) preguntas importantes insinuadas pero no abordadas en su respuesta. Lamento que lo percibas como algo personal o como un ataque. Por cierto, esta es una pregunta real: pregunta ¿Cómo integrar el "conocimiento previo" ... en la metodología frecuentista? Esta pregunta evoca la crítica de Hume a la inferencia inductiva y se refiere a cuestiones en la filosofía de la ciencia, así como a los fundamentos de la estadística. ¡Vale la pena pensarlo detenidamente!
whuber
También podría valer la pena señalar que una proporción sustancial de su reputación se debe a mis votos por sus respuestas, que ofrezco como evidencia material de que no hay un comportamiento sistemático de mi parte contra usted.
whuber
2
No, entiendo tu comentario. La traducción francesa de Google de su comentario ya es extraña, pero al combinar mis habilidades en inglés y las extrañas traducciones de Google, puedo obtener una traducción correcta. Estaré más relajado el próximo mes, probablemente.
Stéphane Laurent
0

Por supuesto, esta es una prueba frecuente de nivel 0.05: la hipótesis nula se rechaza menos del 5% del tiempo bajo la hipótesis nula e incluso el poder bajo la alternativa es excelente.

Por otro lado, la información previa nos dice que es bastante improbable que el sol se convierta en supernova en un momento determinado, pero que es más probable que mienta por casualidad.

En pocas palabras: en realidad no hay nada malo en el cómic y muestra que probar hipótesis inverosímiles conduce a una alta tasa de falsos descubrimientos. Además, es probable que desee tener en cuenta la información previa en su evaluación de las apuestas ofrecidas; es por eso que un posterior bayesiano en combinación con el análisis de decisiones es tan popular.

Björn
fuente
-2

En mi opinión, un análisis frecuentista más correcto sería el siguiente: H0: El sol ha explotado y la máquina está diciendo la verdad. H1: El sol no ha explotado y la máquina está acostada.

El valor p aquí es = P (sol explotado). p (la máquina dice la verdad) = 0.97. P (sol estallado)

El estadístico no puede concluir nada sin conocer la naturaleza de la segunda probabilidad.

Aunque sabemos que P (el sol explotó) es 0, porque las estrellas como el sol no explotan en supernovas.

Chaitanya Anand
fuente