Una pregunta reciente sobre la diferencia entre la confianza y los intervalos creíbles me llevó a comenzar a releer el artículo de Edwin Jaynes sobre ese tema:
Jaynes, ET, 1976. "Intervalos de confianza versus intervalos bayesianos", en Fundamentos de teoría de la probabilidad, inferencia estadística y teorías estadísticas de la ciencia, WL Harper y CA Hooker (eds.), D. Reidel, Dordrecht, p. 175; ( pdf )
En resumen, Jaynes escribe:
... exhibimos las soluciones bayesianas y ortodoxas a seis problemas estadísticos comunes que involucran intervalos de confianza (incluidas las pruebas de significación basadas en el mismo razonamiento). En todos los casos, encontramos que la situación es exactamente la opuesta, es decir, el método bayesiano es más fácil de aplicar y produce los mismos o mejores resultados. De hecho, los resultados ortodoxos son satisfactorios solo cuando coinciden estrechamente (o exactamente) con los resultados bayesianos. Ningún ejemplo contrario se ha producido todavía.
(énfasis mío)
El documento fue publicado en 1976, por lo que tal vez las cosas han seguido adelante. Mi pregunta es, ¿hay ejemplos en los que el intervalo de confianza frecuentista sea claramente superior al intervalo creíble bayesiano (según el desafío implícito de Jaynes)?
Los ejemplos basados en suposiciones previas incorrectas no son aceptables ya que no dicen nada sobre la consistencia interna de los diferentes enfoques.
fuente
Respuestas:
Dije antes que tendría la oportunidad de responder la pregunta, así que aquí va ...
Jaynes estaba siendo un poco travieso en su trabajo en el sentido de que un intervalo de confianza frecuentista no se define como un intervalo en el que podríamos esperar que el verdadero valor de la estadística se encuentre con una alta probabilidad (especificada), por lo que no es demasiado sorprendente que las contradicciones surgen si se interpretan como si lo fueran. El problema es que esta es a menudo la forma en que se usan los intervalos de confianza en la práctica, ya que un intervalo muy probable que contenga el valor verdadero (dado lo que podemos inferir de nuestra muestra de datos) es lo que a menudo queremos.
La cuestión clave para mí es que cuando se hace una pregunta, es mejor tener una respuesta directa a esa pregunta. Si los intervalos bayesianos creíbles son peores que los intervalos de confianza frecuentistas depende de la pregunta que realmente se hizo. Si la pregunta que se hizo fue:
(a) "Dame un intervalo donde el verdadero valor de la estadística se encuentre con la probabilidad p", entonces parece que un frecuentador no puede responder esa pregunta directamente (y esto introduce el tipo de problemas que Jaynes discute en su artículo), pero Lata bayesiana, razón por la cual un intervalo creíble bayesiano es superior al intervalo de confianza frecuentista en los ejemplos dados por Jaynes. Pero esto es solo porque es la "pregunta equivocada" para el frecuentista.
(b) "Dame un intervalo en el que, si el experimento se repitiera una gran cantidad de veces, el verdadero valor de la estadística estaría dentro de p * 100% de tales intervalos", entonces la respuesta frecuente es justo lo que quieres. El Bayesiano también puede dar una respuesta directa a esta pregunta (aunque puede que no sea simplemente el intervalo creíble obvio). El comentario de Whuber sobre la pregunta sugiere que este es el caso.
Esencialmente, se trata de especificar correctamente la pregunta e interpretar adecuadamente la respuesta. Si desea hacer la pregunta (a), use un intervalo bayesiano creíble, si desea hacer la pregunta (b), use un intervalo de confianza frecuente.
fuente
Este es un ejemplo "desarrollado" dado en un libro escrito por Larry Wasserman Todas las estadísticas en la página 216 ( 12.8 Fortalezas y debilidades de la inferencia bayesiana ). Básicamente proporciono lo que Wasserman no hace en su libro 1) una explicación de lo que realmente está sucediendo, en lugar de una línea de descarte; 2) la respuesta frecuente a la pregunta, que Wasserman convenientemente no da; y 3) una demostración de que la confianza equivalente calculada usando la misma información sufre del mismo problema.
En este ejemplo, declara la siguiente situación
... ¿Qué debemos concluir de todo esto? Lo importante es entender que los métodos bayesianos y frecuentistas están respondiendo diferentes preguntas. Para combinar creencias previas con datos de una manera basada en principios, use la inferencia bayesiana. Para construir procedimientos con rendimiento garantizado a largo plazo, como intervalos de confianza, utilice métodos frecuentas ... (p217)
Y luego continúa sin ninguna disección o explicación de por qué el método bayesiano funcionó aparentemente tan mal. Además, él no da una respuesta desde el enfoque frecuentista, solo una amplia declaración general sobre "el largo plazo": una táctica política clásica (enfatice su fortaleza + otras debilidades, pero nunca compare lo mismo por lo mismo).
fuente
Keith Winstein,
EDITAR: Solo para aclarar, esta respuesta describe el ejemplo dado en Keith Winstein Answer on the King con el cruel juego estadístico. Las respuestas bayesianas y frecuentes usan la misma información, que es ignorar la información sobre el número de monedas justas e injustas al construir los intervalos. Si no se ignora esta información, el frecuentador debe usar la Probabilidad Beta-Binomial integrada como la distribución de muestreo en la construcción del intervalo de Confianza, en cuyo caso el Intervalo de Confianza de Clopper-Pearson no es apropiado y necesita ser modificado. Un ajuste similar debería ocurrir en la solución bayesiana.
EDITAR: También he aclarado el uso inicial del clopper Pearson Interval.
EDITAR: por desgracia, mi alfa está al revés, y mi intervalo de clopper pearson es incorrecto. Mis más humildes disculpas a @whuber, quien correctamente señaló esto, pero con quien inicialmente no estuve de acuerdo e ignoré.
El CI que usa el método Clopper Pearson es muy bueno
Por lo tanto, aquel que usa el intervalo de confianza Clopper Pearson nunca será decapitado. Al observar el intervalo, es básicamente todo el espacio de parámetros. ¡Pero el intervalo CP está haciendo esto al dar una cobertura del 100% a un intervalo supuestamente del 95%! Básicamente, los Frequentistas "hacen trampa" al dar un intervalo de confianza del 95% más cobertura de la que se le pidió que diera (aunque ¿quién no haría trampa en tal situación? Si fuera yo, yo daría todo [0, 1] intervalo). Si el rey pidiera un IC exacto del 95%, este método frecuentista fallaría independientemente de lo que realmente sucediera (¿tal vez existe uno mejor?).
¿Qué pasa con el intervalo bayesiano? (específicamente el Intervalo Bayesiano de la Desnidad Posterior Más Alta (HPD))
Para citar un intervalo de confianza genuino del 95%, entonces, por definición , debería haber algunos casos (es decir, al menos uno) del intervalo observado que no contienen el valor verdadero del parámetro . De lo contrario, ¿cómo se puede justificar la etiqueta del 95%? ¿No sería válido o inválido llamarlo un intervalo del 90%, 50%, 20% o incluso 0%?
No veo cómo simplemente decir "realmente significa 95% o más" sin una restricción complementaria es satisfactorio. Esto se debe a que la solución matemática obvia es todo el espacio de parámetros, y el problema es trivial. ¿y si quiero un CI del 50%? si solo limita los falsos negativos, todo el espacio de parámetros es un CI válido que utiliza solo este criterio.
Para terminar, parece un poco extraño pedir un intervalo de incertidumbre, y luego evaluar ese intervalo utilizando el valor verdadero del que no estábamos seguros. Una comparación "más justa", tanto para la confianza como para los intervalos creíbles, me parece la verdad de la declaración de incertidumbre dada con el intervalo .
fuente
El problema comienza con tu oración:
Sí, bueno, ¿cómo sabes que tu prior es correcto?
Tomemos el caso de la inferencia bayesiana en la filogenia. La probabilidad de al menos un cambio está relacionada con el tiempo evolutivo (longitud de rama t) por la fórmula
siendo usted la tasa de sustitución.
Ahora desea hacer un modelo de la evolución, basado en la comparación de secuencias de ADN. En esencia, intenta estimar un árbol en el que intenta modelar la cantidad de cambio entre las secuencias de ADN lo más cerca posible. La P anterior es la posibilidad de al menos un cambio en una rama determinada. Los modelos evolutivos describen las posibilidades de cambio entre dos nucleótidos, y de estos modelos evolutivos se deriva la función de estimación, ya sea con p como parámetro o con t como parámetro.
No tiene un conocimiento sensato y eligió un plano previo para p. Esto implica inherentemente una disminución exponencialmente previa para t. (Se vuelve aún más problemático si desea establecer una prioridad plana en t. La prioridad implícita en p depende en gran medida de dónde corte el rango de t).
En teoría, t puede ser infinito, pero cuando permite un rango infinito, el área bajo su función de densidad también es infinita, por lo que debe definir un punto de truncamiento para el anterior. Ahora, cuando elige el punto de truncamiento lo suficientemente grande, no es difícil demostrar que ambos extremos del intervalo creíble aumentan, y en cierto punto el valor verdadero ya no está contenido en el intervalo creíble. A menos que tenga una muy buena idea sobre lo anterior, no se garantiza que los métodos bayesianos sean iguales o superiores a otros métodos.
ref: Joseph Felsenstein: Inferir filogenias, capítulo 18
En una nota al margen, me estoy cansando de esa pelea bayesiana / frecuente. Ambos son marcos diferentes, y tampoco lo es la Verdad Absoluta. Los ejemplos clásicos de los métodos bayesianos pro invariablemente provienen del cálculo de probabilidad, y ningún frecuentista los contradecirá. El argumento clásico contra los métodos bayesianos implica invariablemente la elección arbitraria de un prior. Y los antecedentes razonables son definitivamente posibles.
Todo se reduce al uso correcto de cualquiera de los métodos en el momento adecuado. He visto muy pocos argumentos / comparaciones donde ambos métodos se aplicaron correctamente. Los supuestos de cualquier método están muy subestimados y con demasiada frecuencia se ignoran.
EDITAR: para aclarar, el problema radica en el hecho de que la estimación basada en p difiere de la estimación basada en t en el marco bayesiano cuando se trabaja con antecedentes no informativos (que en algunos casos es la única solución posible). Esto no es cierto en el marco de ML para la inferencia filogenética. No se trata de un error previo, es inherente al método.
fuente
Los intervalos de confianza frecuentes limitan la tasa de falsos positivos (errores de Tipo I) y garantizan que su cobertura estará limitada por debajo del parámetro de confianza, incluso en el peor de los casos. Los intervalos de credibilidad bayesianos no.
Entonces, si lo que le importa son los falsos positivos y necesita unirlos, los intervalos de confianza son el enfoque que querrá usar.
Por ejemplo, digamos que tienes un rey malvado con una corte de 100 cortesanos y cortesanas y él quiere jugar un cruel juego estadístico con ellos. El rey tiene una bolsa de un billón de monedas justas, más una moneda injusta cuya probabilidad de cara es del 10%. Él va a realizar el siguiente juego. Primero, sacará una moneda de manera uniforme al azar de la bolsa.
Luego, la moneda se pasará por una sala de 100 personas y cada una se verá obligada a hacer un experimento en privado, y luego cada persona indicará un intervalo de incertidumbre del 95% sobre lo que creen que es la probabilidad de cara de la moneda.
Cualquier persona que dé un intervalo que represente un falso positivo, es decir, un intervalo que no cubra el verdadero valor de la probabilidad de cabezas, será decapitado.
Si quisiéramos expresar la función de distribución de probabilidad / a posteriori del peso de la moneda, entonces, por supuesto, un intervalo de credibilidad es lo que hace eso. La respuesta siempre será el intervalo [0.5, 0.5] independientemente del resultado. Incluso si lanzas cero caras o una cara, aún dirás [0.5, 0.5] porque es muchísimo más probable que el rey haya sacado una moneda justa y tuvieras un día de 1/1024 obteniendo diez caras seguidas , que el rey sacó la moneda injusta.
¡Así que esta no es una buena idea para los cortesanos y cortesanas! Porque cuando se saca la moneda injusta, toda la sala (las 100 personas) se equivocarán y todos serán decapitados.
En este mundo donde lo más importante son los falsos positivos, lo que necesitamos es una garantía absoluta de que la tasa de falsos positivos será inferior al 5%, sin importar qué moneda se extraiga. Luego, debemos usar un intervalo de confianza, como Blyth-Still-Casella o Clopper-Pearson, que funcione y proporcione al menos un 95% de cobertura, independientemente del valor real del parámetro, incluso en el peor de los casos . Si todos usan este método en su lugar, no importa qué moneda se extraiga, al final del día podemos garantizar que el número esperado de personas equivocadas no será más de cinco.
Entonces, el punto es: si su criterio requiere limitar los falsos positivos (o, de manera equivalente, garantizar la cobertura), debe seguir un intervalo de confianza. Eso es lo que hacen. Los intervalos de credibilidad pueden ser una forma más intuitiva de expresar incertidumbre, pueden funcionar bastante bien a partir de un análisis frecuente, pero no van a proporcionar el límite garantizado de falsos positivos que obtendrá cuando vaya a pedirlo.
(Por supuesto, si también te importan los falsos negativos, necesitarás un método que también garantice esos ...)
fuente
Bernardo propuso una "referencia previa" para ser utilizada como un estándar para la comunicación científica [e incluso un "intervalo creíble de referencia" ( Bernardo - regiones creíbles objetivas )]. Asumiendo que este es "el" enfoque bayesiano, ahora la pregunta es: ¿cuándo es un intervalo superior a otro? Las propiedades frecuentistas del intervalo bayesiano no siempre son óptimas, pero tampoco lo son las propiedades bayesianas del "intervalo frecuentista"
(por cierto, ¿cuál es "el" intervalo frecuentista?)
fuente