Me gustaría encontrar algunos "ejemplos del mundo real" para enseñar estadísticas bayesianas. Las estadísticas bayesianas le permiten a uno incorporar formalmente conocimiento previo en un análisis. Me gustaría darles a los estudiantes algunos ejemplos simples del mundo real de investigadores que incorporan conocimientos previos en su análisis para que los estudiantes puedan comprender mejor la motivación de por qué uno podría querer usar las estadísticas bayesianas en primer lugar.
¿Conoce algún ejemplo simple del mundo real, como estimar una media, proporción, regresión, etc. de la población en la que los investigadores incorporan formalmente información previa? Me doy cuenta de que los bayesianos también pueden usar anteriores "no informativos", pero estoy particularmente interesado en ejemplos reales en los que se utilizan anteriores informativos (es decir, información previa real).
Respuestas:
La teoría de búsqueda bayesiana es una aplicación interesante del mundo real de estadísticas bayesianas que se ha aplicado muchas veces para buscar embarcaciones perdidas en el mar. Para comenzar, un mapa se divide en cuadrados. A cada cuadrado se le asigna una probabilidad previa de contener el barco perdido, en función de la última posición conocida, rumbo, tiempo perdido, corrientes, etc. Además, a cada cuadrado se le asigna una probabilidad condicional de encontrar el barco si realmente está en ese cuadrado, en función de cosas como la profundidad del agua. Estas distribuciones se combinan para priorizar los cuadrados del mapa que tienen la mayor probabilidad de producir un resultado positivo: no es necesariamente el lugar más probable para el barco, sino el lugar más probable para encontrarlo.
fuente
Creo que estimar la producción o el tamaño de la población a partir de números de serie es interesante si se trata de un ejemplo explicativo tradicional. Aquí está probando el máximo de una distribución uniforme discreta. Dependiendo de su elección de antes, la probabilidad máxima y las estimaciones bayesianas diferirán de una manera bastante transparente.
Quizás el ejemplo más famoso es estimar la tasa de producción de tanques alemanes durante la Segunda Guerra Mundial a partir de bandas de números de serie de tanques y códigos de fabricante realizados en el entorno frecuentista por (Ruggles y Brodie, 1947). Un análisis alternativo desde un punto de vista bayesiano con antecedentes informativos ha sido realizado por (Downey, 2013), y con antecedentes no informativos inadecuados por (Höhle y Held, 2004). El trabajo de (Höhle y Held, 2004) también contiene muchas más referencias a tratamientos previos en la literatura y también hay más discusión sobre este problema en este sitio.
Fuentes:
Capítulo 3, Downey, Allen. Piense Bayes: Estadísticas Bayesianas en Python. "O'Reilly Media, Inc.", 2013.
Wikipedia
Ruggles, R .; Brodie, H. (1947). "Un enfoque empírico a la inteligencia económica en la Segunda Guerra Mundial". Revista de la Asociación Americana de Estadística. 42 (237): 72.
Höhle, Michael y Leonhard Held. Estimación bayesiana del tamaño de una población. No. 499. Documento de debate // Sonderforschungsbereich 386 der Ludwig-Maximilians-Universität München, 2006.
fuente
Hay una buena historia en Cressie & Wickle Statistics for Spatio-Temporal Data , Wiley, sobre la búsqueda (bayesiana) del USS Scorpion, un submarino que se perdió en 1968. Contamos esta historia a nuestros estudiantes y les hacemos realizar un ( simplificado) buscar usando un simulador .
Se podrían construir ejemplos similares en torno a la historia del vuelo perdido MH370; es posible que desee ver Davey et al., Métodos bayesianos en la búsqueda de MH370 , Springer-Verlag.
fuente
Aquí hay un ejemplo de estimación de una media, , a partir de datos continuos normales. Sin embargo, antes de profundizar directamente en un ejemplo, me gustaría revisar algunas de las matemáticas para los modelos de datos Bayesianos Normal-Normal.θ
Considere una muestra aleatoria de n valores continuos denotados por . Aquí el vector y = ( y 1 , . . . , Y n ) T representa los datos recogidos. El modelo de probabilidad para datos normales con varianza conocida y muestras independientes e idénticamente distribuidas (iid) esy1, . . . , ynorte y= ( y1, . . . , ynorte)T
O como más típicamente escrito por Bayesian,
La distribución posterior que obtenemos de este modelo de datos Normal-Normal (después de mucho álgebra) es otra distribución Normal.
La precisión posterior es y la media es una media ponderada entre una y ˉ y , bb + n τ una y¯ .sib + n τa + n τb + n τy¯
Dicho esto, ahora puede usar cualquier ejemplo de libro de texto de datos normales para ilustrar esto. Usaré el conjunto de datos
airquality
dentro de R. Considere el problema de estimar las velocidades promedio del viento (MPH).En este análisis, el investigador (usted) puede decir que, dados los datos + información previa, su estimación del viento promedio, usando el percentil 50, las velocidades deben ser 10.00324, mayor que simplemente usando el promedio de los datos. También obtiene una distribución completa, de la que puede extraer un intervalo creíble del 95% utilizando los cuantiles 2.5 y 97.5.
A continuación incluyo dos referencias, recomiendo leer el breve artículo de Casella. Está dirigido específicamente a los métodos empíricos de Bayes, pero explica la metodología general bayesiana para los modelos normales.
Referencias
Casella, G. (1985). Una introducción al análisis de datos empíricos de Bayes. El estadístico estadounidense, 39 (2), 83-87.
Gelman, A. (2004). Análisis de datos bayesianos (2ª ed., Textos en ciencia estadística). Boca Raton, Fla .: Chapman & Hall / CRC.
fuente
Un área de investigación en la que creo que los métodos bayesianos son absolutamente necesarios es el del diseño óptimo.
fuente
Estaba pensando en esta pregunta últimamente, y creo que tengo un ejemplo en el que el bayesiano tiene sentido, con el uso de una probabilidad previa: la razón de probabilidad de una prueba clínica.
El ejemplo podría ser este: la validez del portaobjetos de orina en condiciones de práctica diaria (Family Practice 2003; 20: 410-2). La idea es ver qué implica un resultado positivo del dipslide de orina en el diagnóstico de infección de orina. La razón de probabilidad del resultado positivo es:
Aquí la prueba es buena para detectar la infección, pero no tan buena para descartar la infección.
fuente