Interpretaciones bayesianas versus frecuentistas de probabilidad

37

¿Alguien puede dar un buen resumen de las diferencias entre el enfoque bayesiano y el frecuentista de la probabilidad?

Por lo que entiendo:

La opinión de los frecuentistas es que los datos son una muestra aleatoria repetible (variable aleatoria) con una frecuencia / probabilidad específica (que se define como la frecuencia relativa de un evento a medida que el número de ensayos se aproxima al infinito). Los parámetros y probabilidades subyacentes permanecen constantes durante este proceso repetible y que la variación se debe a la variabilidad en y no a la distribución de probabilidad (que se fija para un determinado evento / proceso).Xn

La visión bayesiana es que los datos son fijos mientras que la frecuencia / probabilidad de un determinado evento puede cambiar, lo que significa que los parámetros de la distribución cambian. En efecto, los datos que obtiene cambian la distribución previa de un parámetro que se actualiza para cada conjunto de datos.

Para mí, parece que el enfoque frecuentista es más práctico / lógico, ya que parece razonable que los eventos tengan una probabilidad específica y que la variación esté en nuestro muestreo.

Además, la mayoría de los análisis de datos de los estudios generalmente se realizan utilizando el enfoque frecuentista (es decir, intervalos de confianza, pruebas de hipótesis con valores p, etc.) ya que es fácilmente comprensible.

Me preguntaba si alguien podría darme un resumen rápido de su interpretación del enfoque bayesiano frente al frecuentista, incluidos los equivalentes estadísticos bayesianos del valor p frecuente y el intervalo de confianza. Además, se aprecian ejemplos específicos de donde 1 método sería preferible al otro.

BYS2
fuente
1
En algunos lugares, una mafia enojada lo atacará si dice que el enfoque frecuentista de la inferencia estadística es más práctico. (OK, tal vez hay alguna hipérbole en esa declaración). No estoy de acuerdo en que los intervalos de confianza sean más fáciles de entender que los intervalos de probabilidad posteriores. (De todos modos, vea mi respuesta a continuación. Creo que llega directamente a la esencia del asunto, aunque no hay matemáticas más allá de saber qué es ).1/2
Michael Hardy
@DilipSarwate ay, lo tendré en cuenta para la próxima vez. pero parece que obtuve algunas buenas respuestas esta vez, así que tal vez intente terminar aquí: D
BYS2

Respuestas:

27

En el enfoque frecuentista , se afirma que el único sentido en el que las probabilidades tienen significado es como el valor límite del número de éxitos en una secuencia de pruebas, es decir, como

p=limnkn

donde es el número de éxitos es el número de intentos. En particular, no tiene ningún sentido asociar una distribución de probabilidad con un parámetro .nkn

Por ejemplo, considere las muestras de la distribución de Bernoulli con el parámetro (es decir, tienen el valor 1 con probabilidad 0 con probabilidad ). Podemos definir la tasa de éxito de la muestra para que sea p p 1 - pX1,,Xnpp1p

p^=X1++Xnn

y hablar sobre la distribución de condicional en el valor de , pero no tiene sentido invertir la pregunta y comenzar a hablar sobre la distribución de probabilidad de condicional en el valor observado de . En particular, esto significa que cuando calculamos un intervalo de confianza, interpretamos los extremos del intervalo de confianza como variables aleatorias, y hablamos de "la probabilidad de que el intervalo incluya el parámetro verdadero", en lugar de "la probabilidad de que el parámetro sea dentro del intervalo de confianza ". pp pp^ppp^

En el enfoque bayesiano , interpretamos las distribuciones de probabilidad como cuantificando nuestra incertidumbre sobre el mundo. En particular, esto significa que ahora podemos hablar significativamente sobre las distribuciones de probabilidad de los parámetros, ya que aunque el parámetro es fijo, nuestro conocimiento de su verdadero valor puede ser limitado. En el ejemplo anterior, podemos invertir la distribución de probabilidad usando la ley de Bayes, para darf(p^p)

f(pp^)posterior=f(p^p)f(p^)likelihood ratiof(p)prior

El inconveniente es que tenemos que introducir la distribución previa en nuestro análisis; esto refleja nuestra creencia sobre el valor de antes de ver los valores reales de . El papel del prior a menudo se critica en el enfoque frecuentista, ya que se argumenta que introduce la subjetividad en el mundo de probabilidad, por lo demás austero y objetivo.X ipXi

En el enfoque bayesiano, ya no se habla de intervalos de confianza, sino que en lugar de intervalos creíbles, que tienen una interpretación más natural: dado un intervalo creíble del 95%, podemos asignar una probabilidad del 95% de que el parámetro esté dentro del intervalo.

Chris Taylor
fuente
66
Por otro lado, una crítica del enfoque frecuentista es que no cuadra con la forma en que la gente piensa acerca de la probabilidad. Considere cómo la gente habla sobre la "probabilidad" de eventos únicos como la extinción de los dinosaurios, o la "probabilidad" de "certezas" como el amanecer del mañana ...
14
También podría ser bueno mencionar que la brecha entre los enfoques frecuentista y bayesiano no es tan grande a nivel práctico: cualquier método frecuentista que produzca resultados útiles y autoconsistentes generalmente puede recibir una interpretación bayesiana, y viceversa . En particular, la refundición de un cálculo frecuentista en términos bayesianos generalmente produce una regla para calcular el posterior dado algún previo específico . Entonces se puede preguntar "Bueno, ¿es eso realmente razonable asumirlo antes?"
Ilmari Karonen
Gracias por esta respuesta, está en línea con mi comprensión general. Sin embargo, me preguntaba si podría aclarar una cosa, ¿cómo encontraría la probabilidad de la tasa de éxito de datos / muestra (f (p-hat)) en la fórmula de la ley de Baye? He leído algunos ejemplos trabajados y generalmente entiendo cómo derivar f (p-hat | p) y la anterior f (p) pero f (p-hat) me elude hasta ahora. Si tuviera algunos enlaces a algunos recursos, sería fantástico: D. ¡Gracias!
BYS2
@IlmariKaronen. Bien, ¿está diciendo que si tuviera un estudio que produjera ciertos resultados expresados ​​como intervalos de confianza, podría cambiar los datos y hacer un análisis bayesiano? y los resultados serían más o menos consistentes?
BYS2
Lo que dice @Karonen no es del todo exacto. Las dos técnicas frecuentistas más comunes son las estimaciones puntuales (por lo general, la estimación de máxima verosimilitud) y las pruebas de hipótesis, y ninguna de ellas puede realmente recibir una interpretación bayesiana natural.
Jules
20

Tiene razón acerca de su interpretación de la probabilidad frecuente: la aleatoriedad en esta configuración se debe simplemente a un muestreo incompleto. Desde el punto de vista bayesiano, las probabilidades son "subjetivas", ya que reflejan la incertidumbre de un agente sobre el mundo. No es correcto decir que los parámetros de las distribuciones "cambian". Como no tenemos información completa sobre los parámetros, nuestra incertidumbre sobre ellos cambia a medida que recopilamos más información.

Ambas interpretaciones son útiles en aplicaciones, y lo que es más útil depende de la situación. Puede consultar el blog de Andrew Gelman para obtener ideas sobre aplicaciones bayesianas. En muchas situaciones, lo que los bayesianos llaman "prioristas", los frequentistas lo llaman "regularización", por lo que (desde mi punto de vista) la emoción puede salir de la habitación con bastante rapidez. De hecho, de acuerdo con el teorema de Bernstein-von Mises, la inferencia bayesiana y frequentista son en realidad asintóticamente equivalentes bajo supuestos bastante débiles (aunque notablemente el teorema falla para distribuciones de dimensiones infinitas). Puede encontrar una gran cantidad de referencias sobre esto aquí .

Dado que solicitó interpretaciones: creo que el punto de vista frequentista tiene mucho sentido al modelar experimentos científicos para lo que fue diseñado. Para algunas aplicaciones en el aprendizaje automático o para modelar el razonamiento inductivo (o el aprendizaje), la probabilidad bayesiana tiene más sentido para mí. Hay muchas situaciones en las que modelar un evento con una probabilidad "verdadera" fija parece inverosímil.

Para un ejemplo de juguete que regresa a Laplace , considere la probabilidad de que salga el sol mañana. Desde la perspectiva frequentista, tenemos que plantear algo así como infinitos universos para definir la probabilidad. Como bayesianos, solo hay un universo (o al menos, no es necesario que haya muchos). Nuestra incertidumbre sobre la salida del sol es aplacada por nuestra muy, muy fuerte creencia previa de que volverá a salir mañana.


fuente
17

La interpretación bayesiana de la probabilidad es una interpretación de grado de creencia.

Un bayesiano puede decir que la probabilidad de que hubiera vida en Marte hace mil millones de años es .1/2

Un frecuentista se negará a asignar una probabilidad a esa proposición. No es algo que pueda decirse que es cierto en la mitad de todos los casos, por lo que no se puede asignar la probabilidad .1/2

Michael Hardy
fuente
2
Probablemente no haya un mejor lugar para reflexionar sobre las limitaciones del enfoque frecuentista más estrecho frente a la generalidad del enfoque bayesiano (extensión de la lógica) que el artículo clásico de RT Cox.
gwr
2
Cox también escribió un libro sobre esto, titulado Algebra of Probable Inference , publicado por Johns Hopkins. @gwr
Michael Hardy
1
Ian Hacking lo dijo bien en su libro "Introducción a la probabilidad y la lógica inductiva". Él dijo: "El Bayesiano es capaz de adjuntar probabilidades personales, o grados de creencia, a proposiciones individuales. El dogmático de frecuencia de línea dura piensa que las probabilidades solo pueden vincularse a una serie de eventos".
Botones840
9

Chris da una buena explicación simplista que diferencia adecuadamente los dos enfoques de probabilidad. Pero la teoría de la probabilidad frecuentista es más que solo mirar la proporción de éxitos a largo plazo. También consideramos los datos muestreados al azar a partir de una distribución y estimamos parámetros de la distribución, como la media y la varianza, tomando ciertos tipos de promedios de los datos (por ejemplo, para la media es el promedio aritmético de las observaciones. La teoría frequentista asocia una probabilidad con la estimación que se llama distribución de muestreo.

En la teoría de frecuencias, podemos mostrar parámetros como la media que se toman promediando de las muestras que la estimación convergerá al parámetro verdadero. La distribución de muestreo se usa para describir qué tan cerca está la estimación del parámetro para cualquier tamaño de muestra fijo n. Cerrar se define por una medida de precisión (por ejemplo, error cuadrático medio).

Cuando Chris señala cualquier parámetro, como la media, el Bayesiano le asigna una distribución de probabilidad previa. Luego, dada la información, la regla de Bayes se usa para calcular una distribución posterior del parámetro. Para los bayesianos, toda inferencia sobre el parámetro se basa en esta distribución posterior.

Los frecuentes construyen intervalos de confianza que son intervalos de valores plausibles para el parámetro. Su construcción se basa en la probabilidad frecuentista de que si el proceso utilizado para generar el intervalo se repitiera muchas veces para muestras independientes, la proporción de intervalos que realmente incluiría el valor verdadero del parámetro sería al menos un nivel de confianza previamente especificado (por ejemplo, 95% )

Los bayesianos usan la distribución a posteriori del parámetro para construir regiones creíbles. Estas son simplemente regiones en el espacio de parámetros sobre las cuales se integra la distribución posterior para obtener una probabilidad previamente especificada (por ejemplo, 0,95). Los bayesianos interpretan las regiones creíbles como regiones que tienen una alta probabilidad (por ejemplo, la 0.95 preespecificada) de incluir el verdadero valor del parámetro.

Michael R. Chernick
fuente
1
Los bayesianos interpretan las regiones creíbles como regiones que tienen una alta probabilidad (por ejemplo, la 0.95 preespecificada) de incluir el verdadero valor del parámetro . ¿Cómo es esto posible si el parámetro es una variable aleatoria?
@Procrastinator De acuerdo, tal vez preferirías que diga que cubre una alta proporción preestablecida de la distribución de parámetros. Pero si X es una variable aleatoria con una distribución f y construimos una región creíble para ella, entonces la región representa la probabilidad de que una realización de la variable aleatoria se encuentre en la región.
Michael R. Chernick
Estoy de acuerdo con esta explicación Es importante aclarar que una realización de la variable aleatoria no es el verdadero valor del parámetro.
@Procrastinator ese es un punto interesante que planteas. Sin embargo, mi comprensión de la probabilidad bayesiana es que muchos bayesianos están de acuerdo con los estadísticos clásicos de que hay un solo valor VERDADERO del parámetro en cuestión (es fijo pero desconocido). Es la incertidumbre acerca de este parámetro que se distribuye debido a nuestro imperfecto estado de conocimiento. Entonces, si lo piensas de esta manera, entonces la declaración inicial de Michael Chernick es válida, ¿no crees?
BYS2
2
@MichaelChernick Creo que hay una mala interpretación de lo que significa una región de credibilidad bayesiana. Suponga que el valor verdadero del parámetro es y elige un uniforme antes . Por lo tanto, ningún intervalo de credibilidad contendría el verdadero valor del parámetro, contradiciendo su razonamiento. ( 1 , 100 )θ0=1(1,100)
2

Desde el punto de vista del "mundo real", encuentro una diferencia importante entre un frecuentista y una "solución" clásica o bayesiana que se aplica al menos a tres escenarios principales. La diferencia en la selección de una metodología depende de si necesita una solución que se vea afectada por la probabilidad de la población, o una que se vea afectada por la probabilidad individual. Ejemplos a continuación:

  1. Si existe una probabilidad conocida del 5% de que los hombres mayores de 40 años mueran en un año determinado y requieran pagos de seguro de vida, una compañía de seguros puede usar el porcentaje de POBLACIÓN del 5% para estimar sus costos, pero para decir que cada hombre individual mayor de 40 años solo tiene una probabilidad del 5% de morir ... no tiene sentido ... Porque el 5% tiene una probabilidad del 100% de morir, lo cual es un enfoque frecuente. A nivel individual, el evento se produce (100% de probabilidad) o no (0% de probabilidad). Sin embargo, en base a esta información limitada, no es posible predecir las personas que tienen un 100% de probabilidad de morir, y el 5 El% de probabilidad de población "promedio" es inútil a nivel individual.

  2. El argumento anterior se aplica igualmente a los incendios en edificios, razón por la cual se requieren rociadores en todos los edificios de una población.

  3. Los dos argumentos anteriores se aplican igualmente a los sistemas de información, los ajustes, daños o "hacks". Los porcentajes de población son inútiles, por lo que todos los sistemas deben protegerse.

James J Finn
fuente
2
No reconozco un enfoque frecuentista en ninguno de estos tres casos. Todos parecen depender de un concepto retrospectivo, y por lo tanto inútil, de probabilidad que no se usa en los modelos clásicos. Por ejemplo, la afirmación de que "el evento ocurre ... o no ocurre" es trivialmente cierto pero no está relacionado con las probabilidades.
whuber
0

La elección de la interpretación depende de la pregunta. Si desea conocer las probabilidades en un juego de azar, la interpretación clásica resolverá su problema, pero los datos estadísticos son inútiles ya que los dados justos no tienen memoria.

Si desea predecir un evento futuro basado en la experiencia pasada, la interpretación frecuenta es correcta y suficiente.

Si no sabe si ocurrió un evento pasado y desea evaluar la probabilidad de que ocurriera, debe tomar sus creencias anteriores, es decir, lo que ya sabe sobre la posibilidad de que ocurra el evento y actualizar su creencia cuando adquiera nuevos datos.

Dado que la pregunta es sobre un grado de creencia, y cada persona puede tener una idea diferente sobre los antecedentes, la interpretación es necesariamente subjetiva, también conocida como bayesiana.

Aviel Roy-Shapira
fuente