¿Alguien puede dar un buen resumen de las diferencias entre el enfoque bayesiano y el frecuentista de la probabilidad?
Por lo que entiendo:
La opinión de los frecuentistas es que los datos son una muestra aleatoria repetible (variable aleatoria) con una frecuencia / probabilidad específica (que se define como la frecuencia relativa de un evento a medida que el número de ensayos se aproxima al infinito). Los parámetros y probabilidades subyacentes permanecen constantes durante este proceso repetible y que la variación se debe a la variabilidad en y no a la distribución de probabilidad (que se fija para un determinado evento / proceso).
La visión bayesiana es que los datos son fijos mientras que la frecuencia / probabilidad de un determinado evento puede cambiar, lo que significa que los parámetros de la distribución cambian. En efecto, los datos que obtiene cambian la distribución previa de un parámetro que se actualiza para cada conjunto de datos.
Para mí, parece que el enfoque frecuentista es más práctico / lógico, ya que parece razonable que los eventos tengan una probabilidad específica y que la variación esté en nuestro muestreo.
Además, la mayoría de los análisis de datos de los estudios generalmente se realizan utilizando el enfoque frecuentista (es decir, intervalos de confianza, pruebas de hipótesis con valores p, etc.) ya que es fácilmente comprensible.
Me preguntaba si alguien podría darme un resumen rápido de su interpretación del enfoque bayesiano frente al frecuentista, incluidos los equivalentes estadísticos bayesianos del valor p frecuente y el intervalo de confianza. Además, se aprecian ejemplos específicos de donde 1 método sería preferible al otro.
Respuestas:
En el enfoque frecuentista , se afirma que el único sentido en el que las probabilidades tienen significado es como el valor límite del número de éxitos en una secuencia de pruebas, es decir, como
donde es el número de éxitos es el número de intentos. En particular, no tiene ningún sentido asociar una distribución de probabilidad con un parámetro .nk norte
Por ejemplo, considere las muestras de la distribución de Bernoulli con el parámetro (es decir, tienen el valor 1 con probabilidad 0 con probabilidad ). Podemos definir la tasa de éxito de la muestra para que sea p p 1 - pX1, ... , Xnorte pags pags 1 - p
y hablar sobre la distribución de condicional en el valor de , pero no tiene sentido invertir la pregunta y comenzar a hablar sobre la distribución de probabilidad de condicional en el valor observado de . En particular, esto significa que cuando calculamos un intervalo de confianza, interpretamos los extremos del intervalo de confianza como variables aleatorias, y hablamos de "la probabilidad de que el intervalo incluya el parámetro verdadero", en lugar de "la probabilidad de que el parámetro sea dentro del intervalo de confianza ". pp ppags^ pags pags pags^
En el enfoque bayesiano , interpretamos las distribuciones de probabilidad como cuantificando nuestra incertidumbre sobre el mundo. En particular, esto significa que ahora podemos hablar significativamente sobre las distribuciones de probabilidad de los parámetros, ya que aunque el parámetro es fijo, nuestro conocimiento de su verdadero valor puede ser limitado. En el ejemplo anterior, podemos invertir la distribución de probabilidad usando la ley de Bayes, para darF( p^∣ p )
El inconveniente es que tenemos que introducir la distribución previa en nuestro análisis; esto refleja nuestra creencia sobre el valor de antes de ver los valores reales de . El papel del prior a menudo se critica en el enfoque frecuentista, ya que se argumenta que introduce la subjetividad en el mundo de probabilidad, por lo demás austero y objetivo.X ipags Xyo
En el enfoque bayesiano, ya no se habla de intervalos de confianza, sino que en lugar de intervalos creíbles, que tienen una interpretación más natural: dado un intervalo creíble del 95%, podemos asignar una probabilidad del 95% de que el parámetro esté dentro del intervalo.
fuente
Tiene razón acerca de su interpretación de la probabilidad frecuente: la aleatoriedad en esta configuración se debe simplemente a un muestreo incompleto. Desde el punto de vista bayesiano, las probabilidades son "subjetivas", ya que reflejan la incertidumbre de un agente sobre el mundo. No es correcto decir que los parámetros de las distribuciones "cambian". Como no tenemos información completa sobre los parámetros, nuestra incertidumbre sobre ellos cambia a medida que recopilamos más información.
Ambas interpretaciones son útiles en aplicaciones, y lo que es más útil depende de la situación. Puede consultar el blog de Andrew Gelman para obtener ideas sobre aplicaciones bayesianas. En muchas situaciones, lo que los bayesianos llaman "prioristas", los frequentistas lo llaman "regularización", por lo que (desde mi punto de vista) la emoción puede salir de la habitación con bastante rapidez. De hecho, de acuerdo con el teorema de Bernstein-von Mises, la inferencia bayesiana y frequentista son en realidad asintóticamente equivalentes bajo supuestos bastante débiles (aunque notablemente el teorema falla para distribuciones de dimensiones infinitas). Puede encontrar una gran cantidad de referencias sobre esto aquí .
Dado que solicitó interpretaciones: creo que el punto de vista frequentista tiene mucho sentido al modelar experimentos científicos para lo que fue diseñado. Para algunas aplicaciones en el aprendizaje automático o para modelar el razonamiento inductivo (o el aprendizaje), la probabilidad bayesiana tiene más sentido para mí. Hay muchas situaciones en las que modelar un evento con una probabilidad "verdadera" fija parece inverosímil.
Para un ejemplo de juguete que regresa a Laplace , considere la probabilidad de que salga el sol mañana. Desde la perspectiva frequentista, tenemos que plantear algo así como infinitos universos para definir la probabilidad. Como bayesianos, solo hay un universo (o al menos, no es necesario que haya muchos). Nuestra incertidumbre sobre la salida del sol es aplacada por nuestra muy, muy fuerte creencia previa de que volverá a salir mañana.
fuente
La interpretación bayesiana de la probabilidad es una interpretación de grado de creencia.
Un bayesiano puede decir que la probabilidad de que hubiera vida en Marte hace mil millones de años es .1 / 2
Un frecuentista se negará a asignar una probabilidad a esa proposición. No es algo que pueda decirse que es cierto en la mitad de todos los casos, por lo que no se puede asignar la probabilidad .1 / 2
fuente
Chris da una buena explicación simplista que diferencia adecuadamente los dos enfoques de probabilidad. Pero la teoría de la probabilidad frecuentista es más que solo mirar la proporción de éxitos a largo plazo. También consideramos los datos muestreados al azar a partir de una distribución y estimamos parámetros de la distribución, como la media y la varianza, tomando ciertos tipos de promedios de los datos (por ejemplo, para la media es el promedio aritmético de las observaciones. La teoría frequentista asocia una probabilidad con la estimación que se llama distribución de muestreo.
En la teoría de frecuencias, podemos mostrar parámetros como la media que se toman promediando de las muestras que la estimación convergerá al parámetro verdadero. La distribución de muestreo se usa para describir qué tan cerca está la estimación del parámetro para cualquier tamaño de muestra fijo n. Cerrar se define por una medida de precisión (por ejemplo, error cuadrático medio).
Cuando Chris señala cualquier parámetro, como la media, el Bayesiano le asigna una distribución de probabilidad previa. Luego, dada la información, la regla de Bayes se usa para calcular una distribución posterior del parámetro. Para los bayesianos, toda inferencia sobre el parámetro se basa en esta distribución posterior.
Los frecuentes construyen intervalos de confianza que son intervalos de valores plausibles para el parámetro. Su construcción se basa en la probabilidad frecuentista de que si el proceso utilizado para generar el intervalo se repitiera muchas veces para muestras independientes, la proporción de intervalos que realmente incluiría el valor verdadero del parámetro sería al menos un nivel de confianza previamente especificado (por ejemplo, 95% )
Los bayesianos usan la distribución a posteriori del parámetro para construir regiones creíbles. Estas son simplemente regiones en el espacio de parámetros sobre las cuales se integra la distribución posterior para obtener una probabilidad previamente especificada (por ejemplo, 0,95). Los bayesianos interpretan las regiones creíbles como regiones que tienen una alta probabilidad (por ejemplo, la 0.95 preespecificada) de incluir el verdadero valor del parámetro.
fuente
Desde el punto de vista del "mundo real", encuentro una diferencia importante entre un frecuentista y una "solución" clásica o bayesiana que se aplica al menos a tres escenarios principales. La diferencia en la selección de una metodología depende de si necesita una solución que se vea afectada por la probabilidad de la población, o una que se vea afectada por la probabilidad individual. Ejemplos a continuación:
Si existe una probabilidad conocida del 5% de que los hombres mayores de 40 años mueran en un año determinado y requieran pagos de seguro de vida, una compañía de seguros puede usar el porcentaje de POBLACIÓN del 5% para estimar sus costos, pero para decir que cada hombre individual mayor de 40 años solo tiene una probabilidad del 5% de morir ... no tiene sentido ... Porque el 5% tiene una probabilidad del 100% de morir, lo cual es un enfoque frecuente. A nivel individual, el evento se produce (100% de probabilidad) o no (0% de probabilidad). Sin embargo, en base a esta información limitada, no es posible predecir las personas que tienen un 100% de probabilidad de morir, y el 5 El% de probabilidad de población "promedio" es inútil a nivel individual.
El argumento anterior se aplica igualmente a los incendios en edificios, razón por la cual se requieren rociadores en todos los edificios de una población.
Los dos argumentos anteriores se aplican igualmente a los sistemas de información, los ajustes, daños o "hacks". Los porcentajes de población son inútiles, por lo que todos los sistemas deben protegerse.
fuente
La elección de la interpretación depende de la pregunta. Si desea conocer las probabilidades en un juego de azar, la interpretación clásica resolverá su problema, pero los datos estadísticos son inútiles ya que los dados justos no tienen memoria.
Si desea predecir un evento futuro basado en la experiencia pasada, la interpretación frecuenta es correcta y suficiente.
Si no sabe si ocurrió un evento pasado y desea evaluar la probabilidad de que ocurriera, debe tomar sus creencias anteriores, es decir, lo que ya sabe sobre la posibilidad de que ocurra el evento y actualizar su creencia cuando adquiera nuevos datos.
Dado que la pregunta es sobre un grado de creencia, y cada persona puede tener una idea diferente sobre los antecedentes, la interpretación es necesariamente subjetiva, también conocida como bayesiana.
fuente