¿Cómo definen exactamente (o interpretan) los bayesianos la probabilidad?

Parte de una serie de intentos de entender Bayesiano vs Frecuente: 1 2 3 4 5 6 7

Creo que obtengo la diferencia de cómo los bayesianos y los frecuentistas abordan la elección entre hipótesis , pero no estoy muy seguro de si eso o cómo se supone que me explique cómo ven la probabilidad.

Por lo que entiendo, según Wiki , un frecuentista "define" la probabilidad de la siguiente manera:

Dado el espacio de probabilidad , , , donde es el número de ensayos realizados y es el número de veces que A ha ocurrido en esos ensayos. $(\Omega, \mathscr{F}, \mathbb{P})$ $\forall A \in \mathscr{F}$ $\mathbb{P}(A) \approx \frac{n_A}{n_t}$ $n_t$ $n_A$

Además, . $\mathbb{P}(A) = \lim_{n_t \to \infty} \frac{n_A}{n_t}$

Bien, entonces, ¿cómo definen los bayesianos la probabilidad? Lo anterior parece ser un enfoque para calcular la probabilidad de un evento además de definir una probabilidad.

Los bayesianos parecen asumir una probabilidad previa, realizar algunas pruebas y luego actualizar su probabilidad, pero eso realmente no parece explicar cómo definen qué es la probabilidad.

Wiki dice 'La probabilidad bayesiana es una cantidad que asignamos con el propósito de representar un estado de conocimiento o un estado de creencia'.

¿Qué significa eso exactamente? ¿Estado es sinónimo de grado? Por ejemplo, el estado de creencia de Walter de que una moneda en particular es justa se representa con el número 0.1, mientras que el estado de creencia de Jesse de que la misma moneda es justa se representa con el número 0.2. Dada nueva información, el estado de creencia de Walter podría convertirse en 0,96, mientras que el estado de creencia de Jesse podría convertirse en 0,03. Entonces, inicialmente, ¿Walter estaba menos inclinado a creer que la moneda es justa, pero más tarde Jesse estaba más inclinado a creer que la moneda es justa?

Espero algo en términos de símbolos como el frecuentista anterior.

La misma página Wiki dice: "La interpretación bayesiana de la probabilidad puede verse como una extensión de la lógica proposicional que permite razonar con hipótesis, es decir, las proposiciones cuya verdad o falsedad es incierta", parece que la probabilidad bayesiana y frecuentista es análoga a difusa y Lógica booleana, respectivamente.

probability bayesian frequentist definition philosophical BCLC
fuente

Tanto los frecuentistas como los bayesianos usan la misma definición de probabilidad, es decir, la que se basa en los axiomas de probabilidad de Kolmogorov, es decir, la probabilidad como medida finita. La diferencia entre bayesianos y frecuentistas no está relacionada con la definición de probabilidad, sino con la forma en que vinculan este concepto con los datos.

Michael M

@MichaelM ¿Debería haber dicho 'interpretar' en lugar de 'definir'?

BCLC

@BCLC, le felicité por su pregunta, pero después de no tener una respuesta completamente clara, encontré muy útil la primera entrada en la columna "Relacionado".

Antoni Parellada

@AntoniParellada Gracias. ¿Te refieres a esto? . Visto. No sé qué 'En el enfoque bayesiano, interpretamos las distribuciones de probabilidad como cuantificando nuestra incertidumbre sobre el mundo. 'significa de ahí esta pregunta. ¿O quieres decir esto? ¿Cómo ayuda esto a responder mi pregunta?

BCLC

@MichaelM: Pero mira ¿Los bayesianos aceptan los axiomas de Kolmogorov? .

Scortchi - Restablece a Monica

Respuestas:

Creo que la mayoría de los 'frecuentistas' y 'bayesianos' definirían rigurosamente la probabilidad de la misma manera: a través de los axiomas de Kolmogorov y la teoría de la medición, modulamos algunos problemas sobre la aditividad finita frente a la contable , dependiendo de con quién estés hablando. Entonces, en términos de 'símbolos', creo que probablemente encontrarás más o menos la misma definición en todos los ámbitos. Todos están de acuerdo en cómo se comportan las probabilidades .

Yo diría que la diferencia principal está en la interpretación de qué son las probabilidades . Mi interpretación preferida (militante bayesiana irónica) es que las probabilidades son representaciones coherentes de información sobre eventos .

'Coherente' aquí tiene un significado técnico: significa que si represento mi información sobre el mundo en términos de probabilidades y luego uso esas probabilidades para evaluar mis apuestas sobre la ocurrencia o no de un evento determinado, estoy seguro de que no puedo ser hecho un perdedor seguro por los agentes que apuestan en mi contra.

Tenga en cuenta que esto no implica la noción de "frecuencia relativa a largo plazo"; de hecho, puedo representar coherentemente mi información sobre un evento único, como el sol que explota mañana, a través del lenguaje de probabilidad. Por otro lado, parece más difícil (o posiblemente menos natural) hablar sobre el evento "el sol explotará mañana" en términos de frecuencia relativa a largo plazo.

Para profundizar en esta pregunta, lo remito al primer capítulo de los excelentes (y gratuitos) Principios de incertidumbre de Jay Kadane .

ACTUALIZACIÓN : Escribí una publicación de blog relativamente informal que ilustra la coherencia.

jtobin
fuente

"Si es miembro del público en general: el hecho de que esté viendo esta página indica que el sitio web que acaba de visitar está experimentando problemas o está en mantenimiento de rutina". -> Quizás más tarde entonces. Gracias

BCLC

@BCLC ¿Es eso para el enlace PoU? Me esta funcionando.

jtobin

(+1) Exposición muy clara. @BCLC: Ver Savage (1954), The Foundations of Statistics para un enfoque axiomático. La esencia es que si desea representar el grado de creencia e insistir en la comparabilidad (para cualquier declaración y , puede decir que cree una más que la otra, o ambas por igual) y la coherencia (como se explicó anteriormente), resulta que tiene que usar una probabilidad, es decir, un número real subjetivo a los axiomas de Kolmogorov (barra uno, tal vez).

A

$A$

B

$B$

Scortchi - Restablece a Monica

Estoy seguro de que hay una buena explicación sobre cómo las probabilidades bayesianas no permiten los libros holandeses, pero no veo de inmediato la conexión, así que tengo problemas para decir que esta es una explicación clara de cómo los bayesianos ven la probabilidad. Y además, si la información que un agente ha apostado en su contra es asimétrica, ¿entonces debe poder convertirse en un perdedor seguro? Tal vez esa pregunta implica lo que no entiendo ...

Cliff AB

Como ya han señalado otros, no existe una definición bayesiana específica de probabilidad. Solo hay una forma de definir la probabilidad, es decir, es un número real asignado a algún evento por una medida de probabilidad, que sigue los axiomas de la probabilidad . Si hubiera diferentes definiciones de probabilidad, no podríamos usarlo de manera consistente, ya que diferentes personas entenderían diferentes cosas detrás de esto.

Si bien solo hay una forma de definirlo , existen varias formas de interpretar la probabilidad. La probabilidad es un concepto matemático , no relacionado de ninguna manera con el mundo real (citando a Finetti, "la probabilidad no existe"). Para aplicarlo al mundo real, necesitamos traducir o interpretar las matemáticas en acontecimientos del mundo real. Existen múltiples formas diferentes de interpretar la probabilidad, incluso diferentes interpretaciones entre los bayesianos (consulte las Interpretaciones de probabilidad en la Enciclopedia de filosofía de Stanford para una revisión). El que se asocia más comúnmente con las estadísticas bayesianas es la visión subjetivista , también conocida como probabilidad personalista .

Desde el punto de vista subjetivista, la probabilidad es un grado de creencia o grado de confirmación . Mide cuánto alguien considera algo creíble. Se puede analizar u observar con mayor claridad en términos de comportamiento de apuestas (de Finetti, 1937; ver también Savage, 1976; Kemeny, 1955):

Supongamos que un individuo está obligado a evaluar la tasa a la que estaría listo para intercambiar la posesión de una suma arbitraria (positiva o negativa) dependiente de la ocurrencia de un evento dado , para la posesión de la suma ; diremos por definición que este número es la medida del grado de probabilidad atribuido por el individuo considerado al evento , o, más simplemente, que es la probabilidad de (según el individuo considerado; esta especificación puede ser implícito si no hay ambigüedad). $p$ $S$ $E$ $pS$ $p$ $E$ $p$ $E$

Apostar es una de las situaciones en las que uno necesita cuantificar cuán "probable" cree que sea algo y la medida de tal creencia es claramente una probabilidad. Traducir tal creencia a números, al menos a medida de creencia, es decir, probabilidad.

Bruno de Finetti, una de las figuras más importantes entre los subjetivistas, advierte que la visión subjetivista es coherente con los axiomas de probabilidad y que debe seguirlos:

Si solo reconocemos, primero que un evento incierto solo nos puede parecer (a) igualmente probable, (b) más probable o (c) menos probable que otro; segundo, que un evento incierto siempre nos parece más probable que un evento imposible y menos probable que un evento necesario; y finalmente, tercero, que cuando juzgamos un evento más probable que el evento , que en sí mismo es más probable que un evento , entonces el evento solo puede parecer más probable que $E'$ $E$ $E''$ $E'$ $E''$ (propiedad transitiva), bastará agregar tres axiomas evidentemente triviales, un cuarto, de naturaleza puramente cualitativa, para construir rigurosamente toda la teoría de la probabilidad. El cuarto axioma nos dice que las desigualdades se conservan en sumas lógicas: si es incompatible con y con , entonces será más o menos probable que , o serán igualmente probables, según donde sea es más o menos probable que , o son igualmente probables. De manera más general, se puede deducir de esto que dos desigualdades, como $E$ $E_1$ $E_2$ $E_1 \lor E$ $E_2 \lor E$ $E_1$ $E_2$

$E_{1} is more probable then E_{2}, E_{1}^{'} is moreprobable then E_{2}^{'},$ $E_1 \text{ is more probable then } E_2,\\ E_1' \text{ is more probable then } E_2',$

se puede agregar para dar

$E_{1} \lor E_{1}^{'} is more probable then E_{2} \lor E_{2}^{'}$ $E_1 \lor E_1' \text{ is more probable then } E_2 \lor E_2'$

siempre que los eventos agregados sean incompatibles entre sí ( con , con ). $E_1$ $E_1'$ $E_2$ $E_2'$

Múltiples autores señalan puntos similares, como Kemeny (1955) o Savage (1972), quienes, como De Finetti, establecen conexiones entre los axiomas y la visión subjetivista de la probabilidad. También muestran que dicha medida de creencia debe ser coherente con los axiomas de probabilidad (por lo tanto, si parece una probabilidad y grazna como una probabilidad ...). Además, Cox (1946) muestra que la probabilidad puede considerarse como una extensión de la lógica formal que va más allá de lo verdadero y lo falso binario, permitiendo incertidumbres.

Como puede ver, esto no tiene nada que ver con las frecuencias. Por supuesto, si observa que los fumadores de nicotina mueren de cáncer con más frecuencia que los no fumadores, racionalmente supondría que esa muerte es más creíble para un fumador, por lo que la interpretación de la frecuencia no contradice la visión subjetivista. Lo que hace que esta interpretación sea atractiva es que se puede aplicar también a casos que no tienen nada que ver con las frecuencias (por ejemplo, la probabilidad de que Donald Trump gane las elecciones presidenciales de 2016 en EE. UU., La probabilidad de que haya otras formas de vida inteligentes en algún lugar del espacio además de nosotros, etc. ) Al adoptar una visión subjetivista, puede considerar tales casos de manera probabilística y construir modelos estadísticos de tales escenarios (ver ejemplo de pronóstico de elecciones por FiveThirtyEight, eso es consistente con pensar en la probabilidad como medida del grado de creencia basado en la evidencia disponible). Esto hace que dicha interpretación sea muy amplia (algunos dicen que es demasiado amplia), por lo que podemos adaptar de manera flexible el pensamiento probabilístico a diferentes problemas. Sí, es subjetivo, pero de Finetti (1931) advierte que, dado que la definición frecuentista se basa en múltiples supuestos poco realistas, no lo hace una interpretación más "racional".

de Finetti, B. (1937/1980). La Prévision: Ses Lois Logiques, Ses Sources Subjetivos. [ Previsión. Sus leyes lógicas, sus fuentes subjetivas. ] Annales de l'Institut Henri Poincaré, 7, 1-68.

Kemeny, J. (1955). Apuestas justas y probabilidades inductivas. Journal of Symbolic Logic, 20, 263-273.

Salvaje, LJ (1972). Los fundamentos de la estadística . Dover

Cox, RT (1946). Probabilidad, frecuencia y expectativa razonable. Revista estadounidense de física, 14 (1), 1-13.

de Finetti, B. (1931/1989). "Probabilismo: un ensayo crítico sobre la teoría de la probabilidad y sobre el valor de la ciencia". Erkenntnis, 31, 169-223.

Tim
fuente

+1 Muy buena respuesta (de alguna manera no la vi antes), y las referencias son buenas.

ameba

Trataré de ser increíblemente claro con mi terminología. Como lo hizo, nos centraremos en una moneda, , entonces . $X \sim Bernoulli(p)$ $Pr(X=1) = p$

Tanto los bayesianos como los frecuentistas ven como una variable aleatoria y comparten los mismos puntos de vista sobre la distribución de probabilidad . Sin embargo, los bayesianos también usan distribuciones de probabilidad para modelar su incertidumbre sobre un parámetro fijo, en este caso . $X$ $Pr(X)$ $p$

Si ahora dejamos y definimos , como usted señaló $x_1, x_2, \dots \sim Bernoulli(p)$ $h_n = \sum_{i=1}^n x_i$

lim_{n \to \infty} \frac{h_{n}}{n} = p .

$\lim_{n\rightarrow \infty} \frac{h_n}{n}= p.$

Esto es relevante porque es el MLE para . Sin embargo, tenga en cuenta que para cualquier número positivo (de hecho, ni siquiera necesitan ser positivos): $h_n/n$ $p$ $a,b$

lim_{n \to \infty} \frac{h_{n} + a}{n + a + b} = p .

$\lim_{n\rightarrow \infty} \frac{h_n+a}{n+a+b}= p.$

Una desventaja del estimador es que para pequeña esto puede ser una locura. El ejemplo más extremo de esto es cuando , nuestra estimación de será o . ¿Qué pasa si establecemos y usamos la segunda estimación? Si obtenemos un en la primera vuelta, nuestra estimación actualizada es , mayor que pero no tan extrema como . $h_n/n$ $n$ $n = 1$ $p$ $0$ $1$ $a=b=5$ $1$ $6/11$ $50\%$ $1$

Esta estimación más restringida puede derivarse fácilmente al expresar nuestra incertidumbre sobre en forma de una distribución previa (y eventualmente posterior). Si desea buscar este ejemplo en profundidad, esto se conoce como Beta-Binomial . Implica poner un Beta antes en el parámetro de una Distribución Binomial, y tomar la expectativa del posterior resultante. $p$

jlimahaverford
fuente

Entonces, ¿los bayesianos interpretan la probabilidad como el límite de un MLE? Además, ¿esa primera declaración de límite se debe a y una de las leyes de los números grandes ?

E (X) = P (X = 1) = p

$E(X) = P(X=1) = p$

BCLC

Esto no responde a la pregunta formulada ... Esta respuesta es más sobre el uso de los antecedentes y la inferencia bayesiana, no sobre cómo se define la probabilidad.

Tim

@Tim ¿Estaba pensando que esa primera declaración de límite es la respuesta?

BCLC

@Tim Quizás deberías decir 'cómo se interpreta la probabilidad ' ...

BCLC

Traté de explicar y dar un ejemplo del hecho de que la probabilidad se define de la misma manera pero se usa de manera diferente.

jlimahaverford