¿Los bayesianos aceptan los axiomas de Kolmogorov?

24

Por lo general, la teoría de la probabilidad se enseña con los axiomas de Kolgomorov. ¿Los bayesianos también aceptan los axiomas de Kolmogorov?

Escrito
fuente
8
La teoría bayesiana se deriva de los axiomas estándar de probabilidad, por lo tanto, de los axiomas de Kolmogorov.
Xi'an
3
@ Xi'an: Que los grados subjetivos de creencia pueden ser representados por la probabilidad no es tan obvio, de ahí la pregunta, y el trabajo de Ramsey y de Finetti.
Scortchi - Restablece a Monica
2
Es por eso que soy un Bayesiano "objetivo" y comienzo con distribuciones previas definidas de acuerdo con los estándares de la teoría de probabilidad ...
Xi'an
2
Creo que la interpretación de probabilidad de Cox-Jaynes proporciona una base rigurosa para la probabilidad bayesiana. (ver mi respuesta) Sin embargo, sería bueno tener la opinión de Xi'an sobre eso.
Cumbre
1
@Summit: ¡gracias pero me temo que no estoy muy interesado en el tema ...!
Xi'an

Respuestas:

25

En mi opinión, la interpretación de la probabilidad de Cox-Jaynes proporciona una base rigurosa para la probabilidad bayesiana:

  • Cox, Richard T. "Probabilidad, frecuencia y expectativa razonable". Revista estadounidense de física 14.1 (1946): 1-13.
  • Jaynes, Edwin T. Teoría de la probabilidad: la lógica de la ciencia. Cambridge University Press, 2003.
  • Beck, James L. "Identificación del sistema bayesiano basada en la lógica de probabilidad". Control estructural y monitoreo de salud 17.7 (2010): 825-847.

Los axiomas de la lógica de probabilidad derivados de Cox son:

  1. Pr[b|a]0
  2. (P2): (función de negación)Pr[b¯|a]=1Pr[b|a]
  3. (P3): (función de conjunción)Pr[bc|a]=Pr[c|ba]Pr[b|a]

Los axiomas P1-P3 implican lo siguiente (Beck, James L. "Identificación del sistema bayesiano basada en la lógica de probabilidad". Control estructural y monitoreo de salud 17.7 (2010): 825-847):

  1. (P4): a) ; b) ; c)Pr [ ¯ b | b c ] = 0 Pr [ b | c ] [ 0 , 1 ]Pr[b|bc]=1Pr[b¯|bc]=0Pr[b|c][0,1]
  2. (P5): a) , b) , donde significa que está contenido en , y significa que es equivalente a .Pr [ a | c ( a b ) ] = Pr [ b | c ( a b ) ] a b a c a b a bPr[a|c(ab)]Pr[b|c(ab)]Pr[a|c(ab)]=Pr[b|c(ab)]abacabab
  3. (P6):Pr[ab|c]=Pr[a|c]+Pr[b|c]Pr[ab|c]
  4. (P7): Suponiendo que la proposición establece que una y solo una de las proposiciones es verdadera, entonces: b 1 , ... , b Ncb1,,bN
    • a) Teorema de marginación:Pr[a|c]=n=1NP[abn|c]
    • b) Teorema de probabilidad total:Pr[a|c]=n=1NPr[a|bnc]Pr[bn|c]
    • c) Teorema de Bayes: Para :Pr [ b k | a c ] = Pr [ a | b kc ] Pr [ b k | c ]k=1,,NPr[bk|ac]=Pr[a|bkc]Pr[bk|c]n=1NPr[a|bnc]Pr[bn|c]

Implican la declaración de lógica de Kolmogorov, que puede verse como un caso especial.

En mi interpretación de un punto de vista bayesiano, todo está siempre (implícitamente) condicionado a nuestras creencias y a nuestro conocimiento.

La siguiente comparación está tomada de Beck (2010): identificación del sistema bayesiano basada en la lógica de probabilidad

El punto de vista bayesiano

La probabilidad es una medida de plausibilidad de una declaración basada en información especificada.

  1. Las distribuciones de probabilidad representan estados de conocimiento plausible sobre sistemas y fenómenos, no propiedades inherentes a ellos.
  2. La probabilidad de un modelo es una medida de su plausibilidad en relación con otros modelos en un conjunto.
  3. Cuantifica pragmáticamente la incertidumbre debido a la falta de información sin ninguna afirmación de que esto se deba a la aleatoriedad inherente de la naturaleza.

El punto de vista frecuente

La probabilidad es la frecuencia relativa de ocurrencia de un evento inherentemente aleatorio a largo plazo .

  1. Las distribuciones de probabilidad son propiedades inherentes de los fenómenos aleatorios.
  2. Alcance limitado, por ejemplo, sin significado para la probabilidad de un modelo.
  3. Se supone aleatoriedad inherente , pero no se puede probar.

Cómo derivar los axiomas de Kolmogorov de los axiomas anteriores

A continuación, la sección 2.2 de [Beck, James L. "Identificación del sistema bayesiano basada en la lógica de probabilidad". Control estructural y monitoreo de salud 17.7 (2010): 825-847.] Se resume:

A continuación, usamos: medida de probabilidad en el subconjunto de un conjunto finito :A XPr(A)AX

  1. [K1]:Pr(A)0,AX
  2. [K2]:Pr(X)=1
  3. [K3]: si y son disjuntos.Pr(AB)=Pr(A)+Pr(B),A,BXAB

Para derivar (K1-K3) de los axiomas de la teoría de la probabilidad, [Beck, 2010] introdujo el propositon que establece y especifica el modelo de probabilidad para . [Beck, 2010] además presenta .πxXxPr(A)=Pr[xA|π]

  • P1 implica K1 con yb={xA}c=π
  • K2 se sigue de ; P4 (a), y estados que .Pr[xX|π]=1πxX
  • K3 se puede derivar de P6: y son disjuntos significa que y son mutuamente excluyentes. Por lo tanto, K3:ABxAxB Pr(xAB|π)=Pr(xA|π)+Pr(xB|π)
Cumbre
fuente
55
Desde su K3 puede llegar a (aditividad finita) pero no al tercer axioma de Kolmogorov, (aditividad contable) cuando las son elementos de un campo , y no simplemente subconjuntos de un conjunto finito. Pr ( i = 1 A i ) = i = 1 Pr ( A i ) A σPr(i=1nAi)=i=1nPr(Ai)Pr(i=1Ai)=i=1Pr(Ai)Aσ
Scortchi - Restablece a Monica
2
@Scortchi KRKoch en su introducción a las estadísticas bayesianas cita a Bernardo y Smith (1994), Bayesian Theory, p. 105, como una fuente que muestra cómo abordar el infinito contable. No lo he comprobado, pero como referencia, también puede darse aquí.
gwr
12

Después del desarrollo de la Teoría de la Probabilidad, fue necesario mostrar que los conceptos más flexibles que respondían al nombre de "probabilidad" estaban a la altura del concepto rigurosamente definido que habían inspirado. Las probabilidades bayesianas "subjetivas" fueron consideradas por Ramsey y de Finetti, quienes mostraron de manera independiente que una cuantificación del grado de creencia sujeto a las restricciones de comparabilidad y coherencia (sus creencias son coherentes si nadie puede hacer un libro holandés en su contra) ser una probabilidad

Las diferencias entre las axiomatizaciones son en gran medida una cuestión de gustos sobre lo que debería ser lo que se definió y lo que se derivó. Pero la aditividad contable es una de Kolmogorov que no es derivable de Cox o Finetti, y ha sido controvertida. Algunos bayesianos (por ejemplo, de Finetti & Savage) se detienen en la aditividad finita y, por lo tanto , no aceptan todos los axiomas de Kolmogorov. Pueden colocar distribuciones de probabilidad uniformes en intervalos infinitos sin incorrección. Otros siguen a Villegas al asumir también una continuidad monótona, y obtienen de ello una suma contable.

Ramsey (1926), "Verdad y probabilidad", en Ramsey (1931), Los fundamentos de las matemáticas y otros ensayos lógicos.

de Finetti (1931), "Sul significato soggettivo della probabilità", Fundamenta Mathematicæ , 17 , pp 298 - 329

Villegas (1964), "Sobre probabilidad cualitativa álgebras", Ann. Mates. Estadístico. , 35 , 4.σ

Scortchi - Restablece a Monica
fuente
3
¿Por qué mi respuesta solo debe abordar las probabilidades 'objetivas bayesianas'? ¡El trabajo seminal de Cox (1946) aborda explícitamente el tema de la subjetividad! Es un trabajo muy interesante y fácil de leer. No creo que tenga sentido distinguir entre probabilidades bayesianas "subjetivas" y "objetivas": todo está siempre implícitamente condicionado a la persona que realiza el análisis -> y en este sentido "subjetivo".
Cumbre
con respecto a la derivación de los axiomas declaró Kolmogorov de Cox: estoy satisfecho por la forma en que se hace en la sección 2.2 de Beck, James L. "Identificación del sistema bayesiano basada en la lógica de probabilidad". Control estructural y monitoreo de salud 17.7 (2010): 825-847.
Cumbre
1
@Summit: (1) Tienes razón; es más bien que la visión disposicional de probabilidad de Ramsey & de Finetti los coloca directamente en el campo "subjetivo", mientras que el de Cox es más generalmente aplicable. (2) ¿Estás diciendo que la aditividad contable se puede deducir de los postulados de Cox?
Scortchi - Restablece a Monica
Extendí mi respuesta y espero sus comentarios.
Cumbre
1
@Summit: Gracias. Espero encontrar tiempo para hacer que el mío sea la mitad de completo. He señalado la brecha entre dónde puede llegar desde el teorema de Cox y los axiomas "completos" de Kolmogorov y creo que es especialmente pertinente a la pregunta (aunque me había olvidado por completo cuando respondí por primera vez). Jaynes tenía algunas cosas interesantes que decir sobre este BTW.
Scortchi - Restablece a Monica