Me siento un poco incómodo con la forma en que me he ocupado mentalmente de la paradoja de Borel y otras "paradojas" relacionadas con la probabilidad condicional. Para aquellos que están leyendo esto que no están familiarizados con él, vea este enlace . Mi respuesta mental hasta este momento ha sido principalmente ignorarlo porque nadie parece hablar de eso, pero siento que debería rectificar esto.
Sabemos que esta paradoja existe y, sin embargo, parece que en la práctica (como un ejemplo extremo, el análisis bayesiano) estamos perfectamente bien con el condicionamiento de eventos de medida ; si son mis datos, condicionamos a todo el tiempo, aunque este es un evento de medida cuando es continuo. Y ciertamente no hacemos ningún esfuerzo para construir una secuencia de eventos que converjan al evento que observamos para resolver la paradoja, al menos no explícitamente.
Creo que esto está bien porque esencialmente hemos arreglado la variable aleatoria (en principio) antes del experimento, por lo que estamos condicionando a . Es decir, es el álgebra natural para condicionar porque la información se utilizará a través de : si nos hubiera llegado de otra manera, condicionaríamos una diferente -álgebra. La paradoja de Borel surge porque (supongo) no es obvio cuál es el álgebra apropiado para condicionar, pero el Bayesiano ha especificado . Porque estamos especificando a priori que la información vino a nosotros mediante la medición de estamos en claro. Una vez que hemos especificado -algebra, todo está bien; construimos nuestra expectativa condicional usando Radon-Nikodym y todo es un conjunto único hasta nulo.
¿Es esto esencialmente correcto o estoy lejos? Si estoy lejos, ¿cuál es la justificación para comportarse como lo hacemos? [Dada la naturaleza de preguntas y respuestas de este sitio, considere esto como mi pregunta.] Cuando tomé mi probabilidad teórica de la medida, por alguna razón que no entiendo, ni siquiera tocamos la expectativa condicional. Como resultado, me preocupa que mis ideas sean muy confusas.
Respuestas:
Como bayesiano, diría que la paradoja de Borel no tiene nada (o muy poco) que ver con las estadísticas bayesianas. Excepto que las estadísticas bayesianas usan distribuciones condicionales, por supuesto. El hecho de que no haya paradoja en definir una distribución posterior como condicional en un conjunto de medida cero es que x no se elige de antemano, sino como resultado de la observación. Por lo tanto, si queremos usar definiciones exóticas para las distribuciones condicionales en conjuntos de medida cero, hay cero posibilidades de que esos conjuntos contengan la x{X=x} x x que observaremos al final. La distribución condicional se define de manera única en casi todas partes y, por lo tanto, casi con certeza es nuestra observación. Este es también el significado de la (excelente) cita de A. Kolmogorov en la entrada de wikipedia.
Un punto en el análisis bayesiano donde las sutilezas teóricas de la medida pueden convertirse en una paradoja es la representación Savage-Dickey del factor Bayes, ya que depende de una versión específica de la densidad previa (como se discutió en nuestro artículo sobre el tema ...)
fuente