¿Cómo debería lidiar mentalmente con la paradoja de Borel?

17

Me siento un poco incómodo con la forma en que me he ocupado mentalmente de la paradoja de Borel y otras "paradojas" relacionadas con la probabilidad condicional. Para aquellos que están leyendo esto que no están familiarizados con él, vea este enlace . Mi respuesta mental hasta este momento ha sido principalmente ignorarlo porque nadie parece hablar de eso, pero siento que debería rectificar esto.

Sabemos que esta paradoja existe y, sin embargo, parece que en la práctica (como un ejemplo extremo, el análisis bayesiano) estamos perfectamente bien con el condicionamiento de eventos de medida 0 ; si son mis datos, condicionamos a todo el tiempo, aunque este es un evento de medida cuando es continuo. Y ciertamente no hacemos ningún esfuerzo para construir una secuencia de eventos que converjan al evento que observamos para resolver la paradoja, al menos no explícitamente.XX=x0X

Creo que esto está bien porque esencialmente hemos arreglado la variable aleatoria (en principio) antes del experimento, por lo que estamos condicionando a . Es decir, es el álgebra natural para condicionar porque la información se utilizará a través de : si nos hubiera llegado de otra manera, condicionaríamos una diferente -álgebra. La paradoja de Borel surge porque (supongo) no es obvio cuál es el álgebra apropiado para condicionar, pero el Bayesiano ha especificado . Porque estamos especificando a priori que la informaciónXσ(X)σ(X)σX=xXσσσ(X)X=x vino a nosotros mediante la medición deX estamos en claro. Una vez que hemos especificado -algebra, todo está bien; construimos nuestra expectativa condicional usando Radon-Nikodym y todo es un conjunto único hasta nulo.σ

¿Es esto esencialmente correcto o estoy lejos? Si estoy lejos, ¿cuál es la justificación para comportarse como lo hacemos? [Dada la naturaleza de preguntas y respuestas de este sitio, considere esto como mi pregunta.] Cuando tomé mi probabilidad teórica de la medida, por alguna razón que no entiendo, ni siquiera tocamos la expectativa condicional. Como resultado, me preocupa que mis ideas sean muy confusas.

chico
fuente
2
Cuando tomé mi probabilidad teórica de la medida, nosotros, por alguna razón que no entiendo, ni siquiera tocamos la expectativa condicional. Whoa Estoy interesado en este pequeño fragmento. ¿Qué texto usaste? ¿Cómo tomaste un curso con ese nombre y nunca miraste martingales, cadenas de Markov o una serie de otros temas "estándar"?
cardenal
1
Creo que el "panorama general" detrás de esta respuesta proporciona al menos una respuesta parcial a las preguntas actuales. :)
cardenal
1
@cardinal No usamos un libro de texto, usamos las notas del instructor. El instructor pasó toda su carrera investigadora probando leyes de grandes números para elementos aleatorios valorados en el espacio de Banach, y aparentemente no tenía necesidad de tales cosas. Como resultado, no les enseñó. Aprendimos los temas que él encontró importantes para su trabajo. El otro profesor que enseñó probabilidad usó Billingsley y no fue tan miope. Aprendí lo que sé leyendo Billingsley en mi propio tiempo.
chico
44
Gracias por complacerme y (+1) a su pregunta. Por cierto, Billingsley es un texto de referencia maravilloso, pero debe haber sido un poco frustrante como prueba de clase y elección de autoaprendizaje, aunque no sea por otra razón que la organización. Puede que le interese la probabilidad de D. Williams con Martingales si desea un compañero corto que ponga un énfasis decididamente grande en la expectativa condicional. Salud. :-)
cardenal

Respuestas:

8

Como bayesiano, diría que la paradoja de Borel no tiene nada (o muy poco) que ver con las estadísticas bayesianas. Excepto que las estadísticas bayesianas usan distribuciones condicionales, por supuesto. El hecho de que no haya paradoja en definir una distribución posterior como condicional en un conjunto de medida cero es que x no se elige de antemano, sino como resultado de la observación. Por lo tanto, si queremos usar definiciones exóticas para las distribuciones condicionales en conjuntos de medida cero, hay cero posibilidades de que esos conjuntos contengan la x{X=x}xxque observaremos al final. La distribución condicional se define de manera única en casi todas partes y, por lo tanto, casi con certeza es nuestra observación. Este es también el significado de la (excelente) cita de A. Kolmogorov en la entrada de wikipedia.

Un punto en el análisis bayesiano donde las sutilezas teóricas de la medida pueden convertirse en una paradoja es la representación Savage-Dickey del factor Bayes, ya que depende de una versión específica de la densidad previa (como se discutió en nuestro artículo sobre el tema ...)

Xi'an
fuente