¿Qué tiene de bueno el teorema de representación de de Finetti?

55

De la teoría de la estadística de Mark J. Schervish (página 12):

Aunque el teorema de representación de DeFinetti 1.49 es central para motivar modelos paramétricos, en realidad no se usa en su implementación.

¿Cómo es el teorema central para los modelos paramétricos?

gui11aume
fuente
2
Creo que es fundamental para los modelos bayesianos. Estaba discutiendo esto con Singleton. Su importancia en las estadísticas bayesianas se pasa por alto, excepto por los bayesianos que eran seguidores de deFinetti. Ver esta referencia de Diaconis y Freedman de 1980
Michael Chernick
1
@cardinal: página 12 (actualicé la pregunta).
gui11aume
2
Tenga en cuenta que Schervish dijo "... central para modelos paramétricos ...". motivating
Zen
1
A menudo me he preguntado cuánto de la representación es "real" y cuánto se basa en interpretaciones particulares del teorema. Se puede usar tan fácilmente para describir una distribución previa como para describir un modelo.
probabilidadislogic

Respuestas:

79

El teorema de la representación de De Finetti da en una sola toma, dentro de la interpretación subjetivista de las probabilidades, la razón de ser de los modelos estadísticos y el significado de los parámetros y sus distribuciones previas.

Suponga que las variables aleatorias representan los resultados de lanzamientos sucesivos de una moneda, con valores y correspondientes a los resultados "Caras" y "Colas", respectivamente. Analizando, dentro del contexto de una interpretación subjetivista del cálculo de probabilidad, el significado del modelo frecuentista habitual bajo el cual los son independientes e idénticamente distribuidos, De Finetti observó que la condición de independencia implicaría, por ejemplo, que y, por lo tanto, los resultados de la primera lanzamientos no cambiarían mi incertidumbre sobre el resultado de 1 0 X i P { X n = x nX 1 = x 1 , , X n - 1 = x n - 1 } = P { X n = x n }X1,,Xn10XiN - 1 n a priori 999 1 / 2 X i

P{Xn=xnX1=x1,,Xn1=xn1}=P{Xn=xn},
n1n-el lanzamiento Por ejemplo, si creo que esta es una moneda equilibrada, entonces, después de obtener la información que los primeros lanzamientos del resultaron ser "Cabezas", todavía creo, condicionalmente en esa información, que el la probabilidad de obtener "Cabezas" al lanzar 1000 es igual a . Efectivamente, la hipótesis de independencia de las 's implicaría que es imposible aprender algo sobre la moneda al observar los resultados de su lanzamiento.a priori9991/2Xi

Esta observación llevó a De Finetti a la introducción de una condición más débil que la independencia que resuelve esta aparente contradicción. La clave de la solución de De Finetti es un tipo de simetría distributiva conocida como intercambiabilidad.

Definition. Para un conjunto finito dado de objetos aleatorios, deje que denote su distribución conjunta. Este conjunto finito es intercambiable si , por cada permutación . Una secuencia de objetos aleatorios es intercambiable si cada uno de sus subconjuntos finitos es intercambiable.{Xi}i=1nμX1,,XnμX1,,Xn=μXπ(1),,Xπ(n)π:{1,,n}{1,,n}{Xi}i=1

Suponiendo solo que la secuencia de variables aleatorias es intercambiable, De Finetti demostró un notable teorema que arroja luz sobre el significado de los modelos estadísticos comúnmente utilizados. En el caso particular cuando los toman los valores y , el Teorema de representación de De Finetti dice que es intercambiable si y solo si hay una variable aleatoria , con distribución , de modo que en el que . Además, tenemos eso {Xi}i=1Xi01{Xi}i=1Θ:Ω[0,1]μΘ

P{X1=x1,,Xn=xn}=[0,1]θs(1θ)nsdμΘ(θ),
s=i=1nxi
X¯n=1ni=1nXinΘalmost surely,
que es conocido como la Ley fuerte de grandes números de De Finetti.

Este teorema de representación muestra cómo los modelos estadísticos emergen en un contexto bayesiano: bajo la hipótesis de intercambiabilidad de los observables , a tal que, dado el valor de , los observables son independientes e idénticamente distribuidos. Además, la ley Strong de De Finetti muestra que nuestra opinión previa sobre la no observable , representada por la distribución , es la opinión sobre el límite de , antes de que tengamos información sobre los valores de las realizaciones de cualquiera de los{Xi}i=1there isparameter ΘΘconditionallyΘμΘX¯nXi's. El parámetro desempeña el papel de una construcción subsidiaria útil, que nos permite obtener probabilidades condicionales que involucran solo observables a través de relaciones como Θ

P{Xn=1X1=x1,,Xn1=xn1}=E[ΘX1=x1,,Xn1=xn1].
zen
fuente
2
¡Gracias por esta perspicaz respuesta! Su punto sobre la independencia es muy importante y me doy cuenta por primera vez.
gui11aume
("A útil" fue mejor :))
Neil G
1
Me cuesta entender la afirmación "existe el parámetro para que (dado ) sean iid". Del teorema de representación, parece que todo lo que podemos derivar es que . Es decir, el valor esperado de la densidad verdadera es el mismo que el valor esperado de la densidad iid bernoulli con el parámetro . ¿Podría aclararme cómo podemos soltar el valor esperado para hacer un reclamo sobre la densidad real en sí misma? Θ X i E [ θ s ( 1 - θ ) s ] = E [ P ( X i = x iΘΘXiθE[θs(1θ)s]=E[P(Xi=xii|θ)]θ
user795305
El integrando es . Dado que se factoriza como , las están condicionadas iid dado . Pr{X1=x1,,Xn=xnΘ=θ}i=1nPr{Xi=xiΘ=θ}=i=1nθxi(1θ)1xiXiΘ=θ
Zen
@Zen Gracias! Entiendo la primera oración, sin embargo, la parte "ya que se factoriza como "todavía no está claro para mí. ¿Cómo sabes que los factores de esa manera? Parece que está eliminando el valor esperado de la identidad que escribí en mi comentario anterior, pero no estoy seguro de cómo se justifica. i=1nPr{Xi=xiΘ=θ}=i=1nθxi(1θ)1xi
user795305
17

Todo es matemáticamente correcto en la respuesta del Zen. Sin embargo, no estoy de acuerdo en algunos puntos. Tenga en cuenta que no afirmo / creo que mi punto de vista es el bueno; al contrario, siento que estos puntos aún no están del todo claros para mí. Estas son preguntas algo filosóficas sobre las que me gusta discutir (y un buen ejercicio de inglés para mí), y también estoy interesado en cualquier consejo.

  • Sobre el ejemplo con "Caras", comentario Zen: "la hipótesis de independencia de los 's implicaría que es imposible aprender algo sobre la moneda al observar los resultados de su lanzamiento". Esto no es cierto desde la perspectiva frecuentista: aprender sobre la moneda significa aprender sobre , lo cual es posible al estimar (estimación puntual o intervalo de confianza) partir de los resultados anteriores de . Si el frecuentador observa "Cabezas", entonces él / ella concluye que probablemente esté cerca de , y también lo es consecuencia.X i999Xiθ 999 999 θ 1 Pr ( X n = 1 )θθ999999θ1Pr(Xn=1)

  • Por cierto, en este ejemplo de lanzamiento de monedas, ¿cuál es el aleatorio ? Imaginando a cada una de las dos personas que juegan un juego de lanzamiento de monedas un número infinito de veces con la misma moneda, ¿por qué encontrarían una ? Tengo en cuenta que la característica del lanzamiento de monedas es la fija, que es el valor común de para cualquier jugador ("casi cualquier jugador" por razones técnicas matemáticas). Un ejemplo más concreto para el que no hay un aleatorio interpretable es el caso de un muestreo aleatorio con reemplazo en una población finita de y .θ = ˉ X θ ˉ X Θ 0 1Θθ=X¯θX¯Θ01

  • Sobre el libro de Schervish y la pregunta planteada por el OP, creo que (hablando rápidamente) Schervish significa que la intercambiabilidad es una suposición "genial" y luego el teorema de deFinetti es "genial" porque dice que cada modelo intercambiable tiene una representación paramétrica. Por supuesto que estoy totalmente de acuerdo. Sin embargo, si asumo un modelo intercambiable como y entonces estaría interesado en realizar inferencia sobre y , no se trata de la realización de . Si solo estoy interesado en la realización de entonces no veo ningún interés en asumir la intercambiabilidad.Θ Beta ( a , b ) a b Θ Θ(XiΘ=θ)iidBernoulli(θ)ΘBeta(a,b)abΘΘ

Ya es tarde...

Stéphane Laurent
fuente
44
Hola stéphane Gracias por tus comentarios sobre mi respuesta. Sobre su primer punto de que , en mi respuesta, todo se afirma en un contexto bayesiano. No existe un intento real de establecer un contraste con otros paradigmas de inferencia. En resumen, he tratado de expresar lo que el teorema de De Finetti significa para mí, como bayesiano. "this is not true from the frequentist perspective"
Zen
44
Acerca de su segunda viñeta: la aleatoria es (como) el límite de , como se indica en el LLN de De Finetti. Entonces, cuando algunos bayesianos dicen que mi anterior para es , quiere decir que esta distribución representa su incertidumbre sobre este límite, antes de tener acceso a los datos. Diferentes bayesianos pueden tener antecedentes diferentes, pero, con condiciones de regularidad adecuadas, tendrán acuerdo sobre (posteriores similares), ya que obtienen más y más información sobre los resultados de los lanzamientos. ˉ X n Θ μ Θ a posteriori ΘΘX¯nΘμΘa posterioriΘ
Zen
La fija pero desconocida no es un concepto bayesiano. θ
Zen
1
Sobre su tercera viñeta, dada: 1) Que Schervish es un estadístico bayesiano; 2) La cantidad de tiempo y energía que pasa discutiendo la intercambiabilidad en su libro; Creo que para él el papel del teorema de De Finetti es muy profundo y va mucho más allá de la frialdad. ¡Pero estoy de acuerdo en que es muy bueno, de todos modos!
Zen
2
Para aclarar mi punto de vista: no creo que haya un aleatorio en un modelo bayesiano "básico" (no jerárquico). Hay una desconocida fija , y la distribución previa describe la creencia al respecto. El papel de la variable aleatoria es solo el tratamiento matemático de la inferencia bayesiana, no tiene ninguna interpretación en el experimento. Si realmente asume observaciones intercambiables pero no independientes, como el ejemplo de mi tercer punto, entonces usted tiene que poner en hyperpriors y . θ Θ a bθθΘab
Stéphane Laurent
11

Ustedes podrían estar interesados ​​en un artículo sobre este tema (se requiere suscripción a la revista para acceder; intente acceder desde su universidad):

O'Neill, B. (2011) Intercambiabilidad, correlación y efecto Bayes. Revista estadística internacional 77 (2), págs. 241-250.

Este artículo discute el teorema de representación como la base para los modelos IID bayesianos y frecuentistas, y también lo aplica a un ejemplo de lanzamiento de monedas. Debería aclarar la discusión de los supuestos del paradigma frecuentista. En realidad, utiliza una extensión más amplia del teorema de representación que va más allá del modelo binomial, pero aún así debería ser útil.

Estadísticas
fuente
¿Tal vez hay una versión en papel de esto que tienes? No tengo acceso cajero automático :-(
IMA
1
@ Estadísticas He leído ese documento después de ver tu respuesta. Tengo que decir que ese es el mejor artículo que ilustra Bayesian y Frequentist sobre ese tema que he visto. Desearía haber leído este artículo mucho antes. (+1)
KevinKim