Comprensión intuitiva del teorema de Halmos-Savage

12

El teorema de Halmos-Savage dice que para un modelo estadístico dominado una estadística es suficiente si (y solo si) para todos hay una versión medible de la derivada Radon Nikodym donde es un medida privilegiada tal que para y .(Ω,A,P)T:(Ω,A,P)(Ω,A){PP}TdPdPdPP=i=1Picici>0,i=1ci=1PiP

Traté de obtener una comprensión intuitiva de por qué el teorema es verdadero, pero no tuve éxito, por lo que mi pregunta es si hay una forma intuitiva de entender el teorema.

Sebastian
fuente
Creo que tengo el enlace correcto aquí. Por favor verifíquelo y elimínelo si cometí un error.
gung - Restablece a Monica
44
¿Quizás ayudar al lector con la terminología, por ejemplo, definir "modelos estadísticos dominados", " medibilidad en " y "medidas privilegiadas?"T
Carl

Respuestas:

6

Un lema técnico

No estoy seguro de cuán intuitivo es esto, pero el resultado técnico principal que subyace a su declaración del Teorema de Halmos-Savage es el siguiente:

Lema Sea una medida -finite en . Suponga que es una colección de medidas en modo que para cada , . Entonces existe una secuencia de números no negativos y una secuencia de elementos de , tal que y por cada .μσ(S,A)(S,A)ννμ{ci}i=1{νi}i=1i=1ci=1νi=1ciνiν

Esto se toma textualmente del Teorema A.78 en Teoría de la estadística de Schervish (1995) . Allí lo atribuye a las Pruebas de hipótesis estadísticas de Lehmann (1986) ( enlace a la tercera edición ), donde el resultado se atribuye a Halmos y Savage (ver Lema 7). Otra buena referencia es la estadística matemática de Shao (segunda edición, 2003) , donde los resultados relevantes son Lemma 2.1 y Teorema 2.2.

El lema anterior establece que si comienza con una familia de medidas dominada por una medida -finite, de hecho, puede reemplazar la medida dominante por una combinación convexa contable de medidas dentro de la familia. Schervish escribe antes de establecer el Teorema A.78,σ

"En las aplicaciones estadísticas, a menudo tendremos una clase de medidas, cada una de las cuales es absolutamente continua con respecto a una medida única definida. Sería bueno si la medida dominante única estuviera en la clase original o pudiera construirse a partir de la clase. El siguiente teorema aborda este problema ".σ

Un ejemplo concreto

Supongamos que tomamos una medida de una cantidad que creemos que se distribuye uniformemente en el intervalo para algunos desconocidos . En este problema estadístico, estamos considerando implícitamente el conjunto de las medidas de probabilidad de Borel en consisten en distribuciones uniformes en todos los intervalos de la forma . Es decir, si denota la medida de Lebesgue y, para , denota la distribución (es decir, X[0,θ]θ>0PR[0,θ]λθ>0PθUniform([0,θ])

Pθ(A)=1θλ(A[0,θ])=A1θ1[0,θ](x)dx
para cada Borel ), entonces simplemente tenemos Este es el conjunto de distribuciones de candidatos para nuestra medición .AR
P={Pθ:θ>0}.
X

La familia está claramente dominada por la medida de Lebesgue (que es -finite), por lo que el lema anterior (con ) garantiza la existencia de una secuencia de números no negativos que suman y una secuencia de distribuciones uniformes en tal que para cada . ¡En este ejemplo, podemos construir tales secuencias explícitamente!Pλσ=P{ci}i=11{Qi}i=1P

Pθi=1ciQi
θ>0

Primero, deje que sea ​​una enumeración de los números racionales positivos ( esto se puede hacer explícitamente ), y deje para cada . A continuación, deje que , de modo que . Afirmo que esta combinación de y funciona.(θi)i=1 Q i = P θ i i c i = 2 - ii = 1 c i = 1 { c i } i = 1 { Q i } i = 1Qi=Pθiici=2ii=1ci=1{ci}i=1{Qi}i=1

Para ver esto, arregle y deje que sea ​​un subconjunto Borel de tal que . Necesitamos mostrar que . Como y cada sumando no es negativo, se deduce que para cada . Además, dado que cada es positivo, se deduce que para cada . Es decir, para todo tenemos Dado que cadaθ>0ARi=1ciQi(A)=0Pθ(A)=0i=1ciQi(A)=0ciQi(A)=0iciQi(A)=0ii

Qi(A)=Pθi(A)=1θiλ(A[0,θi])=0.
θies positivo, se deduce que para cada .λ(A[0,θi])=0i

Ahora elija una subsecuencia of que converge a desde arriba (esto se puede hacer dado que es denso en ). Entonces como , por lo que por continuidad de medida concluimos que y entonces . Esto prueba el reclamo.{θik}k=1{θi}i=1θQRA[0,θθik]A[0,θ]k

λ(A[0,θ])=limkλ(A[0,θik])=0,
Pθ(A)=0

Por lo tanto, en este ejemplo pudimos construir explícitamente una combinación convexa contable de medidas de probabilidad de nuestra familia dominada que aún domina a toda la familia. El Lema anterior garantiza que esto se puede hacer para cualquier familia dominada (al menos mientras la medida dominante sea -finite).σ

El teorema de Halmos-Savage

Así que ahora pasa al Teorema de Halmos-Savage (para el cual usaré una notación ligeramente diferente a la de la pregunta debido a preferencias personales). Dado el teorema de Halmos-Savage, el teorema de factorización de Fisher-Neyman es solo una aplicación del lema de Doob-Dynkin y la regla de la cadena para los derivados del radón-Nikodym.

Teorema de Halmos-Savage. Sea un modelo estadístico dominado (lo que significa que es un conjunto de medidas de probabilidad en y hay un -finite measure on tal que para todo ). Deje que sea ​​una función medible, donde es un Borel estándar espacio. Entonces los siguientes son equivalentes:(X,B,P)PBσμBPμPPT:(X,B)(T,C)(T,C)

  1. T es suficiente para (lo que significa que existe un kernel de probabilidad tal que es una versión de para todos y ).Pr:B×T[0,1]r(B,T)P(BT)BBPP
  2. Existe una secuencia de números no negativos como y una secuencia de medidas de probabilidad en tal que para todas las , donde , y para cada existe una versión mensurable de .{ci}i=1i=1ci=1{Pi}i=1PPPPPP=i=1ciPiPPTdP/dP

Prueba. Según el lema anterior, podemos reemplazar inmediatamente por para alguna secuencia de números no negativos de modo que y una secuencia de medidas de probabilidad en .μP=i=1ciPi{ci}i=1i=1ci=1{Pi}i=1P

(1. implica 2.) Suponga que es suficiente. Luego debemos demostrar que hay versiones mensurables de para todos los . Sea el núcleo de probabilidad en el enunciado del teorema. Para cada y tenemos Por lo tanto, es una versión de para todos .TTdP/dPPPrAσ(T)BB

P(AB)=i=1ciPi(AB)=i=1ciAPi(BT)dPi=i=1ciAr(B,T)dPi=Ar(B,T)dP.
r(B,T)P(BT)BB

Para cada , supongamos que denota una versión de la derivada Radon-Nikodym en el espacio medible (en particular, es medible). Entonces, para todos y tenemos Así, de hecho, es unaPPfPdP/dP(X,σ(T))fPTBBPP

P(B)=XP(BT)dP=Xr(B,T)dP=Xr(B,T)fPdP=XP(BT)fPdP=XEP[1BfPT]dP=BfPdP.
fPT-versión medible de en . Esto prueba que la primera condición del teorema implica la segunda.dP/dP(X,B)

(2. implica 1.) Suponga que uno puede elegir una versión medible en de para cada . Para cada , supongamos que denota una versión particular de (por ejemplo, es una función tal que es una versión de ). Dado que es un espacio Borel estándar, podemos elegir de una manera que lo convierta en un núcleo de probabilidad (véase, por ejemplo, el Teorema B.32 en Teoría de la estadística de Schervish (1995)). Mostraremos queTfPdP/dPPPBBr(B,t)P(BT=t)r(B,t)r(B,T)P(BT)(T,C)rr ( B , T )r(B,T)es una versión de para cualquier y cualquier . Por lo tanto, deje y . Entonces, para todas las tenemos Esto muestra que es una versión de para cualquier y cualquier , y la prueba es hecho.P(BT)PPBBAσ(T)BBPP

P(AB)=A1BfPdP=AEP[1BfPT]dP=AP(BT)fPdP=Ar(B,T)fPdP=Ar(B,T)dP.
r(B,T)P(BT)PPBB

Resumen. El resultado técnico importante que subyace en el teorema de Halmos-Savage como se presenta aquí es el hecho de que una familia dominada de medidas de probabilidad está dominada en realidad por una combinación convexa contable de medidas de probabilidad de esa familia. Dado ese resultado, el resto del teorema de Halmos-Savage es principalmente manipulaciones con propiedades básicas de derivados de Radón-Nikodym y expectativas condicionales.

Artem Mavrin
fuente