El teorema de Halmos-Savage dice que para un modelo estadístico dominado una estadística es suficiente si (y solo si) para todos hay una versión medible de la derivada Radon Nikodym donde es un medida privilegiada tal que para y .
Traté de obtener una comprensión intuitiva de por qué el teorema es verdadero, pero no tuve éxito, por lo que mi pregunta es si hay una forma intuitiva de entender el teorema.
Respuestas:
Un lema técnico
No estoy seguro de cuán intuitivo es esto, pero el resultado técnico principal que subyace a su declaración del Teorema de Halmos-Savage es el siguiente:
Esto se toma textualmente del Teorema A.78 en Teoría de la estadística de Schervish (1995) . Allí lo atribuye a las Pruebas de hipótesis estadísticas de Lehmann (1986) ( enlace a la tercera edición ), donde el resultado se atribuye a Halmos y Savage (ver Lema 7). Otra buena referencia es la estadística matemática de Shao (segunda edición, 2003) , donde los resultados relevantes son Lemma 2.1 y Teorema 2.2.
El lema anterior establece que si comienza con una familia de medidas dominada por una medida -finite, de hecho, puede reemplazar la medida dominante por una combinación convexa contable de medidas dentro de la familia. Schervish escribe antes de establecer el Teorema A.78,σ
Un ejemplo concreto
Supongamos que tomamos una medida de una cantidad que creemos que se distribuye uniformemente en el intervalo para algunos desconocidos . En este problema estadístico, estamos considerando implícitamente el conjunto de las medidas de probabilidad de Borel en consisten en distribuciones uniformes en todos los intervalos de la forma . Es decir, si denota la medida de Lebesgue y, para , denota la distribución (es decir,X [0,θ] θ>0 P R [0,θ] λ θ>0 Pθ Uniform([0,θ]) Pθ(A)=1θλ(A∩[0,θ])=∫A1θ1[0,θ](x)dx
para cada Borel ), entonces simplemente tenemos
Este es el conjunto de distribuciones de candidatos para nuestra medición .A⊆R P={Pθ:θ>0}. X
La familia está claramente dominada por la medida de Lebesgue (que es -finite), por lo que el lema anterior (con ) garantiza la existencia de una secuencia de números no negativos que suman y una secuencia de distribuciones uniformes en tal que para cada . ¡En este ejemplo, podemos construir tales secuencias explícitamente!P λ σ ℵ=P {ci}∞i=1 1 {Qi}∞i=1 P Pθ≪∑i=1∞ciQi θ>0
Primero, deje que sea una enumeración de los números racionales positivos ( esto se puede hacer explícitamente ), y deje para cada . A continuación, deje que , de modo que . Afirmo que esta combinación de y funciona.(θi)∞i=1 Q i = P θ i i c i = 2 - i ∑ ∞ i = 1 c i = 1 { c i } ∞ i = 1 { Q i } ∞ i = 1Qi=Pθi i ci=2−i ∑∞i=1ci=1 {ci}∞i=1 {Qi}∞i=1
Para ver esto, arregle y deje que sea un subconjunto Borel de tal que . Necesitamos mostrar que . Como y cada sumando no es negativo, se deduce que para cada . Además, dado que cada es positivo, se deduce que para cada . Es decir, para todo tenemos Dado que cadaθ>0 A R ∑∞i=1ciQi(A)=0 Pθ(A)=0 ∑∞i=1ciQi(A)=0 ciQi(A)=0 i ci Qi(A)=0 i i Qi(A)=Pθi(A)=1θiλ(A∩[0,θi])=0. θi es positivo, se deduce que para cada .λ(A∩[0,θi])=0 i
Ahora elija una subsecuencia of que converge a desde arriba (esto se puede hacer dado que es denso en ). Entonces como , por lo que por continuidad de medida concluimos que y entonces . Esto prueba el reclamo.{θik}∞k=1 {θi}∞i=1 θ Q R A∩[0,θθik]↓A∩[0,θ] k→∞ λ(A∩[0,θ])=limk→∞λ(A∩[0,θik])=0, Pθ(A)=0
Por lo tanto, en este ejemplo pudimos construir explícitamente una combinación convexa contable de medidas de probabilidad de nuestra familia dominada que aún domina a toda la familia. El Lema anterior garantiza que esto se puede hacer para cualquier familia dominada (al menos mientras la medida dominante sea -finite).σ
El teorema de Halmos-Savage
Así que ahora pasa al Teorema de Halmos-Savage (para el cual usaré una notación ligeramente diferente a la de la pregunta debido a preferencias personales). Dado el teorema de Halmos-Savage, el teorema de factorización de Fisher-Neyman es solo una aplicación del lema de Doob-Dynkin y la regla de la cadena para los derivados del radón-Nikodym.
Prueba. Según el lema anterior, podemos reemplazar inmediatamente por para alguna secuencia de números no negativos de modo que y una secuencia de medidas de probabilidad en .μ P∗=∑∞i=1ciPi {ci}∞i=1 ∑∞i=1ci=1 {Pi}∞i=1 P
(1. implica 2.) Suponga que es suficiente. Luego debemos demostrar que hay versiones mensurables de para todos los . Sea el núcleo de probabilidad en el enunciado del teorema. Para cada y tenemos Por lo tanto, es una versión de para todos .T T dP/dP∗ P∈P r A∈σ(T) B∈B P∗(A∩B)=∑i=1∞ciPi(A∩B)=∑i=1∞ci∫APi(B∣T)dPi=∑i=1∞ci∫Ar(B,T)dPi=∫Ar(B,T)dP∗. r(B,T) P∗(B∣T) B∈B
Para cada , supongamos que denota una versión de la derivada Radon-Nikodym en el espacio medible (en particular, es medible). Entonces, para todos y tenemos Así, de hecho, es unaP∈P fP dP/dP∗ (X,σ(T)) fP T B∈B P∈P P(B)=∫XP(B∣T)dP=∫Xr(B,T)dP=∫Xr(B,T)fPdP∗=∫XP∗(B∣T)fPdP∗=∫XEP∗[1BfP∣T]dP∗=∫BfPdP∗. fP T -versión medible de en . Esto prueba que la primera condición del teorema implica la segunda.dP/dP∗ (X,B)
(2. implica 1.) Suponga que uno puede elegir una versión medible en de para cada . Para cada , supongamos que denota una versión particular de (por ejemplo, es una función tal que es una versión de ). Dado que es un espacio Borel estándar, podemos elegir de una manera que lo convierta en un núcleo de probabilidad (véase, por ejemplo, el Teorema B.32 en Teoría de la estadística de Schervish (1995)). Mostraremos queT fP dP/dP∗ P∈P B∈B r(B,t) P∗(B∣T=t) r(B,t) r(B,T) P∗(B∣T) (T,C) r r ( B , T )r(B,T) es una versión de para cualquier y cualquier . Por lo tanto, deje y . Entonces, para todas las tenemos
Esto muestra que es una versión de para cualquier y cualquier , y la prueba es hecho.P(B∣T) P∈P B∈B A∈σ(T) B∈B P∈P P(A∩B)=∫A1BfPdP∗=∫AEP∗[1BfP∣T]dP∗=∫AP∗(B∣T)fPdP∗=∫Ar(B,T)fPdP∗=∫Ar(B,T)dP. r(B,T) P(B∣T) P∈P B∈B
fuente