Interpretación de la derivada del radón-Nikodym entre medidas de probabilidad?

11

He visto en algunos puntos el uso de la derivada Radon-Nikodym de una medida de probabilidad con respecto a otra, especialmente en la divergencia Kullback-Leibler, donde es la derivada de la medida de probabilidad de un modelo para algún parámetro arbitrario con respecto al parámetro real :θθ0

dPθdPθ0

Donde ambas son medidas de probabilidad en el espacio de puntos de datos condicionales a un valor de parámetro: .Pθ(D)=P(D|θ)

¿Cuál es la interpretación de una derivada de Radon-Nikodym en la divergencia Kullback-Leibler, o más generalmente entre dos medidas de probabilidad?

usuario56834
fuente

Respuestas:

12

Primero, no necesitamos medidas de probabilidad, solo -finiteness. Así que vamos a sea un espacio medible y dejar que y ser medidas -finite en .M = ( Ω , F ) μ ν σ MσM=(Ω,F)μνσM

El teorema de Radon-Nikodym establece que si para todo , denotado por , entonces existe un Borel no negativo función tal que para todos los .A F μ ν f ν ( A ) = A fμ(A)=0ν(A)=0AFμνfA F

ν(A)=Afdμ
AF

Así es como me gusta pensar en esto. Primero, para cualesquiera dos medidas en , definamos como . Esta es una relación de equivalencia válida y decimos que y son equivalentes en este caso. ¿Por qué es esto una equivalencia sensata para las medidas? Las medidas son solo funciones, pero sus dominios son difíciles de visualizar. ¿Qué pasa si dos funciones ordinarias tienen esta propiedad, es decir, ? Bueno, defina y tenga en cuenta que en cualquier lugar con el apoyo de μ ν μ ( A ) = 0Mμνμ ν f , g : RR f ( x ) = 0μ(A)=0ν(A)=0μνf,g:RRh ( x ) = { f ( x ) / g ( x ) g ( x ) 0 π e o.w. g g h = f g g h = 0 π e = 0 = f f g h g f 0 / 0 g = 0 h π ef(x)=0g(x)=0

h(x)={f(x)/g(x)g(x)0πeo.w.
g tenemos , y fuera del soporte de (ya que y comparten soportes) entonces nos permite reescalar en . Como señala @whuber, la idea clave aquí no es que sea ​​de alguna manera "seguro" para hacer o ignorar, sino que cuando no importa lo que haga , así que podemos definirlo arbitrariamente (como ser que no tiene un significado especial aquí) y las cosas aún funcionan. También en este caso podemos definir la función análoga con para quegh=fg gh=0πe=0=ffghgf0/0g=0hπehg/ffh=g .

Luego suponga que , pero la otra dirección no necesariamente se cumple. Esto significa que nuestra definición anterior de todavía funciona, pero ahora no funciona ya que tendrá divisiones reales entre . Por lo tanto, podemos reescalar en mediante , pero no podemos ir en la otra dirección porque tendríamos que reescalar algo en algo que no sea cero.g(x)=0f(x)=0hh0gfgh=f0

Ahora regresemos a y y denotemos nuestro RND por . Si , esto intuitivamente significa que uno puede reescalarse en el otro, y viceversa. Pero generalmente solo queremos ir en una dirección con esto (es decir, cambiar la escala de una buena medida como la medida de Lebesgue a una medida más abstracta), por lo que solo necesitamos para hacer cosas útiles. Este cambio de escala es el corazón de la RND.μνfμνμν

Volviendo al punto de @ whuber en los comentarios, hay una sutileza adicional de por qué es seguro ignorar el problema de . Esto se debe a que con las medidas solo estamos definiendo cosas hasta conjuntos de medidas por lo que en cualquier conjunto con podemos hacer que nuestro RND tome cualquier valor, digamos . Por lo tanto, no es que sea ​​intrínsecamente seguro, sino que en cualquier lugar donde tendríamos es un conjunto de medidas wrt para que podamos definir nuestro RND como algo agradable allí sin afectar nada.0/00Aμ(A)=010/00/00μ

Como ejemplo, supongamos que para algunos . Entonces entonces tenemos que es el RND (esto puede justificarse más formalmente por el teorema del cambio de medidas). Esto es bueno porque hemos recuperado exactamente el factor de escala.kμ=νk>0

ν(A)=Adν=Akdμ
f(x)=k=dνdμ

Aquí hay un segundo ejemplo para enfatizar cómo cambiar los RND en conjuntos de medida no los afecta. Sea , es decir, es el PDF normal estándar más si la entrada es racional, y sea un RV con esta densidad. Esto significa por lo que en realidad sigue siendo un RV gaussiano estándar. No ha afectado la distribución de ninguna manera para cambiar en porque es un conjunto de medida wrt0f(x)=φ(x)+1Q(x)1X

P(XA)=A(φ+1Q)dλ
=Aφdλ+λ(Q)=Aφdλ
XXQ0λ .

Como último ejemplo, suponga que e y deje que y sean sus respectivas distribuciones. Recuerde que un pmf es un RND con respecto a la medida de conteo , y dado que tiene la propiedad de que , resulta que XPois(η)YBin(n,p)PXPYccc(A)=0A=

dPYdPX=dPY/dcdPX/dc=fYfX

para que podamos calcular

PY(A)=AdPY
=AdPYdPXdPX=AdPYdPXdPXdcdc
=yAdPYdPX(y)dPXdc(y)=yAfY(y)fX(y)fX(y)=yAfY(y).

Por lo tanto, debido a que para todo en el soporte de , podemos reescalar la integración con respecto a una distribución de Poisson en integración con respecto a una distribución binomial, aunque debido a que todo es discreto resulta trivial resultado.P(X=n)>0nY


Abordé tu pregunta más general, pero no toqué las divergencias de KL. Para mí, al menos, encuentro que la divergencia de KL es mucho más fácil de interpretar en términos de pruebas de hipótesis como la respuesta de @kjetil b halvorsen aquí . Si y existe una medida que domina a ambos, entonces se usa podemos recuperar la forma con densidades, así que para mí eso es más fácil.PQμdPdQ=dP/dμdQ/dμ:=p/q

jld
fuente
3
Disfruté de esta exposición (ya que disfruto de todas sus contribuciones), pero en el fondo parece estar basada en la afirmación (repetida) de que tiene algún tipo de sentido, pero no es así. Algo sucede con las medidas que no sucede automáticamente con las funciones de los valores reales: simplemente puede ignorar lo que sucede en los conjuntos de medida cero. Así es como evita tener que tener sentido en la configuración de derivada Radon-Nikodym. 0 / 00/00/0
whuber
1
@whuber muchas gracias por el comentario, eso realmente ayuda. He intentado actualizar para abordar eso
jld