¿Cuál es la relación detrás de Jeffreys Priors y una transformación estabilizadora de la varianza?

17

Estaba leyendo acerca de Jeffreys antes en la wikipedia: Jeffreys Prior y vi que después de cada ejemplo, describe cómo una transformación estabilizadora de la varianza convierte a Jeffreys prior en un uniforme previo.

Como ejemplo, para el caso de Bernoulli, establece que para una moneda con cara de probabilidad , el modelo de prueba de Bernoulli arroja que Jeffreys antes del parámetro es:γ[0,1]γ

p(γ)1γ(1γ)

Luego declara que esta es una distribución beta con . También establece que si , entonces el Jeffreys anterior para es uniforme en el intervalo .α=β=12γ=sin2(θ)θ[0,π2]

Reconozco la transformación como la de una transformación estabilizadora de la varianza. Lo que me confunde es:

  1. ¿Por qué una transformación estabilizadora de varianza daría como resultado un previo uniforme?

  2. ¿Por qué querríamos un uniforme antes? (ya que parece que puede ser más susceptible a ser inadecuado)

En general, no estoy muy seguro de por qué se da la transformación de seno cuadrado y qué papel juega. ¿Alguien tendría alguna idea?

usuario1398057
fuente
2
Voy a salir como un charlatán autodidacta preguntando esto, pero: ¿a qué transformación estabilizadora de la varianza te refieres? ? 1sin2(θ)(1sin2(θ))
shadowtalker
2
El seno cuadrado es convencionalmente la forma incorrecta de pensar en la transformación. es la raíz cuadrada del arcoseno o la transformación angular. θ=arcsinγ
Nick Cox

Respuestas:

3

El Jeffreys anterior es invariante bajo reparametrización. Por esa razón, muchos bayesianos lo consideran un "previo no informativo". (Hartigan demostró que hay un espacio completo de tales antecedentes para donde es el previo de Jeffreys yJαHβα+β=1J es el previo asintóticamente local invariante de Hartigan. -Distribuciones anteriores invariantes) H

Es una falsedad que se repite a menudo que el previo uniforme no es informativo, pero después de una transformación arbitraria de sus parámetros, y un previo uniforme en los nuevos parámetros significa algo completamente diferente. Si un cambio arbitrario de parametrización afecta su previo, entonces su previo es claramente informativo.

  1. Usar los Jeffrey es, por definición , equivalente a usar un plano antes de aplicar la transformación estabilizadora de la varianza.

  2. Desde un punto de vista matemático, el uso de Jeffreys antes y el uso de un previo plano después de aplicar la transformación estabilizadora de varianza son equivalentes. Desde el punto de vista humano, este último es probablemente mejor porque el espacio de parámetros se vuelve "homogéneo" en el sentido de que las diferencias son todas iguales en todas las direcciones, sin importar dónde se encuentre en el espacio de parámetros.

Considere su ejemplo de Bernoulli. ¿No es un poco extraño que una calificación del 99% en una prueba sea la misma distancia al 90% que el 59% al 50%? Después de su transformación estabilizadora de varianza, el par anterior está más separado, como deberían estar. Coincide con nuestra intuición sobre distancias reales en el espacio. (Matemáticamente, la transformación estabilizadora de la varianza está haciendo que la curvatura de la pérdida logarítmica sea igual a la matriz de identidad).

Neil G
fuente
1. Estoy de acuerdo en que un previo uniforme no significa un previo "no informativo", pero mi comentario sobre no valorar un cierto valor sobre otro valor aún se mantiene (bajo esa parametrización particular). 2. La adecuación de un prior es muy preocupante . Si usted tiene un indebidas de datos anteriores y que tienen, se no garantiza que va a tener un posterior adecuado. Entonces es muy preocupante.
Greenparker
1. Pero ese es el punto: la parametrización es arbitraria, por lo que no tiene sentido decir que no está valorando un valor sobre otro. 2. En la práctica, nunca lo he encontrado preocupante. Supongo que podría ser preocupante para otras personas.
Neil G
1. Punto justo. 2. No estoy seguro de los problemas que enfrenta, pero incluso la simple probabilidad gaussiana con un Jeffreys anterior puede tener un posterior incorrecto. Mira mi respuesta aquí .
Greenparker
@Greenparker Tienes razón. Aclararé por qué no me concierne en mi respuesta.
Neil G
No creo que la edición sea correcta. Si la parte posterior es inadecuada, entonces MCMC es ciertamente absurdo ya que está tratando de extraer de una distribución indefinida. Imagínese tratando de muestrear desde Uniform usando cualquier esquema de muestreo. Sin embargo, el algoritmo MCMC aún puede ser ergódico (cuando tiene una recurrencia nula), pero sus muestras serán inútiles. (0,)
Greenparker
5

La página de Wikipedia que proporcionó no usa realmente el término "transformación estabilizadora de la varianza". El término "transformación estabilizadora de la varianza" se usa generalmente para indicar transformaciones que hacen que la varianza de la variable aleatoria sea una constante. Aunque en el caso de Bernoulli, esto es lo que está sucediendo con la transformación, ese no es exactamente el objetivo. El objetivo es obtener una distribución uniforme, y no solo una variación estabilizadora.

Recuerde que uno de los propósitos principales de usar Jeffreys antes es que es invariante bajo transformación. Esto significa que si vuelve a parametrizar la variable, lo anterior no cambiará.

1)

Los Jeffreys anteriores, en este caso de Bernoulli, como usted ha señalado, es un beta . p γ ( γ ) 1(1/2,1/2)

pγ(γ)1γ(1γ).

Reparametrizando con , podemos encontrar la distribución de θ . Primero veamos que θ = arcsin ( γ=sin2(θ)θ, y desde0<γ<1,0<θ<π/2. Recuerde quesin2(x)+cos2(x)=1. F θ ( x )θ=arcsin(γ)0<γ<10<θ<π/2sin2(x)+cos2(x)=1

Fθ(x)=P(θ<x)=P(sin2(θ)<sin2(x))=P(γ<sin2(x))=Fγ(sin2(x))fθ(x)=dFγ(sin2(x)dx=2sin(x)cos(x)pγ(sin2(x))sin(x)cos(x)1sin2(x)(1sin2(x))=1.

θ(0,π/2)sin2(θ)θ

2)

q(θ|x)f(x|θ)f(θ)f(x|θ).

If the transformation is such that the transformed space is bounded, (like (0,π/2) in this example), then the uniform distribution will be proper. If the transformed space is unbounded, then the uniform prior will be improper, but often the resulting posterior will be proper. Although, one should always verify that this is the case.

Greenparker
fuente
This idea that you are "not committing to any value" by using a diffuse prior is wrong. The proof is that you can take any transformation of the space and the diffuse prior will mean something completely different.
Neil G
Mi comentario sobre "no comprometerse con ningún valor" se refiere solo a esa parametrización particular. Por supuesto, las transformaciones cambiarán la forma en que se distribuye la masa (al igual que en este ejemplo de Bernoulli).
Greenparker
Like I said below your other comment, the parametrization is arbitrary, which is why the statement "not committing to any value" is meaningless.
Neil G