Ejemplo para un previo, que a diferencia de Jeffreys, conduce a un posterior que no es invariante

17

Estoy volviendo a publicar una "respuesta" a una pregunta que hice hace unas dos semanas aquí: ¿Por qué es útil el Jeffreys anterior? Sin embargo, realmente era una pregunta (y tampoco tenía derecho a publicar comentarios en ese momento), así que espero que esté bien hacer esto:

En el enlace anterior se discute que la característica interesante de Jeffreys antes es que, al volver a parametrizar el modelo, la distribución posterior resultante da probabilidades posteriores que obedecen las restricciones impuestas por la transformación. Digamos, como se discutió allí, cuando se pasa de la probabilidad de éxito θ en el ejemplo de Beta-Bernoulli a las probabilidades , debería darse el caso de que la posterior satisfaga .ψ=θ/(1θ)P(1/3θ2/3X=x)=P(1/2ψ2X=x)

Quería crear un ejemplo numérico de invariancia de Jeffreys antes de transformar en odds , y, lo que es más interesante, la falta de otros priors (digamos, Haldane, uniformes o arbitrarios).θψ

Ahora, si el posterior para la probabilidad de éxito es Beta (para cualquier Beta anterior, no solo Jeffreys), el posterior de las probabilidades sigue una distribución Beta del segundo tipo (ver Wikipedia) con los mismos parámetros . Entonces, como se destaca en el ejemplo numérico a continuación, no es demasiado sorprendente (al menos para mí) que haya invariancia para cualquier elección de Beta anterior (jugar con alpha0_Uy beta0_U), no solo Jeffreys, cf. La salida del programa.

library(GB2) 
# has the Beta density of the 2nd kind, the distribution of theta/(1-theta) if theta~Beta(alpha,beta)

theta_1 = 2/3 # a numerical example as in the above post
theta_2 = 1/3

odds_1 = theta_1/(1-theta_1) # the corresponding odds
odds_2 = theta_2/(1-theta_2)

n = 10 # some data
k = 4

alpha0_J = 1/2 # Jeffreys prior for the Beta-Bernoulli case
beta0_J = 1/2
alpha1_J = alpha0_J + k # the corresponding parameters of the posterior
beta1_J = beta0_J + n - k

alpha0_U = 0 # some other prior
beta0_U = 0
alpha1_U = alpha0_U + k # resulting posterior parameters for the other prior
beta1_U = beta0_U + n - k

# posterior probability that theta is between theta_1 and theta_2:
pbeta(theta_1,alpha1_J,beta1_J) - pbeta(theta_2,alpha1_J,beta1_J) 
# the same for the corresponding odds, based on the beta distribution of the second kind
pgb2(odds_1, 1, 1,alpha1_J,beta1_J) - pgb2(odds_2, 1, 1,alpha1_J,beta1_J) 

# same for the other prior and resulting posterior
pbeta(theta_1,alpha1_U,beta1_U) - pbeta(theta_2,alpha1_U,beta1_U)
pgb2(odds_1, 1, 1,alpha1_U,beta1_U) - pgb2(odds_2, 1, 1,alpha1_U,beta1_U)

Esto me lleva a las siguientes preguntas:

  1. ¿Me equivoco?
  2. Si no, ¿hay un resultado como que no haya falta de invariancia en las familias conjugadas, o algo así? (La inspección rápida me lleva a sospechar que, por ejemplo, tampoco podría producir falta de invariancia en el caso normal-normal).
  3. ¿Usted conoce a un ejemplo (preferentemente sencilla) en la que hacemos llegar falta de invariancia?
Christoph Hanck
fuente
1
No necesita el código R (que no puedo ejecutar con R versión 3.0.2) para verificar la invariancia ya que es una propiedad de la probabilidad. Lo que se entiende por invariancia previa es la construcción de una regla para la selección previa que no dependa de la elección de la parametrización del modelo de muestreo.
Xi'an
1
Lo siento por las molestias. Se ejecuta con R 3.1.2 en mi computadora. Si puedo hacer un seguimiento, ¿su comentario implica que entendí mal el comentario de Zen sobre la respuesta aceptada, punto 1., de Stephane Laurent sobre ¿Por qué es útil la anterior Jeffreys? ?
Christoph Hanck

Respuestas:

19

Su cálculo parece estar verificando que, cuando tenemos una distribución previa particular los siguientes dos procedimientosp(θ)

  1. Calcule la p posterior θ D ( θ D )pθD(θD)
  2. Transforme la parte posterior mencionada en la otra parametrización para obtener pψD(ψD)

y

  1. pθ(θ)pψ(ψ)
  2. pψ(ψ)pψD(ψD)

ψψθ

Sin embargo, este no es el punto de la invariancia en cuestión. En cambio, la pregunta es si, cuando tenemos un Método particular para decidir el Prior, los siguientes dos procedimientos:

  1. pθ(θ)
  2. pψ(ψ)

y

  1. pψ(ψ)

ψ

θ[0,1]ψ[0,)

θψψ

Juho Kokkala
fuente
1

Parece que está verificando que las probabilidades inducidas por los datos no se ven afectadas por la parametrización, que no tiene nada que ver con lo anterior.

Si su forma de elegir priors es, por ejemplo, "elegir el uniforme anterior", entonces lo que es uniforme bajo una parametrización (digamos Beta, es decir Beta (1,1)) no es uniforme bajo otro, digamos, BetaPrime (1,1 ) (que está sesgado): es BetaPrime (1, -1) es uniforme si existe tal cosa.

El Jeffreys prior es la única "forma de elegir los prior" que es invariable bajo reparametrización. Por lo tanto, es menos suposible que cualquier otra forma de elegir priors.

Neil G
fuente
No creo que el prior de Jeffrey sea el único anterior invariable. Cuando difieren, las medidas de Haar izquierda y derecha son invariables.
Xi'an
@Neil G, no estoy seguro de poder seguir tu razonamiento de que solo miro la probabilidad. Cuando enchufe (por ejemplo) alpha1_Jen pbetay pgb2este parámetro se determina por tanto un parámetro previo ( alpha1_J) y los datos ( k), del mismo modo para todos los otros parámetros.
Christoph Hanck
1
(+1) Esperarías que la obtención de antecedentes subjetivos también sea invariante para la parametrización.
Scortchi - Restablece a Monica
1
@ Zen: sí, de verdad, fui demasiado apresurado: las medidas de Haar son un ejemplo incorrecto. Aún así, me pregunto por qué Jeffreys es el único invariante anterior ...
Xi'an
2
@ Xi'an: si mi memoria no me falla, hay un Teorema en el libro de Cencov ( amazon.com/… ) que, en cierto sentido (?), Demuestra que Jeffreys antes es el único hombre en la ciudad con el invariancia necesaria Su prueba es inaccesible para mí. Utiliza el lenguaje de la teoría de categorías, functores, morfismos y todo eso. en.wikipedia.org/wiki/Category_theory
Zen