¿Qué es un "previo no informativo"? ¿Podemos tener uno que realmente no tenga información?

73

Inspirado por un comentario de esta pregunta :

¿Qué consideramos "no informativo" en un previo, y qué información todavía está contenida en un previo supuestamente no informativo?

En general, veo lo anterior en un análisis en el que es un análisis de tipo frecuentista que intenta tomar prestadas algunas partes agradables del análisis bayesiano (ya sea una interpretación más fácil hasta el final 'es lo mejor que se puede hacer'), el prior especificado es un distribución uniforme a través de los límites de la medida del efecto, centrada en 0. Pero incluso eso afirma una forma a la anterior, simplemente es plana.

¿Existe un mejor desinformativo antes del uso?

bayesian prior Fomite
fuente

2

Quizás disfrutes de un vistazo al llamado Principio de máxima entropía . No tengo ganas de ampliar eso en una respuesta completa: el artículo de Wikipedia parece de buena calidad. Estoy bastante seguro de que algunos contribuyentes lo ampliarán mucho mejor de lo que lo haría yo.

Elvis

93

[Advertencia: como miembro portador de la tarjeta de la Sección Objective Bayes de ISBA , ¡mis puntos de vista no son representativos de todos los estadísticos bayesianos! Todo lo contrario ...]

En resumen, no existe un prior con "realmente ninguna información".

De hecho, el previo "no informativo" es lamentablemente un nombre inapropiado. Cualquier distribución previa contiene alguna especificación similar a cierta cantidad de información. Incluso (o especialmente) el uniforme anterior. De hecho, el uniforme previo solo es plano para una determinada parametrización del problema. Si uno cambia a otra parametrización (incluso limitada), el cambio de variable jacobiano entra en la imagen y la densidad y el anterior ya no es plano.

Como señaló Elvis, la entropía máxima es un enfoque recomendado para seleccionar los llamados antecedentes "no informativos". Sin embargo, requiere (a) suficiente información sobre algunos momentos de la distribución anterior para especificar las restricciones $h(\theta)$ $\pi(\cdot)$ que conducen al MaxEnt anterior y (b) la elección preliminar de una medida de referencia [en configuraciones continuas] , ¡una elección que devuelve el debate a su etapa inicial! (Además, la parametrización de las restricciones (es decir, la elección de ) afecta la forma delMaxEntanteriorresultante).

\int_{Θ} h (θ) d π (θ) = h_{0}

$\int_{\Theta} h(\theta)\,\text{d}\pi(\theta) = \mathfrak{h}_0$

π^{*} (θ) \propto \exp {λ^{T} h (θ)}

$\pi^*(\theta)\propto \exp\{ \lambda^\text{T}h(\theta) \}$

d μ (θ)

$\text{d}\mu(\theta)$

h

$h$

José Bernardo ha producido una teoría original de referencias previas en la que elige la previa para maximizar la información que aportan los datos al maximizar la distancia de Kullback entre la anterior y la posterior. En los casos más simples sin parámetros molestos, la solución es el previo de Jeffreys. En problemas más complejos, (a) debe hacerse una elección de los parámetros de interés (o incluso una clasificación de su orden de interés); (b) el cálculo de lo anterior está bastante involucrado y requiere una secuencia de conjuntos compactos integrados para evitar problemas de incorrección. (Ver, por ejemplo, The Bayesian Choice para más detalles).

En un giro interesante, algunos investigadores fuera de la perspectiva bayesiana han estado desarrollando procedimientos llamados distribuciones de confianza que son distribuciones de probabilidad en el espacio de parámetros, construidas por inversión de procedimientos basados en frecuencia sin una estructura previa explícita o incluso una medida dominante en este espacio de parámetros. Argumentan que esta ausencia de previo bien definido es una ventaja, aunque el resultado definitivamente depende de la elección del procedimiento de inicialización basado en la frecuencia.

En resumen, no hay una opción "mejor" (o incluso "mejor") para "el" "no informativo" anterior. Y considero que así es como deberían ser las cosas porque la naturaleza misma del análisis bayesiano implica que la elección de la distribución previa es importante. Y que no hay comparación de antecedentes: uno no puede ser "mejor" que otro. (Al menos antes de observar los datos: una vez que se observa, la comparación de los antecedentes se convierte en la elección del modelo). La conclusión de José Bernardo, Jim Berger, Dongchu Sun y muchos otros bayesianos "objetivos" es que hay referencias previas más o menos equivalentes que uno puede usar cuando no esté seguro acerca de la información previa de uno o cuando busque una inferencia bayesiana de referencia, algunos de los anteriores están parcialmente respaldados por argumentos de teoría de la información,

Xi'an
fuente

14

(+1) ¿Tu libro? Oh demonios. Yo lo que tengo 387 preguntas para ti :)

Elvis

44

(+1) Para un objetivo (¡no menos!), Respuesta directa.

cardenal

2

+1 Gracias por una visión general buena y bien informada de los problemas.

whuber

2

Una excelente respuesta. Gracias. Y otro libro más para ir a la lista de deseos.

Fomite

1

Es casi injusto. ¡Después de todo, él es Christian Robert! Es una broma. Gran respuesta. Y me encantaría que @ Xi'an pudiera expandirlo en una publicación en su blog, especialmente sobre cómo la parametrización es importante para el tema de los antecedentes "no informativos".

Manoel Galdino

16

Una propiedad atractiva de los antecedentes formales no informativos es la "propiedad de emparejamiento frecuentista": significa que un intervalo posterior de credibilidad del 95% también es (al menos, aproximadamente) un intervalo de confianza del 95% en el sentido frecuentista. Esta propiedad es válida para la referencia previa de Bernardo, aunque los fundamentos de estas anteriores no informativas no están orientados hacia el logro de una buena propiedad de emparejamiento frecuente, si utiliza un previo no informativo "ingenuo" ("plano") como la distribución uniforme o un gaussiano distribución con una gran variación, entonces no hay garantía de que se mantenga la propiedad de coincidencia frecuente. Quizás la referencia previa de Bernardo no podría considerarse como la "mejor" opción de una previa no informativa, pero podría considerarse como la más exitosa.

Stéphane Laurent
fuente

9

$(-\infty,\infty)$ $(0,\infty)$ $p$ $\text{d}p/\sqrt{p(1-p)}$ $\pi$ $(0,1)$

$p$ $\text{d}p/p(1-p)$

Primero, ¡la traducción es buena!

Para E. LHOSTE: "Le calcul des probabilités appliqué à l'artillerie", Revue d'artillerie, tomo 91, mai à août 1923

Para A. RENYI: "Sobre una nueva teoría axiomática de la probabilidad" Acta Mathematica, Académie des Sciences hongroises, tomo VI, fasc.3-4, 1955

Puedo agregar: M. DUMAS: "Lois de probabilidad a priori de Lhoste", Ciencias y técnicas de armamento, 56, 4ème fascicule, 1982, pp 687-715

Heymann
fuente

3

¿Es posible que vuelva a escribir esto en inglés, incluso si se hace de manera bastante pobre a través de un servicio de traducción automática como Google Translate? Otros usuarios, que dominan tanto el francés como el inglés, pueden ayudarlo a copiarlo y editarlo.

Silverfish

3

\log σ

$\log\sigma$

\log p / (1 - p)

$\log p/(1-p)$

(0, \infty)

$(0,\infty)$

(0, 1)

$(0,1)$

(0, \infty)

$(0,\infty)$

(0, 1)

$(0,1)$

R

$\mathbb{R}$

2

\log ()

$\log()$

logit ()

$\text{logit}()$

3

Estoy de acuerdo con la excelente respuesta de Xi'an , señalando que no hay un solo previo que sea "poco informativo" en el sentido de no llevar información. Para ampliar este tema, quería señalar que una alternativa es realizar un análisis bayesiano dentro del marco de probabilidad impreciso (ver especialmente Walley 1991 , Walley 2000 ). Dentro de este marco, la creencia previa está representada por un conjunto de distribuciones de probabilidad $n \rightarrow \infty$

Este marco analítico ha sido axiomatizado por Walley como su propia forma especial de análisis probabilístico, pero es esencialmente equivalente a un análisis bayesiano robusto utilizando un conjunto de antecedentes, produciendo un conjunto correspondiente de posteriores. En muchos modelos, es posible establecer un conjunto de anteriores "no informativos" que permita que algunos momentos (p. Ej., La media anterior) varíen en todo el rango posible de valores, y esto sin embargo produce valiosos resultados posteriores, donde los momentos posteriores están limitados más fuerte Podría decirse que esta forma de análisis tiene una mejor pretensión de ser llamada "no informativa", al menos con respecto a los momentos que pueden variar en todo su rango permitido.

$X_1,...,X_n | \theta \sim \text{IID Bern}(\theta)$ $\theta$ $\mu$ $\kappa > 1$

\begin{aligned} π_{0} (θ | μ, κ) = Beta (θ | μ, κ) = Beta (θ | α = μ (κ - 1), β = (1 - μ) (κ - 1)) . \end{aligned}

$\begin{equation} \begin{aligned} \pi_0(\theta | \mu, \kappa) = \text{Beta}(\theta | \mu, \kappa) = \text{Beta} \Big( \theta \Big| \alpha = \mu (\kappa - 1), \beta = (1-\mu) (\kappa - 1) \Big). \end{aligned} \end{equation}$

$\mathbb{E}(\theta) = \mu$ $\mathbb{V}(\theta) = \mu(1-\mu) / \kappa$

P_{0} \equiv {Beta (μ, κ) | 0 ⩽ μ ⩽ 1} .

$\mathscr{P}_0 \equiv \Big\{ \text{Beta}(\mu, \kappa) \Big| 0 \leqslant \mu \leqslant 1 \Big\}. \quad \quad \quad \quad \quad$

Supongamos que observamos indicadores positivos en los datos. Luego, utilizando la regla de actualización para el modelo Bernoulli-beta, el conjunto posterior correspondiente es: $s = \sum_{i=1}^n x_i$

P_{x} = {Beta (\frac{s + μ (κ - 1)}{n + κ - 1}, n + κ) | 0 ⩽ μ ⩽ 1} .

$\mathscr{P}_\mathbf{x} = \Big\{ \text{Beta}\Big( \tfrac{s + \mu(\kappa-1)}{n + \kappa -1}, n+\kappa \Big) \Big| 0 \leqslant \mu \leqslant 1 \Big\}.$

El rango de valores posibles para la expectativa posterior es:

\frac{s}{n + κ - 1} ⩽ E (θ | x) ⩽ \frac{s + κ - 1}{n + κ - 1} .

$\frac{s}{n + \kappa-1} \leqslant \mathbb{E}(\theta | \mathbb{x}) \leqslant \frac{s + \kappa-1}{n + \kappa-1}.$

Lo importante aquí es que a pesar de que comenzamos con un modelo que no era "informativo" con respecto al valor esperado del parámetro (la expectativa previa oscilaba entre todos los valores posibles), sin embargo, terminamos con inferencias posteriores que son informativas con respecto a la expectativa posterior del parámetro (ahora se extienden sobre un conjunto más estrecho de valores). Como este rango de valores se reduce a un solo punto, que es el verdadero valor de . $n \rightarrow \infty$ $\theta$

Reinstalar a Mónica
fuente

+1. Interesante. ¿Qué es kappa en la última ecuación? ¿Debería ser la estrella kappa?

ameba dice Reinstate Monica

He editado para eliminar la variación en para dar un modelo más simple. Debería estar bien ahora.

κ

$\kappa$

Vuelva a instalar Mónica

¿Qué es un "previo no informativo"? ¿Podemos tener uno que realmente no tenga información?

Respuestas: