Historia de la teoría previa no informativa

24

Estoy escribiendo un breve ensayo teórico para un curso de Estadística Bayesiana (en un M.Sc. de Economía) sobre antecedentes no informativos y estoy tratando de entender cuáles son los pasos en el desarrollo de esta teoría.

En este momento, mi cronograma consta de tres pasos principales: el principio de indiferencia de Laplace (1812), los antecedentes no invariantes (Jeffreys (1946)), la referencia de Bernardo anterior (1979).

De mi revisión de la literatura, he entendido que el principio de indiferencia (Laplace) fue la primera herramienta utilizada para representar la falta de información previa, pero el requisito de invariancia que falta ha llevado a su abandono hasta los años 40, cuando Jeffreys introdujo su método, que tiene el propiedad deseada de invariancia. El surgimiento de paradojas de la marginación debido al uso descuidado de una experiencia inadecuada en los años 70 empujó a Bernardo a elaborar su teoría previa de referencia para tratar este tema.

Al leer la literatura, cada autor cita diferentes contribuciones: la máxima entropía de Jaynes, la probabilidad de traducción de datos de Box y Tiao, Zellner, ...

En su opinión, ¿cuáles son los pasos cruciales que me estoy perdiendo?

EDITAR : agrego mis referencias (principales), si alguien necesita:

1) La selección de prior por reglas formales, Kass, Wasserman

2) Un catálogo de antecedentes no informativos, Yang, Berger

3) Interpretación previa no informativa de Bayesianos y problemas de construcción y aplicaciones

Doctorado
fuente
10
una vez que haya terminado ese ensayo teórico, ¿sería amable de vincularlo aquí?
Nikolas Rieble
2
Sería genial si pudieras responder a tu propia pregunta resumiendo tu tesis.
Tim
3
He vinculado este artículo antes, pero la historia épica de máxima probabilidad , cubre la "brecha" histórica entre Laplace y Jeffrey: donde el trabajo de Gauss, Hotelling, Fisher, Bernoulli y otros señalaron la estimación hacia la máxima probabilidad durante ese tiempo.
AdamO
2
@alessandro describe cómo se mantuvo el enfoque laplaciano durante básicamente un siglo después de que Gauss desarrolló y usó impresiones uniformes (concibiéndolas como no informativas). Pearson y Kristine Smith rechazaron el LD porque la inferencia resultante no se ocupó de las probabilidades como desearía un bayesiano.
AdamO
77
Minuto (pedante, si lo desea), pero posiblemente punto útil: Jeffreys = (Profesor Sir) Harold Jeffreys, matemático británico aplicado, geofísico y mucho más; Me explicó en una carta hace 40 años que prefería los posesivos de Jeffreys porque Jeffreys era susceptible de mutación a los bastante incorrectos de Jeffrey. Arriba tenemos un ejemplo! (No ayuda que Richard C. Jeffrey, filósofo estadounidense, una persona completamente diferente, también haya escrito sobre probabilidad.)
Nick Cox

Respuestas:

13

Lo que parece faltar es la historia temprana. Puede consultar el documento de Fienberg (2006) ¿Cuándo la inferencia bayesiana se convirtió en "bayesiana"? . Primero, se da cuenta de que Thomas Bayes fue el primero que sugirió usar un uniforme antes:

En el lenguaje estadístico actual, el artículo de Bayes introduce una distribución previa uniforme en el parámetro binomial, , razonando por analogía con una "tabla de billar" y basándose en la forma de la distribución marginal de la variable aleatoria binomial, y no en el principio de "razón insuficiente", como muchos otros han afirmado.θ

Pierre Simon Laplace fue la siguiente persona en discutirlo:

Laplace también articuló, más claramente que Bayes, su argumento para la elección de una distribución previa uniforme, argumentando que la distribución posterior del parámetro debería ser proporcional a lo que ahora llamamos la probabilidad de los datos, es decir,θ

F(θX1,X2,...,Xnorte)F(X1,X2,...,Xnorteθ)

Ahora entendemos que esto implica que la distribución previa de es uniforme, aunque en general, por supuesto, la anterior puede no existir.θ

Además, Carl Friedrich Gauss también se refirió al uso de un previo poco informativo, como lo señalan David y Edwards (2001) en su libro Lecturas comentadas en la historia de la estadística :

Gauss utiliza un argumento ad hoc de tipo bayesiano para mostrar que la densidad posterior de es proporcional a la probabilidad (en terminología moderna):h

F(hEl |X)F(XEl |h)

donde ha asumido que se distribuye uniformemente sobre . Gauss no menciona ni Bayes ni Laplace, aunque este último había popularizado este enfoque desde Laplace (1774).h[0 0,)

y como observa Fienberg (2006), la "probabilidad inversa" (y lo que sigue, usando antecedentes uniformes) era popular a principios del siglo XIX

[...] Por lo tanto, en retrospectiva, no debería sorprender ver la probabilidad inversa como el método de elección de los grandes estadísticos ingleses del cambio de siglo, como Edgeworth y Pearson. Por ejemplo, Edgeworth (49) dio una de las primeras derivaciones de lo que ahora conocemos como la distribución Student, la distribución posterior de la media de una distribución normal dada distribuciones previas uniformes en y [...]tμμh=σ-1

Stigler (1986) también revisa la historia temprana del enfoque bayesiano en su libro La historia de las estadísticas: la medición de la incertidumbre antes de 1900 .

En su breve reseña tampoco parece mencionar a Ronald Aylmer Fisher (nuevamente citado después de Fienberg, 2006):

Fisher se alejó de los métodos inversos y se dirigió hacia su propio enfoque de inferencia que llamó la "probabilidad", un concepto que, según él, era distinto de la probabilidad. Pero la progresión de Fisher en este sentido fue lenta. Stigler (164) ha señalado que, en un manuscrito inédito que data de 1916, Fisher no distinguió entre probabilidad y probabilidad inversa con un plano anterior, aunque cuando más tarde hizo la distinción afirmó haber entendido en este momento.

Jaynes (1986) proporcionó su propio artículo de revisión breve Bayesian Methods: General Background. Un tutorial introductorio que puede consultar, pero que no se centra en los antecedentes no informativos. Además, como señaló AdamO , definitivamente debería leer The Epic Story of Maximum Likelihood de Stigler (2007).

También vale la pena mencionar que no existe un "previo no informativo" , por lo que muchos autores prefieren hablar de "anteriores imprecisos" o "anteriores informativos semanales" .

Kass y Wasserman (1996) proporcionan una revisión teórica en La selección de distribuciones previas por reglas formales , quienes entran en mayor detalle sobre la elección de priors, con una discusión extendida sobre el uso de priors no informativos.

Tim
fuente
Ese era el tipo de respuesta que estaba buscando. ¡Gracias!
PhDing
Creo que Fienberg extendió demasiado el orgullo de los bayesianos. Personalmente, no me gusta usar "probabilidad inversa" para definir algo porque no parece ser consistente con la imagen de geometría integral propuesta por Adler y Taylor. Cualquier buen procedimiento estadístico debe tener su correspondencia matemática, la probabilidad inversa es tan retorcida que difícilmente puede analizarla cuando el problema es un poco más sensible según mi experiencia.
Henry.L
@ Henry.L ... sin embargo, es parte de la historia del pensamiento estadístico :) Tenga en cuenta también que no es solo Fienberg quien proporciona tales ejemplos. Todo el rebelde anti-inverso de probabilidad y anti-bayesiano comenzó porque se hizo bastante popular.
Tim
@Tim Sí, supongo que eso es lo que Thomas Kuhn llamó "cambio de esquema" y también conocido como "... los oponentes eventualmente mueren, y una nueva generación crece" :)).
Henry.L
5

Algunos comentarios sobre defectos de antecedentes no informativos (antecedentes no informativos) son probablemente una buena idea ya que la investigación de tales defectos ayudó al desarrollo del concepto de antecedentes no informativos en la historia.

Es posible que desee agregar algunos comentarios sobre los inconvenientes / defectos de la adopción de anteriores no informativos. Entre muchas críticas, señalo dos.

(1) En general, la adopción de antecedentes no informativos tiene problemas de consistencia, especialmente cuando la distribución del modelo tiene un comportamiento multimodal.

Este problema no es exclusivo de los antecedentes no informativos, sino que es compartido por muchos otros procedimientos bayesianos como se señala en el siguiente documento junto con sus discusiones.

Diaconis, Persi y David Freedman. "Sobre la consistencia de las estimaciones de Bayes". Los Anales de Estadísticas (1986): 1-26.

Hoy en día el prior no informativo ya no es un foco de investigación. Parece que hay más interés en opciones más flexibles de anteriores en entornos no paramétricos. Algunos ejemplos son el proceso gaussiano previo en el procedimiento no paramétrico de Bayes o un modelo flexible como una mezcla de antecedentes de Dirichlet, como en

Antoniak, Charles E. "Mezclas de procesos de Dirichlet con aplicaciones a problemas no paramétricos bayesianos". Los anales de las estadísticas (1974): 1152-1174.

Pero, de nuevo, un prior tiene sus propios problemas de consistencia.

(2) La mayoría de los llamados "antecedentes no informativos" no están bien definidos.

Este es probablemente el problema más evidente asociado con antecedentes no informativos durante su desarrollo.

Un ejemplo es que la definición de límite de prior no informativo como límite de una secuencia de previos apropiados conducirá a una paradoja de marginación. Como mencionó, la referencia previa de Bernardo también tiene el problema de que Berger nunca probó que su definición formal es independiente de su construcción / partición. Ver la discusión en

Berger, James O., José M. Bernardo y Dongchu Sun. "La definición formal de referencias previas". The Annals of Statistics (2009): 905-938.

Una mejor definición sobre el previo de Jeffreys que está bien definido es que se elige como un prior de tal manera que sea invariable bajo cierta traducción paralela sobre la variedad Riemanniana equipada con la métrica de información de Fisher, pero incluso eso no resuelve el primer problema.

También es posible que desee leer mi explicación sobre la paradoja de la marginación .

Henry.L
fuente
Esta es una excelente publicación y ninguno de nosotros lo pensó. Gran trabajo.
Dave Harris
He realizado varias ediciones pequeñas en la expresión sin intentar cambiar ningún significado o implicación. Por favor, compruebe que su significado es invariable en la edición.
Nick Cox
4

Hubiera publicado en los comentarios, pero supongo que todavía no tengo la reputación. Lo único que falta, no en los comentarios ya marcados, es un caso especial de antecedentes no informativos cuyos orígenes he tratado de cazar y no he encontrado. Puede preceder al papel de Jeffreys.

Para la distribución normal, he visto la distribución de Cauchy utilizada como información no informativa previa para datos con una probabilidad normal. La razón es que la precisión de la distribución de Cauchy es cero, donde la precisión es una dividida por la varianza. Crea un conjunto bastante peculiar de conceptos contradictorios.

1πΓΓ2+(X-μ)2.

Dependiendo de cómo se defina la integral, no hay una varianza definida o va al infinito respecto a la mediana, lo que implica que la precisión va a cero. En la actualización conjugada, que no se aplicaría aquí, agrega las precisiones ponderadas. Creo que es por eso que se formó esta idea de un prior adecuado con una densidad perfectamente imprecisa. También es equivalente a la t de Student con un grado de libertad, que también podría ser la fuente.

2Γ

Las dos primeras referencias a la distribución de Cauchy son funciones de probabilidad. El primero en una carta de Poisson a Laplace como una excepción al Teorema del límite central. El segundo fue en 1851 artículos de revistas en una batalla entre Bienayme 'y Cauchy sobre la validez de los mínimos cuadrados ordinarios.

He encontrado referencias a su uso como información no informativa antes de la década de 1980, pero no puedo encontrar un primer artículo o libro. Tampoco he encontrado una prueba de que no sea informativo. Encontré una cita al libro de Jeffreys de 1961 sobre teoría de la probabilidad, pero nunca solicité el libro a través de un préstamo interbibliotecario.

Puede ser simplemente débilmente informativo. La región de densidad más alta del 99.99% es de 1272 rangos semi-intercuartiles de ancho.

Espero que ayude. Es un caso especial extraño, pero ves que aparece en varios documentos de regresión. Satisface los requisitos para una acción de Bayes al ser un prior adecuado, al tiempo que influye mínimamente en la ubicación y la escala.

Dave Harris
fuente