Estoy escribiendo un breve ensayo teórico para un curso de Estadística Bayesiana (en un M.Sc. de Economía) sobre antecedentes no informativos y estoy tratando de entender cuáles son los pasos en el desarrollo de esta teoría.
En este momento, mi cronograma consta de tres pasos principales: el principio de indiferencia de Laplace (1812), los antecedentes no invariantes (Jeffreys (1946)), la referencia de Bernardo anterior (1979).
De mi revisión de la literatura, he entendido que el principio de indiferencia (Laplace) fue la primera herramienta utilizada para representar la falta de información previa, pero el requisito de invariancia que falta ha llevado a su abandono hasta los años 40, cuando Jeffreys introdujo su método, que tiene el propiedad deseada de invariancia. El surgimiento de paradojas de la marginación debido al uso descuidado de una experiencia inadecuada en los años 70 empujó a Bernardo a elaborar su teoría previa de referencia para tratar este tema.
Al leer la literatura, cada autor cita diferentes contribuciones: la máxima entropía de Jaynes, la probabilidad de traducción de datos de Box y Tiao, Zellner, ...
En su opinión, ¿cuáles son los pasos cruciales que me estoy perdiendo?
EDITAR : agrego mis referencias (principales), si alguien necesita:
1) La selección de prior por reglas formales, Kass, Wasserman
2) Un catálogo de antecedentes no informativos, Yang, Berger
3) Interpretación previa no informativa de Bayesianos y problemas de construcción y aplicaciones
fuente
Respuestas:
Lo que parece faltar es la historia temprana. Puede consultar el documento de Fienberg (2006) ¿Cuándo la inferencia bayesiana se convirtió en "bayesiana"? . Primero, se da cuenta de que Thomas Bayes fue el primero que sugirió usar un uniforme antes:
Pierre Simon Laplace fue la siguiente persona en discutirlo:
Además, Carl Friedrich Gauss también se refirió al uso de un previo poco informativo, como lo señalan David y Edwards (2001) en su libro Lecturas comentadas en la historia de la estadística :
y como observa Fienberg (2006), la "probabilidad inversa" (y lo que sigue, usando antecedentes uniformes) era popular a principios del siglo XIX
Stigler (1986) también revisa la historia temprana del enfoque bayesiano en su libro La historia de las estadísticas: la medición de la incertidumbre antes de 1900 .
En su breve reseña tampoco parece mencionar a Ronald Aylmer Fisher (nuevamente citado después de Fienberg, 2006):
Jaynes (1986) proporcionó su propio artículo de revisión breve Bayesian Methods: General Background. Un tutorial introductorio que puede consultar, pero que no se centra en los antecedentes no informativos. Además, como señaló AdamO , definitivamente debería leer The Epic Story of Maximum Likelihood de Stigler (2007).
También vale la pena mencionar que no existe un "previo no informativo" , por lo que muchos autores prefieren hablar de "anteriores imprecisos" o "anteriores informativos semanales" .
Kass y Wasserman (1996) proporcionan una revisión teórica en La selección de distribuciones previas por reglas formales , quienes entran en mayor detalle sobre la elección de priors, con una discusión extendida sobre el uso de priors no informativos.
fuente
Algunos comentarios sobre defectos de antecedentes no informativos (antecedentes no informativos) son probablemente una buena idea ya que la investigación de tales defectos ayudó al desarrollo del concepto de antecedentes no informativos en la historia.
Es posible que desee agregar algunos comentarios sobre los inconvenientes / defectos de la adopción de anteriores no informativos. Entre muchas críticas, señalo dos.
(1) En general, la adopción de antecedentes no informativos tiene problemas de consistencia, especialmente cuando la distribución del modelo tiene un comportamiento multimodal.
Este problema no es exclusivo de los antecedentes no informativos, sino que es compartido por muchos otros procedimientos bayesianos como se señala en el siguiente documento junto con sus discusiones.
Diaconis, Persi y David Freedman. "Sobre la consistencia de las estimaciones de Bayes". Los Anales de Estadísticas (1986): 1-26.
Hoy en día el prior no informativo ya no es un foco de investigación. Parece que hay más interés en opciones más flexibles de anteriores en entornos no paramétricos. Algunos ejemplos son el proceso gaussiano previo en el procedimiento no paramétrico de Bayes o un modelo flexible como una mezcla de antecedentes de Dirichlet, como en
Antoniak, Charles E. "Mezclas de procesos de Dirichlet con aplicaciones a problemas no paramétricos bayesianos". Los anales de las estadísticas (1974): 1152-1174.
Pero, de nuevo, un prior tiene sus propios problemas de consistencia.
(2) La mayoría de los llamados "antecedentes no informativos" no están bien definidos.
Este es probablemente el problema más evidente asociado con antecedentes no informativos durante su desarrollo.
Un ejemplo es que la definición de límite de prior no informativo como límite de una secuencia de previos apropiados conducirá a una paradoja de marginación. Como mencionó, la referencia previa de Bernardo también tiene el problema de que Berger nunca probó que su definición formal es independiente de su construcción / partición. Ver la discusión en
Berger, James O., José M. Bernardo y Dongchu Sun. "La definición formal de referencias previas". The Annals of Statistics (2009): 905-938.
Una mejor definición sobre el previo de Jeffreys que está bien definido es que se elige como un prior de tal manera que sea invariable bajo cierta traducción paralela sobre la variedad Riemanniana equipada con la métrica de información de Fisher, pero incluso eso no resuelve el primer problema.
También es posible que desee leer mi explicación sobre la paradoja de la marginación .
fuente
Hubiera publicado en los comentarios, pero supongo que todavía no tengo la reputación. Lo único que falta, no en los comentarios ya marcados, es un caso especial de antecedentes no informativos cuyos orígenes he tratado de cazar y no he encontrado. Puede preceder al papel de Jeffreys.
Para la distribución normal, he visto la distribución de Cauchy utilizada como información no informativa previa para datos con una probabilidad normal. La razón es que la precisión de la distribución de Cauchy es cero, donde la precisión es una dividida por la varianza. Crea un conjunto bastante peculiar de conceptos contradictorios.
Dependiendo de cómo se defina la integral, no hay una varianza definida o va al infinito respecto a la mediana, lo que implica que la precisión va a cero. En la actualización conjugada, que no se aplicaría aquí, agrega las precisiones ponderadas. Creo que es por eso que se formó esta idea de un prior adecuado con una densidad perfectamente imprecisa. También es equivalente a la t de Student con un grado de libertad, que también podría ser la fuente.
Las dos primeras referencias a la distribución de Cauchy son funciones de probabilidad. El primero en una carta de Poisson a Laplace como una excepción al Teorema del límite central. El segundo fue en 1851 artículos de revistas en una batalla entre Bienayme 'y Cauchy sobre la validez de los mínimos cuadrados ordinarios.
He encontrado referencias a su uso como información no informativa antes de la década de 1980, pero no puedo encontrar un primer artículo o libro. Tampoco he encontrado una prueba de que no sea informativo. Encontré una cita al libro de Jeffreys de 1961 sobre teoría de la probabilidad, pero nunca solicité el libro a través de un préstamo interbibliotecario.
Puede ser simplemente débilmente informativo. La región de densidad más alta del 99.99% es de 1272 rangos semi-intercuartiles de ancho.
Espero que ayude. Es un caso especial extraño, pero ves que aparece en varios documentos de regresión. Satisface los requisitos para una acción de Bayes al ser un prior adecuado, al tiempo que influye mínimamente en la ubicación y la escala.
fuente