Distribuciones previas poco informativas para parámetros de escala

21

He estado usando distribuciones normales de registro como distribuciones anteriores para parámetros de escala (para distribuciones normales, distribuciones t, etc.) cuando tengo una idea aproximada sobre cuál debería ser la escala, pero quiero equivocarme al decir que no sé mucho al respecto. Lo uso porque ese uso tiene un sentido intuitivo para mí, pero no he visto a otros usarlo. ¿Hay algún peligro oculto para esto?

John Salvatier
fuente
1
Las normales tienen antecedentes conjugados: en.wikipedia.org/wiki/Normal-gamma_distribution . Puede encontrar estos mucho más fáciles de usar.
whuber
Interesante. Estoy haciendo cosas numéricas, ¿hay alguna ventaja en estas distribuciones además de la congugalidad?
John Salvatier
55
¿No es realmente mi área pero este 'podría' ser relevante? Gelman A. Distribuciones previas para parámetros de varianza en modelos jerárquicos. Análisis Bayesiano 2006; 1: 515-533. dx.doi.org/10.1214/06-BA117A
onestop el
He encontrado esta distribución Scaled-Beta propuesta por Pérez y Pericchi. 2
Los anteriores conjugados para una distribución particular como la normal son solo anteriores que conducen a esa distribución como una distribución posterior dado un conjunto de datos. Si usa un conjugado antes, no tiene que meterse en el lío de hacer la integración para calcular el posterior. Facilita las cosas, pero actualmente MCMC hace que sea mucho más fácil usar una amplia variedad de posibles antecedentes.
Michael R. Chernick

Respuestas:

20

Recomendaría usar una "distribución Beta del segundo tipo" (Beta 2 para abreviar) para una distribución ligeramente informativa , y usar la distribución gamma inversa conjugada si tienes creencias previas fuertes . La razón por la que digo esto es que el previo conjugado no es robusto en el sentido de que, si el previo y los datos entran en conflicto, el anterior tiene una influencia ilimitada en la distribución posterior. Tal comportamiento es lo que yo llamaría "dogmático", y no está justificado por información previa leve .

La propiedad que determina la robustez es el comportamiento de cola del anterior y de la probabilidad. Un artículo muy bueno que describe los detalles técnicos está aquí . Por ejemplo, se puede elegir una probabilidad (digamos una distribución t) tal que como observación (es decir, se vuelve arbitrariamente grande) se descarta del análisis de un parámetro de ubicación (de la misma manera que lo haría hacer intuitivamente con tal observación). La tasa de "descarte" depende de qué tan pesadas sean las colas de la distribución.yyo

Aquí se pueden encontrar algunas diapositivas que muestran una aplicación en el contexto de modelado jerárquico (muestra la forma matemática de la distribución Beta 2 ), con un documento aquí .

Si no se encuentra en el contexto de modelado jerárquico, sugeriría comparar el posterior (o cualquier resultado que esté creando) pero use Jeffreys antes para un parámetro de escala, que es dado por . Esto se puede crear como un límite de la densidad Beta 2 ya que ambos parámetros convergen a cero. Para una aproximación, puede usar valores pequeños. Pero trataría de resolver la solución analíticamente si fuera posible (y si no es una solución analítica completa, obtenga la solución analítica tan progresada como sea posible), porque no solo se ahorrará tiempo de cálculo, sino que también También es probable que comprenda mejor lo que sucede en su modelo.pags(σ)1σ

Otra alternativa es especificar su información previa en forma de restricciones (media igual a , varianza igual a , IQR igual a , etc. con los valores de especificados por usted mismo), y luego usar el distribución máxima de entropía (busque en cualquier trabajo de Edwin Jaynes o Larry Bretthorst una buena explicación de qué es la máxima entropía y qué no es) con respecto a la "medida invariante" de Jeffreys . METROVyoQRMETRO,V,yoQRmetro(σ)=1σ

MaxEnt es la versión "Rolls Royce", mientras que la Beta 2 es más una versión "sedán". La razón de esto es que la distribución MaxEnt "asume lo más mínimo" sujeto a las restricciones que ha puesto en ella (por ejemplo, sin restricciones significa que solo obtiene Jeffreys antes), mientras que la distribución Beta 2 puede contener algunas características "ocultas" que puede o no ser deseable en su caso específico (por ejemplo, si la información previa es más confiable que los datos, entonces Beta 2 es mala).

La otra buena propiedad de la distribución MaxEnt es que si no hay restricciones no especificadas que operan en el mecanismo de generación de datos, entonces la distribución MaxEnt es abrumadoramente la distribución más probable que verá (estamos hablando de miles de millones y billones a uno). Por lo tanto, si la distribución que ve no es la MaxEnt, entonces es probable que haya restricciones adicionales que no haya especificado que operen en el proceso verdadero, y los valores observados pueden proporcionar una pista sobre cuál podría ser esa restricción.

probabilidadislogica
fuente
@probabilityislogic Buena respuesta. ¿Sabes dónde puedo encontrar los documentos que mencionas en el tercer párrafo? Los enlaces no funcionan.
1
uno que funciona para el periódico está aquí . Fue en un sitio web de la conferencia "Objective Bayes 09" (las reuniones de Valencia). No creo que los toboganes estarán disponibles más, ya que el sitio web de la conferencia ha sido retirado ... :( lástima, era un buen conjunto de diapositivas que horshoe hace antes aspecto interesante en el enlace que ya ha proporcionado..
probabilidadislogica
simituna2
@ Procrastinator ¿Estoy en lo cierto al suponer que solo quieres los antecedentes adecuados? No lo dijiste, pero si permites los antecedentes impropios, los antecedentes de Jeffreys ya mencionados funcionarían y podría citar la teoría de probabilidad de Jeffreys, los libros de Dennis Lindley o la enciclopedia de estadísticas. La forma en que se puede verificar la solicitud usando Google para encontrar la respuesta y, si no se puede encontrar, probablemente no haya nada en la literatura fuera de las que ha excluido.
Michael R. Chernick
@MichaelChernick Sí, tienes razón, solo me interesan los antecedentes adecuados. La razón de esto es que para los antecedentes apropiados (1) la existencia del posterior no es restrictiva para ciertos modelos y (2) quería comprobar si no me falta otra propuesta interesante. Estoy de acuerdo con usted en que parece que los anteriores de Gelman, Pericchi y Gamma son los más populares en la literatura, pero también he notado que hay una tendencia en proponer anteriores de cola pesada para producir inferencias 'robustas'.
13

El siguiente artículo de Daniels compara una variedad de antecedentes de contracción para la varianza. Estos son antecedentes adecuados, pero no estoy seguro de cuántos podrían llamarse no informativos, si los hay. Pero también proporciona una lista de antecedentes no informativos (no todos apropiados). Debajo está la referencia.

MJ Daniels (1999), A previo para la varianza en modelos jerárquicos , Canadian J. Stat. vol. 27, no. 3, págs. 567–578.

Priors

  1. K
  2. τ-2
  3. τ-1
  4. 1/ /(σ2+τ2)
  5. σ/ /(2(σ2+τ2)3/ /2)
  6. σ2/ /(σ2+τ2)
  7. σ/ /(2τ(σ+τ)2)

Otro artículo más reciente en una veta relacionada es el siguiente.

A. Gelman (2006), Distribuciones previas para parámetros de varianza en modelos jerárquicos , Análisis Bayesiano , vol. 1, no. 3, págs. 515–533.

Michael R. Chernick
fuente
2
(+1) Este es un buen hallazgo. He agregado un enlace estable al documento de Daniels, así como otra referencia que parece complementarlo.
cardenal
4

(La pregunta es obsoleta, pero el problema no lo es)

Personalmente, creo que tu intuición tiene sentido. Es decir, si no necesita el orden matemático de la conjugación, entonces, sea cual sea la distribución que usaría para un parámetro de ubicación, debe usar la misma para el registro de un parámetro de escala. Entonces, lo que estás diciendo es: usa el equivalente de un previo normal.

¿Realmente usarías un previo normal para un parámetro de ubicación? La mayoría de la gente diría que, a menos que haga que la varianza sea enorme, eso probablemente sea un poco "demasiado dogmático", por las razones explicadas en las otras respuestas aquí (influencia ilimitada). Una excepción sería si estás haciendo bayes empíricos; es decir, usar sus datos para estimar los parámetros de su anterior.

Si desea ser "poco informativo", probablemente elija una distribución con colas más gruesas; Los candidatos obvios son las distribuciones t. El último consejo de Gelman parece ser usar con un df de 3-7. (Tenga en cuenta que el enlace también respalda mi sugerencia de que desea hacer lo mismo para el registro de escala que lo haría para la ubicación) Entonces, en lugar de lognormal, podría usar un log-student-t. Para lograr esto en Stan, puede hacer algo como:

real log_sigma_y; //declare at the top of your model block
//...some more code for your model
log_sigma_y <- log(sigma_y); increment_log_prob(-log_sigma_y);
log_sigma_y ~ student_t(3,1,3); //This is a 'weakly informative prior'.

Sin embargo, creo que si el código anterior es demasiado complejo para usted, probablemente podría salirse con una previa lognormal, con dos advertencias. Primero, haga la variación de eso antes unas veces más amplia que su suposición aproximada de cuán "inseguro está"; desea un previo poco informativo, no uno muy informativo. Y segundo, una vez que se ajuste a su modelo, verifique la mediana posterior del parámetro y asegúrese de que el registro no esté demasiado lejos del centro de la región lognormal. "No muy lejos" probablemente significa: menos de dos desviaciones estándar, y preferiblemente no más de una SD.

Jameson Quinn
fuente
2

Para los parámetros de escala del modelo jerárquico, en su mayoría terminé usando la sugerencia de Andrew Gelman de usar una distribución t no plegada y central. Esto ha funcionado bastante bien para mí.

John Salvatier
fuente