He estado usando distribuciones normales de registro como distribuciones anteriores para parámetros de escala (para distribuciones normales, distribuciones t, etc.) cuando tengo una idea aproximada sobre cuál debería ser la escala, pero quiero equivocarme al decir que no sé mucho al respecto. Lo uso porque ese uso tiene un sentido intuitivo para mí, pero no he visto a otros usarlo. ¿Hay algún peligro oculto para esto?
distributions
bayesian
modeling
prior
maximum-entropy
John Salvatier
fuente
fuente
Respuestas:
Recomendaría usar una "distribución Beta del segundo tipo" (Beta 2 para abreviar) para una distribución ligeramente informativa , y usar la distribución gamma inversa conjugada si tienes creencias previas fuertes . La razón por la que digo esto es que el previo conjugado no es robusto en el sentido de que, si el previo y los datos entran en conflicto, el anterior tiene una influencia ilimitada en la distribución posterior. Tal comportamiento es lo que yo llamaría "dogmático", y no está justificado por información previa leve .
La propiedad que determina la robustez es el comportamiento de cola del anterior y de la probabilidad. Un artículo muy bueno que describe los detalles técnicos está aquí . Por ejemplo, se puede elegir una probabilidad (digamos una distribución t) tal que como observación (es decir, se vuelve arbitrariamente grande) se descarta del análisis de un parámetro de ubicación (de la misma manera que lo haría hacer intuitivamente con tal observación). La tasa de "descarte" depende de qué tan pesadas sean las colas de la distribución.yyo→ ∞
Aquí se pueden encontrar algunas diapositivas que muestran una aplicación en el contexto de modelado jerárquico (muestra la forma matemática de la distribución Beta 2 ), con un documento aquí .
Si no se encuentra en el contexto de modelado jerárquico, sugeriría comparar el posterior (o cualquier resultado que esté creando) pero use Jeffreys antes para un parámetro de escala, que es dado por . Esto se puede crear como un límite de la densidad Beta 2 ya que ambos parámetros convergen a cero. Para una aproximación, puede usar valores pequeños. Pero trataría de resolver la solución analíticamente si fuera posible (y si no es una solución analítica completa, obtenga la solución analítica tan progresada como sea posible), porque no solo se ahorrará tiempo de cálculo, sino que también También es probable que comprenda mejor lo que sucede en su modelo.p ( σ) ∝ 1σ
Otra alternativa es especificar su información previa en forma de restricciones (media igual a , varianza igual a , IQR igual a , etc. con los valores de especificados por usted mismo), y luego usar el distribución máxima de entropía (busque en cualquier trabajo de Edwin Jaynes o Larry Bretthorst una buena explicación de qué es la máxima entropía y qué no es) con respecto a la "medida invariante" de Jeffreys .METRO V yoQ R METRO, V, IQ R m ( σ) = 1σ
MaxEnt es la versión "Rolls Royce", mientras que la Beta 2 es más una versión "sedán". La razón de esto es que la distribución MaxEnt "asume lo más mínimo" sujeto a las restricciones que ha puesto en ella (por ejemplo, sin restricciones significa que solo obtiene Jeffreys antes), mientras que la distribución Beta 2 puede contener algunas características "ocultas" que puede o no ser deseable en su caso específico (por ejemplo, si la información previa es más confiable que los datos, entonces Beta 2 es mala).
La otra buena propiedad de la distribución MaxEnt es que si no hay restricciones no especificadas que operan en el mecanismo de generación de datos, entonces la distribución MaxEnt es abrumadoramente la distribución más probable que verá (estamos hablando de miles de millones y billones a uno). Por lo tanto, si la distribución que ve no es la MaxEnt, entonces es probable que haya restricciones adicionales que no haya especificado que operen en el proceso verdadero, y los valores observados pueden proporcionar una pista sobre cuál podría ser esa restricción.
fuente
El siguiente artículo de Daniels compara una variedad de antecedentes de contracción para la varianza. Estos son antecedentes adecuados, pero no estoy seguro de cuántos podrían llamarse no informativos, si los hay. Pero también proporciona una lista de antecedentes no informativos (no todos apropiados). Debajo está la referencia.
Priors
Otro artículo más reciente en una veta relacionada es el siguiente.
fuente
(La pregunta es obsoleta, pero el problema no lo es)
Personalmente, creo que tu intuición tiene sentido. Es decir, si no necesita el orden matemático de la conjugación, entonces, sea cual sea la distribución que usaría para un parámetro de ubicación, debe usar la misma para el registro de un parámetro de escala. Entonces, lo que estás diciendo es: usa el equivalente de un previo normal.
¿Realmente usarías un previo normal para un parámetro de ubicación? La mayoría de la gente diría que, a menos que haga que la varianza sea enorme, eso probablemente sea un poco "demasiado dogmático", por las razones explicadas en las otras respuestas aquí (influencia ilimitada). Una excepción sería si estás haciendo bayes empíricos; es decir, usar sus datos para estimar los parámetros de su anterior.
Si desea ser "poco informativo", probablemente elija una distribución con colas más gruesas; Los candidatos obvios son las distribuciones t. El último consejo de Gelman parece ser usar con un df de 3-7. (Tenga en cuenta que el enlace también respalda mi sugerencia de que desea hacer lo mismo para el registro de escala que lo haría para la ubicación) Entonces, en lugar de lognormal, podría usar un log-student-t. Para lograr esto en Stan, puede hacer algo como:
Sin embargo, creo que si el código anterior es demasiado complejo para usted, probablemente podría salirse con una previa lognormal, con dos advertencias. Primero, haga la variación de eso antes unas veces más amplia que su suposición aproximada de cuán "inseguro está"; desea un previo poco informativo, no uno muy informativo. Y segundo, una vez que se ajuste a su modelo, verifique la mediana posterior del parámetro y asegúrese de que el registro no esté demasiado lejos del centro de la región lognormal. "No muy lejos" probablemente significa: menos de dos desviaciones estándar, y preferiblemente no más de una SD.
fuente
Para los parámetros de escala del modelo jerárquico, en su mayoría terminé usando la sugerencia de Andrew Gelman de usar una distribución t no plegada y central. Esto ha funcionado bastante bien para mí.
fuente