¿Existe algún "estándar" para la notación de modelo estadístico?

En, por ejemplo, el manual BUGS o el próximo libro de Lee y Wagenmakers ( pdf ) y en muchos otros lugares se usa un tipo de notación que me parece muy flexible ya que puede usarse para describir sucintamente la mayoría de los modelos estadísticos. Un ejemplo de esta notación es el siguiente:

y_{i} \sim Binomial (p_{i}, n_{i}) \log (\frac{p_{i}}{1 - p_{i}}) = b_{i} b_{i} \sim Normal (μ_{p}, σ_{p})

$y_i \sim \text{Binomial}(p_i,n_i) \\ \log(\frac{p_i}{1 - p_i}) = b_i \\ b_i \sim \text{Normal}(\mu_p,\sigma_p)$

que describiría un modelo logístico jerárquico sin predictores, pero con grupos. Esta forma de describir los modelos parece funcionar igualmente bien para describir los modelos frecuentistas y bayesianos, por ejemplo, para hacer que la descripción de este modelo sea completamente bayesiana, solo tendría que agregar priors en y . $i = 1\dots n$ $\mu_p$ $\sigma_p$

¿Se describe este tipo de notación / formalismo modelo en detalle en algún artículo o libro?

Si desea utilizar esta notación para escribir modelos, hay muchas maneras diferentes de hacer las cosas y sería realmente útil con una guía completa tanto para seguir como para hacer referencia a otros. Algunas diferencias que he encontrado en cómo las personas usan este tipo de notación:

¿Cómo se llaman las distribuciones? Por ejemplo, he visto , etc. $\mathcal{N},\text{N},\text{Norm},\text{Normal}$
¿Cómo manejas los índices? Por ejemplo, he visto , , , etc. $y_{ij}$ $y_{i[j]}$ $y_{j|i}$
$\mu$

Pregunta de seguimiento: ¿Esta notación tiene un nombre? (Por falta de un nombre mejor, lo llamé la convención centrada en la distribución de probabilidad en una publicación de blog que escribí ...)

references model notation Rasmus Bååth
fuente

Respuestas:

Algunos estándares recomendados para la notación estadística se presentan en Halperin, Hartley y Hoel (1965) y Sanders y Pugh (1972) . La mayor parte de la notación actual proviene de convenciones establecidas por los estadísticos biométricos a fines del siglo XIX y principios del siglo XX (la mayoría fue realizada por Pearson y Fisher y sus asociados). El economista John Aldrich mantiene aquí una lista útil de los primeros usos de la notación , y en Aldrich (2003) se publica un informe histórico de la escuela de biometría inglesa . (Si tiene más preguntas sobre este tema, Aldrich es probablemente el experto vivo más importante del mundo en la historia de la notación estadística).

Además de este trabajo explícito, hay muchos libros que dan introducciones al campo, y estos son cuidadosos para definir la notación consistente con las convenciones comunes, definiendo la notación a medida que avanzan. Hay muchas convenciones bien conocidas en este campo que se ejecutan constantemente a través de la literatura, y los estadísticos los conocen bien a través de la práctica, incluso sin haber leído las recomendaciones de estos investigadores.

$\sim$ relación con el significado "... tiene distribución ..." o "... tiene medida de probabilidad ...", etc. Según esta interpretación, la relación compara dos conjuntos distintos de cosas; el objeto en el lado izquierdo es una variable aleatoria y el objeto en el lado derecho es una descripción de una medida de probabilidad.

$\sim$

Esto proporciona dos interpretaciones posibles (e igualmente válidas) de una declaración como:

X \sim N (μ, σ^{2}) .

$X \sim \text{N}(\mu, \sigma^2).$

$X$ $\text{N}(\mu, \sigma^2)$
$X$ $\text{N}(\mu, \sigma^2)$

$\sim$ $\sim$

Aldrich, J. (2003) The Language of the English Biometric School International Statistical Review 71 (1) , pp. 109-131.

Halperin, M., Hartley, HO y Hoel, PG (1965) Estándares recomendados para símbolos estadísticos y notación . The American Statistician 19 (3) , págs. 12-14.

Sanders, JR y Pugh, RC (1972) Recomendación para un conjunto estándar de símbolos y anotaciones estadísticas . Investigador educativo 1 (11) , pp. 15-16.

Ben - Restablece a Monica
fuente