¡Porque asumir errores normales es efectivamente lo mismo que asumir que no ocurren errores grandes! La distribución normal tiene colas tan ligeras, que los errores fuera de desviaciones estándar tienen muy poca probabilidad, los errores fuera de desviaciones estándar son efectivamente imposibles. En la práctica, esa suposición rara vez es cierta. Al analizar conjuntos de datos pequeños y ordenados de experimentos bien diseñados, esto podría no importar mucho si hacemos un buen análisis de los residuos. Con datos de menor calidad, podría importar mucho más.± 6± 3± 6
Cuando se utilizan métodos basados en la probabilidad (o bayesianos), el efecto de esta normalidad (como se dijo anteriormente, ¡efectivamente, este es el supuesto "sin errores grandes") es hacer que la inferencia sea muy poco robusta. ¡Los resultados del análisis están muy influenciados por los grandes errores! Esto debe ser así, ya que suponer que "no hay errores grandes" obliga a nuestros métodos a interpretar los errores grandes como errores pequeños, y eso solo puede suceder moviendo el parámetro del valor medio para reducir todos los errores. Una forma de evitar eso es utilizar los llamados "métodos robustos", consulte http://web.archive.org/web/20160611192739/http://www.stats.ox.ac.uk/pub/StatMeth/Robust .pdf
Pero Andrew Gelman no irá por esto, ya que los métodos robustos generalmente se presentan de una manera altamente no bayesiana. El uso de errores distribuidos en t en modelos de probabilidad / bayesianos es una forma diferente de obtener métodos robustos, ya que la distribución tiene colas más pesadas de lo normal, por lo que permite una mayor proporción de errores grandes. El parámetro de número de grados de libertad debe fijarse de antemano, no estimarse a partir de los datos, ya que dicha estimación destruirá las propiedades de robustez del método (*) (también es un problema muy difícil, la función de probabilidad para , el grados de libertad numéricos, pueden ser ilimitados, lo que lleva a estimadores muy ineficientes (incluso inconsistentes)).νtν
Si, por ejemplo, cree (tiene miedo) que hasta 1 de cada diez observaciones podrían ser "errores grandes" (por encima de 3 sd), entonces podría usar una distribución con 2 grados de libertad, aumentando ese número si Se cree que la proporción de errores grandes es menor.t
Debo señalar que lo que he dicho anteriormente es para modelos con errores independientes distribuidos en . También ha habido propuestas de distribución multivariada (que no es independiente) como distribución de errores. Esa propuesta es muy criticada en el documento "La nueva vestimenta del emperador: una crítica del modelo de regresión multivariante " por TS Breusch, JC Robertson y AH Welsh, en Statistica Neerlandica (1997) vol. 51, nr. 3, págs. 269-286, donde muestran que la distribución de error multivariante es empíricamente indistinguible de la normal. Pero esa crítica no afecta el modelo independiente . t t t tttttt
(*) Una referencia que indica que esto es Venables & Ripley's MASS --- Modern Applied Statistics con S (en la página 110 en la 4ta edición).
d know that the model proposed isn
lo suficientemente buenos.No se trata solo de "colas más pesadas": hay muchas distribuciones con forma de campana y colas pesadas.
La distribución T es la predicción posterior del modelo gaussiano. Si hace una suposición gaussiana, pero tiene evidencia finita, entonces el modelo resultante necesariamente está haciendo predicciones distribuidas en t no escaladas centralmente. En el límite, a medida que la cantidad de evidencia que tienes va al infinito, terminas con predicciones gaussianas ya que el límite de la distribución t es gaussiano.
¿Por qué pasó esto? Porque con una cantidad finita de evidencia, hay incertidumbre en los parámetros de su modelo. En el caso del modelo gaussiano, la incertidumbre en la media simplemente aumentaría la varianza (es decir, la predicción posterior de un gaussiano con varianza conocida sigue siendo gaussiana). Pero la incertidumbre sobre la variación es lo que causa las colas pesadas. Si el modelo está entrenado con evidencia ilimitada, ya no hay ninguna incertidumbre en la varianza (o la media) y puede usar su modelo para hacer predicciones gaussianas.
Este argumento se aplica a un modelo gaussiano. También se aplica a un parámetro que se infiere cuyas probabilidades son gaussianas. Dados los datos finitos, la incertidumbre sobre el parámetro está distribuida en t. Dondequiera que haya supuestos normales (con media y varianza desconocidas) y datos finitos, hay predicciones posteriores distribuidas en t.
Hay distribuciones predictivas posteriores similares para todos los modelos bayesianos. Gelman sugiere que deberíamos usarlos. Sus preocupaciones serían mitigadas por evidencia suficiente.
fuente