¿Son inútiles las regresiones con errores de Student-t?

10

Por favor vea editar.

Cuando tiene datos con colas pesadas, hacer una regresión con errores de Student-t parece algo intuitivo. Mientras exploraba esta posibilidad, me encontré con este documento:

Breusch, TS, Robertson, JC y Welsh, AH (1 de noviembre de 1997). La nueva vestimenta del emperador: una crítica del modelo de regresión t multivariante. Statistica Neerlandica, 51, 3.) ( enlace , pdf )

Lo que argumenta que el parámetro de escala y los parámetros de grados de libertad no son identificables entre sí en algún sentido y que debido a esto hacer una regresión con t errores no hace nada más que lo que hace una regresión lineal estándar.

Zellner (1976) propuso un modelo de regresión en el que el vector de datos (o el vector de error) se representa como una realización a partir de la distribución t de Student multivariante. Este modelo ha atraído una atención considerable porque parece ampliar la suposición gaussiana habitual para permitir distribuciones de error de cola más pesada. Varios resultados en la literatura indican que los procedimientos de inferencia estándar para el modelo gaussiano siguen siendo apropiados bajo el supuesto de distribución más amplio, lo que lleva a reclamos de solidez de los métodos estándar. Mostramos que, aunque matemáticamente los dos modelos son diferentes, para fines de inferencia estadística son indistinguibles. Las implicaciones empíricas del modelo t multivariado son precisamente las mismas que las del modelo gaussiano. Por lo tanto, la sugerencia de una representación distribucional más amplia de los datos es espuria, y las afirmaciones de robustez son engañosas. Estas conclusiones se alcanzan desde las perspectivas frecuentista y bayesiana.

Esto me sorprende

No tengo la sofisticación matemática para evaluar bien sus argumentos, así que tengo un par de preguntas: ¿es cierto que hacer regresiones con errores t no es generalmente útil? Si a veces son útiles, ¿he entendido mal el documento o es engañoso? Si no son útiles, ¿es un hecho bien conocido? ¿Hay otras formas de contabilizar datos con colas pesadas?

Editar : Tras una lectura más detallada, del párrafo 3 y la sección 4, parece que el artículo a continuación no está hablando de lo que estaba pensando como una regresión de t-student (los errores son distribuciones t univariadas independientes). En cambio, los errores se extraen de una única distribución y no son independientes. Si entiendo correctamente, esta falta de independencia es precisamente lo que explica por qué no se puede estimar la escala y los grados de libertad de forma independiente.

Supongo que este documento proporciona una lista de documentos para evitar leer.

John Salvatier
fuente
¿Estás seguro de que puedes distribuir el documento a través de Dropbox? Mejor doble verificación.
Toby El Tejedor
Creo que la distribución de Laplace le da la oportunidad de tratar colas pesadas hasta cierto punto.
Toby El Tejedor

Respuestas:

5

Tu edición es correcta. Los resultados presentados en el documento se aplican solo a errores t multivariados. Si está utilizando errores t independientes, entonces está a salvo.

No creo que el documento sea bien conocido, pero creo que es correcto.

La literatura estadística está llena de "generalizaciones" que en muchos casos son reparametrizaciones, transformaciones uno a uno o, a veces, inútiles porque no contribuyen significativamente a generalizar algunas propiedades del modelo en cuestión.


fuente