Suavizado: ¿cuándo usarlo y cuándo no?

18

Hay una publicación bastante antigua en el blog de William Briggs que analiza las trampas de suavizar datos y llevarlos a análisis. El argumento clave es a saber:

Si, en un momento de locura, suaviza los datos de series de tiempo y los utiliza como entrada para otros análisis, ¡aumenta dramáticamente la probabilidad de engañarse a sí mismo! Esto se debe a que el suavizado induce señales espurias, señales que parecen reales para otros métodos analíticos. ¡No importa lo que esté seguro de sus resultados finales!

Sin embargo, estoy luchando por encontrar debates exhaustivos sobre cuándo suavizar y cuándo no.

¿Está mal visto suavizar cuando se usan esos datos suavizados como entrada para otro análisis o hay otras situaciones en las que no se recomienda suavizar? Por el contrario, ¿hay situaciones en las que se recomienda suavizar?

NickB2014
fuente
1
La mayoría de las aplicaciones de análisis de series temporales son algún tipo de suavizado, incluso cuando no se describen como tales. El suavizado se puede utilizar como un dispositivo exploratorio o de resumen, en algunos campos, que es incluso el método principal o único, o para eliminar características que se consideran una molestia o un interés secundario para algún propósito.
Nick Cox
44
Descargo de responsabilidad: no he leído toda la publicación del blog citada. No pude superar los errores tipográficos elementales ("series de tiempo", "Monte Carol") y su tono y estilo no eran atractivos. Pero no recomendaría tratar de aprender los principios del análisis de series temporales, o las estadísticas en general, a través del blog de cualquiera.
Nick Cox
@NickCox De acuerdo, y especialmente no de un blog que parece tener un hacha para moler.
Hong Ooi
@HongOoi ¡Sí! Eliminé algunas frases selectas de un borrador de mi comentario que podría haber parecido no menos obstinado que el propio blog.
Nick Cox
1
Tomaría todo lo que Briggs escribe con un grano de sal.
Momo

Respuestas:

16

El suavizado exponencial es una técnica clásica utilizada en la predicción de series temporales no causales. Siempre que solo lo use en pronósticos simples y no use ajustes suavizados en la muestra como una entrada a otro algoritmo estadístico o de minería de datos, la crítica de Briggs no se aplica. (En consecuencia, soy escéptico sobre su uso "para producir datos suavizados para la presentación", como dice Wikipedia, esto puede ser engañoso, al ocultar la variabilidad suavizada).

Aquí hay una introducción de libro de texto a Suavizado exponencial.

Y aquí hay un artículo de revisión (de 10 años, pero aún relevante).


EDITAR: parece haber algunas dudas sobre la validez de la crítica de Briggs, posiblemente influenciada por su empaque . Estoy totalmente de acuerdo en que el tono de Briggs puede ser abrasivo. Sin embargo, me gustaría ilustrar por qué creo que tiene razón.

A continuación, estoy simulando 10,000 pares de series de tiempo, de 100 observaciones cada una. Todas las series son ruido blanco, sin correlación alguna. Por lo tanto, ejecutar una prueba de correlación estándar debería arrojar valores de p distribuidos uniformemente en [0,1]. Como lo hace (histograma a la izquierda abajo).

Sin embargo, supongamos que primero suavizamos cada serie y aplicamos la prueba de correlación a los datos suavizados . Aparece algo sorprendente: dado que hemos eliminado mucha variabilidad de los datos, obtenemos valores de p que son demasiado pequeños . Nuestra prueba de correlación está muy sesgada. Así que estaremos muy seguros de cualquier asociación entre la serie original, que es lo que Briggs está diciendo.

La pregunta realmente depende de si usamos los datos suavizados para el pronóstico, en cuyo caso el suavizado es válido, o si lo incluimos como entrada en algún algoritmo analítico, en cuyo caso eliminar la variabilidad simulará una mayor certeza en nuestros datos de lo que se garantiza. Esta certeza injustificada en los datos de entrada lleva a resultados finales y debe tenerse en cuenta, de lo contrario, todas las inferencias serán demasiado ciertas. (Y, por supuesto, también obtendremos intervalos de predicción demasiado pequeños si utilizamos un modelo basado en la "certeza inflada" para el pronóstico).

n.series <- 1e4
n.time <- 1e2

p.corr <- p.corr.smoothed <- rep(NA,n.series)
set.seed(1)
for ( ii in 1:n.series ) {
    A <- rnorm(n.time)
    B <- rnorm(n.time)
    p.corr[ii] <- cor.test(A,B)$p.value
	p.corr.smoothed[ii] <- cor.test(lowess(A)$y,lowess(B)$y)$p.value
}

par(mfrow=c(1,2))
hist(p.corr,col="grey",xlab="",main="p values\nunsmoothed data")
hist(p.corr.smoothed,col="grey",xlab="",main="p values\nsmoothed data")

valores p

S. Kolassa - Restablece a Monica
fuente
1
Lo tomaría como axiomático para un buen análisis de series temporales de que no se muestra suavizado sin que también se muestren los datos sin procesar.
Nick Cox
1

Afirmar que el suavizado es inapropiado para un análisis de modelado lo condena a tener un error cuadrático medio más alto de lo que podría ser. El error cuadrático medio o MSE se puede descomponer en tres términos, un cuadrado de un valor llamado `` sesgo '', una varianza y algún error irreducible. (Esto se muestra en las citas a continuación.) Los modelos excesivamente suavizados tienen un sesgo alto, incluso si tienen una varianza baja, y los modelos demasiado aproximados tienen variaciones altas y un sesgo bajo.

No hay nada filosófico sobre esto en absoluto. Es una caracterización matemática. No depende del carácter del ruido o del carácter del sistema.

Ver:

http://scott.fortmann-roe.com/docs/BiasVariance.html

https://galton.uchicago.edu/~lafferty/pdf/nonparam.pdf

http://www.inf.ed.ac.uk/teaching/courses/mlsc/Notes/Lecture4/BiasVariance.pdf (Esto tiene la derivación de la descomposición).

http://www.cs.columbia.edu/~blei/fogm/2015F/notes/regularized-regression.pdf (Blei hace lo mismo de una manera diferente y presenta lo que sucede cuando uno intenta predecir).

Las estadísticas clásicas casi siempre insistieron en estimaciones imparciales. En 1955, el estadístico Charles Stein de Stanford mostró que había combinaciones de estimadores imparciales que tenían un MSE más bajo para casos especiales importantes, en particular lo que se denominó ESTIMADORES JAMES-STEIN. Bradley Efron escribió un texto muy accesible sobre esta revolución en perspectiva: http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

Jan Galkowski
fuente