¿Tiene sentido usar una variable de fecha en una regresión?

17

No estoy acostumbrado a usar variables en el formato de fecha en R. Solo me pregunto si es posible agregar una variable de fecha como una variable explicativa en un modelo de regresión lineal. Si es posible, ¿cómo podemos interpretar el coeficiente? ¿Es el efecto de un día en la variable de resultado?

Vea mi esencia con un ejemplo de lo que estoy tratando de hacer.

PAC
fuente
3
Una fecha se puede convertir en un número.
mi impresión es que R lo hace automáticamente
PAC
3
Pero los números resultantes son a menudo enormes, lo que puede generar problemas. Es mejor convertirse usted mismo, por ejemplo, en pasos de tiempo (horas o días o ...) desde el comienzo de las mediciones. Eso también facilita la interpretación de la intercepción.
Roland
3
Convertir a factor (para obtener efectos fijos de día) o convertir a numérico y reescalar para que el valor del primer día sea 0 para obtener un efecto lineal de días desde el origen.
Thomas
1
Esa es una muy buena pregunta. Creo que es tanto una pregunta estadística como una pregunta de programación. La pregunta de programación es cómo R maneja las fechas cuando colocamos las fechas como una variable explicativa en un modelo de regresión y la pregunta estadística es sobre la interpretación exacta del coeficiente.
PAC

Respuestas:

17

Basándose en comentarios anteriores sobre Stack Overflow:

Si, tiene sentido. Aquí abordo la pregunta general y me complace dejar que los expertos de R completen los detalles cruciales. En mi opinión, dado que ahora se trata de validación cruzada, no debemos centrarnos demasiado en el software favorito del cartel, aunque es importante para personas de ideas afines.

Las fechas en cualquier software, si no son numéricas, se pueden convertir en variables numéricas, expresadas en años, días, milisegundos o lo que sea, desde algún momento de origen. El coeficiente asociado con cada fecha tiene unidades de denominador que son cualesquiera que sean las unidades de la fecha. Las unidades numeradoras dependen de las de la respuesta o variable dependiente. (Las funciones de enlace sin identidad complican esto, naturalmente).

Sin embargo, generalmente tiene más sentido cuando las fechas se cambian a un origen que tiene sentido para el estudio. Por lo general, pero no necesariamente, el origen debe ser una fecha dentro del período de estudio o muy cerca.

Quizás el caso más simple es la regresión lineal en una variable de fecha en años. Aquí, una regresión de algunos responseen datefechas expresadas como 2000 o 2010 implica una intersección que es el valor del responseaño 0. Dejando a un lado el detalle calendárico de que no hubo tal año, dicha intersección es a menudo absurdamente grande, positiva o negativa, que es lógico pero una distracción en la interpretación y presentación (incluso para audiencias bien informadas).

En un ejemplo real de trabajar con estudiantes universitarios, el número de ciclones por año en un área determinada aumentó ligeramente con la fecha y una tendencia lineal parecía una primera puñalada razonable. La intersección de la regresión fue un gran número negativo, lo que causó mucho desconcierto hasta que se dio cuenta de que esto era, como siempre, una extrapolación al año 0. Cambiar el origen a 2000 produjo mejores resultados. (En realidad, una regresión de Poisson que asegura predicciones positivas fue aún mejor, pero esa es una historia diferente).

Retroceder date - 2000o lo que sea, es una buena idea. Los detalles sustantivos de un estudio a menudo indican una buena fecha base, es decir, un nuevo origen.

El uso de otros modelos y / u otros predictores no socava este principio; solo lo oscurece.

También es una buena idea graficar resultados usando las fechas en las que sea más fácil pensar. Estas pueden ser las fechas originales; eso no es una contradicción, ya que es el mismo principio de usar lo que sea más fácil de pensar.

Un poco de reflexión muestra que el principio es mucho más general. A menudo estamos mejor con (edad - 20) o algo así, para evitar predicciones lógicas pero incómodas para la edad 0.

EDITAR el 21 de marzo de 2019 (original el 29 de julio de 2013): Estos argumentos se han discutido en un contexto de Stata en Cox, NJ 2015. Especies de origen. Stata Journal 15: 574-587 ver aquí

EDIT 2 también el 4 de diciembre de 2015 @whuber en los comentarios plantea también la importante cuestión de la precisión numérica. A menudo, las unidades de tiempo están bien y las fechas o fechas resultantes pueden ser muy grandes, lo que plantea problemas importantes para sumas de cuadrados, y así sucesivamente. Él plantea un ejemplo de R. A eso podemos agregar (p. Ej.) Que las fechas en Stata son milisegundos desde el comienzo de 1960. Este problema no es en absoluto específico de las fechas, ya que generalmente puede surgir con números que son muy grandes. o muy pequeño, pero también vale la pena marcarlo.

Nick Cox
fuente
1
Hablando econométricamente, la fecha a menudo se usa como un proxy para una variable inconmensurable, o simplemente datos que no puede obtener fácilmente. Esto se puede ver en el aumento de la tasa de ventas de un determinado producto de una nueva empresa a lo largo del tiempo a medida que aumenta el reconocimiento de la marca. Como lo más probable es que no tenga una métrica para el reconocimiento de marca, la fecha se puede usar como un proxy. Esto le daría a sus otros regresores coeficientes "más realistas". ** TL: DR ** debe tener cuidado al usar la fecha en su regresión sin pensar en qué factores no medidos pueden correlacionar la fecha que afectarían su variable independiente
scott
1
Buen consejo. Conjeturaría que (una función de) la fecha del calendario suele ser un proxy de algún proceso en el tiempo que de otro modo es difícil de capturar, por lo que el punto se extiende mucho más allá de la econometría.
Nick Cox
1
Soy tan aficionado a los senos y cosenos como cualquiera, pero ¿qué muestra de problemas en todas las disciplinas conduce a ese juicio?
Nick Cox
1
Si está interesado, visite stata-journal.com/sjsearch.html?choice=keyword&q=season para obtener enlaces a algunos de mis trabajos sobre estacionalidad.
Nick Cox
3
R1
5

Como se dijo anteriormente, con una escala adecuada, las fechas son grandes regresores. Es menos probable que los efectos de tiempo sean lineales que incluso las covariables típicas, por lo que casi siempre uso splines de regresión en el tiempo. Algunas tendencias de tiempo complejas requieren muchos nudos (por ejemplo, 7 o más) para encajar. Las estrías cúbicas restringidas (estrías naturales) proporcionan una extrapolación lineal más segura más allá del final de los tiempos observados, aunque la extrapolación rara vez es completamente segura.

Frank Harrell
fuente