No estoy acostumbrado a usar variables en el formato de fecha en R. Solo me pregunto si es posible agregar una variable de fecha como una variable explicativa en un modelo de regresión lineal. Si es posible, ¿cómo podemos interpretar el coeficiente? ¿Es el efecto de un día en la variable de resultado?
Vea mi esencia con un ejemplo de lo que estoy tratando de hacer.
r
regression
time-series
PAC
fuente
fuente
Respuestas:
Basándose en comentarios anteriores sobre Stack Overflow:
Si, tiene sentido. Aquí abordo la pregunta general y me complace dejar que los expertos de R completen los detalles cruciales. En mi opinión, dado que ahora se trata de validación cruzada, no debemos centrarnos demasiado en el software favorito del cartel, aunque es importante para personas de ideas afines.
Las fechas en cualquier software, si no son numéricas, se pueden convertir en variables numéricas, expresadas en años, días, milisegundos o lo que sea, desde algún momento de origen. El coeficiente asociado con cada fecha tiene unidades de denominador que son cualesquiera que sean las unidades de la fecha. Las unidades numeradoras dependen de las de la respuesta o variable dependiente. (Las funciones de enlace sin identidad complican esto, naturalmente).
Sin embargo, generalmente tiene más sentido cuando las fechas se cambian a un origen que tiene sentido para el estudio. Por lo general, pero no necesariamente, el origen debe ser una fecha dentro del período de estudio o muy cerca.
Quizás el caso más simple es la regresión lineal en una variable de fecha en años. Aquí, una regresión de algunos
response
endate
fechas expresadas como 2000 o 2010 implica una intersección que es el valor delresponse
año 0. Dejando a un lado el detalle calendárico de que no hubo tal año, dicha intersección es a menudo absurdamente grande, positiva o negativa, que es lógico pero una distracción en la interpretación y presentación (incluso para audiencias bien informadas).En un ejemplo real de trabajar con estudiantes universitarios, el número de ciclones por año en un área determinada aumentó ligeramente con la fecha y una tendencia lineal parecía una primera puñalada razonable. La intersección de la regresión fue un gran número negativo, lo que causó mucho desconcierto hasta que se dio cuenta de que esto era, como siempre, una extrapolación al año 0. Cambiar el origen a 2000 produjo mejores resultados. (En realidad, una regresión de Poisson que asegura predicciones positivas fue aún mejor, pero esa es una historia diferente).
Retroceder
date - 2000
o lo que sea, es una buena idea. Los detalles sustantivos de un estudio a menudo indican una buena fecha base, es decir, un nuevo origen.El uso de otros modelos y / u otros predictores no socava este principio; solo lo oscurece.
También es una buena idea graficar resultados usando las fechas en las que sea más fácil pensar. Estas pueden ser las fechas originales; eso no es una contradicción, ya que es el mismo principio de usar lo que sea más fácil de pensar.
Un poco de reflexión muestra que el principio es mucho más general. A menudo estamos mejor con (edad - 20) o algo así, para evitar predicciones lógicas pero incómodas para la edad 0.
EDITAR el 21 de marzo de 2019 (original el 29 de julio de 2013): Estos argumentos se han discutido en un contexto de Stata en Cox, NJ 2015. Especies de origen. Stata Journal 15: 574-587 ver aquí
EDIT 2 también el 4 de diciembre de 2015 @whuber en los comentarios plantea también la importante cuestión de la precisión numérica. A menudo, las unidades de tiempo están bien y las fechas o fechas resultantes pueden ser muy grandes, lo que plantea problemas importantes para sumas de cuadrados, y así sucesivamente. Él plantea un ejemplo de R. A eso podemos agregar (p. Ej.) Que las fechas en Stata son milisegundos desde el comienzo de 1960. Este problema no es en absoluto específico de las fechas, ya que generalmente puede surgir con números que son muy grandes. o muy pequeño, pero también vale la pena marcarlo.
fuente
R
Como se dijo anteriormente, con una escala adecuada, las fechas son grandes regresores. Es menos probable que los efectos de tiempo sean lineales que incluso las covariables típicas, por lo que casi siempre uso splines de regresión en el tiempo. Algunas tendencias de tiempo complejas requieren muchos nudos (por ejemplo, 7 o más) para encajar. Las estrías cúbicas restringidas (estrías naturales) proporcionan una extrapolación lineal más segura más allá del final de los tiempos observados, aunque la extrapolación rara vez es completamente segura.
fuente