Soy nuevo en el análisis de series de tiempo, y agradecería cualquier sugerencia sobre la mejor manera de abordar el siguiente problema de regresión de series de tiempo: Tengo mediciones de temperatura por hora en aproximadamente 20 ubicaciones en un sitio durante tres años, junto con información auxiliar estática (pendiente, elevación, aspecto, cubierta del dosel). El sitio tiene un tamaño de varias hectáreas, y los dispositivos de registro de temperatura se extienden por todo el sitio a lo largo de un par de transectos, a intervalos de ~ 20-50 m. A aproximadamente 1 km de distancia, tengo datos por hora de una estación meteorológica, que también proporciona mediciones de la velocidad del viento, la dirección del viento, la humedad, la iluminación solar, etc.
Me gustaría poder predecir la temperatura (mín, máx, media) en el sitio (en general) utilizando solo los datos de la estación meteorológica; está en su lugar semipermanentemente, mientras que los registradores de temperatura en el sitio solo estuvieron en su lugar durante 3 años. Así que, en esencia, tengo múltiples variables independientes (temperatura, humedad, viento, etc.) en una ubicación (la estación meteorológica), pero una sola variable dependiente (temperatura) en múltiples ubicaciones, cada una de las cuales también tiene varios atributos invariantes en el tiempo: pendiente, elevación, aspecto, etc.
Estoy más interesado en predecir los mínimos y máximos diarios en el sitio en general, en lugar de las temperaturas por hora en cada lugar de registro de temperatura en el sitio. Aunque, esas predicciones por hora sin duda serían de valor.
Mi enfoque inicial ha sido calcular el promedio diario, el mínimo y los máximos de las temperaturas en el sitio, y usarlos como variables dependientes en regresiones lineales simples, utilizando las mediciones disponibles en la estación meteorológica como variables independientes. Esto funciona razonablemente bien (R2> 0,50 con 2 predictores), pero parece demasiado simplista por muchas razones, e imagino que debe haber formas más sofisticadas (y poderosas) de hacerlo.
Por un lado, no estoy haciendo nada explícito sobre la naturaleza de la serie temporal de los valores diarios en la regresión, y aunque la temperatura mínima o promedio de un día para otro puede no estar tan correlacionada como lo es de una hora a la siguiente. A continuación, me pregunto sobre los problemas con la independencia de estos datos diarios (o ciertamente por hora, si intentara predecir las temperaturas por hora). En segundo lugar, debido a las preocupaciones de tener múltiples mediciones de temperatura algo correlacionadas en todo el sitio (son mucho más similares entre sí que con los datos de la estación meteorológica), simplemente estoy usando la media, el mínimo o el máximo de todas las mediciones en el sitio , en lugar de incluir los datos de cada ubicación de medición individual directamente. Pero esto también me impide usar la información auxiliar invariante en el tiempo de cada ubicación de medición de temperatura (pendiente, elevación, aspecto, cubierta del dosel), que presumiblemente explicará una buena parte de las diferencias de temperatura entre las ubicaciones en el sitio. En tercer lugar, debido a las preocupaciones con la regresión dominada por el ciclo diurno muy fuerte en las temperaturas, solo miro los valores diarios en lugar de los horarios.
¡Le agradeceríamos cualquier sugerencia sobre mejores formas de hacerlo (especialmente en R), o dónde comenzar a buscar! Me doy cuenta de que hay una gran cantidad de paquetes R que tratan con series de tiempo, pero tengo problemas para encontrar el mejor lugar para comenzar con este tipo de problema, ya que ninguno de los ejemplos que he visto parece reflejar la situación en la que estoy tratando de modelar aquí.
Actualización: pensando en esto un poco más, no me queda claro si los modelos de series temporales son realmente apropiados aquí porque no estoy interesado en predecir lo que sucederá en algún momento específico en el futuro. Más bien, simplemente estoy interesado en cómo las temperaturas en el sitio están relacionadas con las temperaturas (y otras variables ambientales) en la estación meteorológica. Pensé que quizás el análisis de series de tiempo sería valioso porque me preocupaba que las mediciones de temperatura posteriores pudieran no ser lo suficientemente independientes. Ciertamente, la temperatura de una hora depende en gran medida de la hora anterior, pero la dependencia es más débil para los datos diarios. En cualquier caso, ¿es la correlación temporal / no independencia de los datos de series de tiempo una preocupación válida que debe abordarse si uno no está interesado en una predicción de series de tiempo?
Respuestas:
Es posible que desee examinar el paquete GAM en R, ya que puede adaptarse para hacer algo (o todo) de lo que está buscando. El documento original ( Hastie y Tibshirani, 1986 ) está disponible a través de OpenAccess si está dispuesto a leerlo.
Esencialmente, modela una sola variable dependiente como una combinación aditiva de predictores 'suaves'. Uno de los usos típicos es tener series de tiempo y retrasos como predictores, suavizar estas entradas y luego aplicar GAM.
Este método se ha utilizado ampliamente para estimar la mortalidad diaria en función de series temporales ambientales suavizadas, especialmente contaminantes. No es OpenAccess, pero ( Dominici et al., 2000 ) es una referencia excelente, y ( Métodos estadísticos para la epidemiología ambiental con R ) es un excelente libro sobre cómo usar R para hacer este tipo de análisis.
fuente
Si desea pronosticar o no, no tiene nada que ver con el análisis correcto de series temporales. Los métodos de series de tiempo pueden desarrollar un modelo robusto que se puede usar simplemente para caracterizar la relación entre una serie dependiente y un conjunto de entradas sugeridas por el usuario (también conocido como serie de predictores especificados por el usuario) y variables omitidas identificadas empíricamente, ya sean deterministas o estocásticas. su opción puede extender la "señal" hacia el futuro, es decir, el pronóstico con incertidumbres basadas en la incertidumbre en los coeficientes y la incertidumbre en los valores futuros del predictor. Ahora, estos dos tipos de "series omitidas" identificadas empíricamente se pueden clasificar como 1) deterministas y 2) estocásticas. El primer tipo son simplemente pulsos, cambios de nivel, Pulsos estacionales y tendencias de tiempo local, mientras que el segundo tipo está representado por la parte ARIMA de su modelo final. Cuando uno omite una o más series estocásticas de la lista de posibles predictores, la omisión se caracteriza por el componente ARIMA en su modelo final. Los modeladores de series de tiempo se refieren a los modelos de ARIMA como un "Modelo de regresión del pobre" porque el pasado de la serie se está utilizando como un proxy para las series de entrada estocásticas omitidas.
fuente