Tengo datos para una red de estaciones meteorológicas en los Estados Unidos. Esto me da un marco de datos que contiene fecha, latitud, longitud y algunos valores medidos. Suponga que los datos se recopilan una vez al día y son impulsados por el clima a escala regional (no, no vamos a entrar en esa discusión).
Me gustaría mostrar gráficamente cómo los valores medidos simultáneamente se correlacionan en el tiempo y el espacio. Mi objetivo es mostrar la homogeneidad regional (o la falta de ella) del valor que se está investigando.
Conjunto de datos
Para empezar, tomé un grupo de estaciones en la región de Massachusetts y Maine. Seleccioné sitios por latitud y longitud de un archivo de índice que está disponible en el sitio FTP de NOAA.
Inmediatamente ves un problema: hay muchos sitios que tienen identificadores similares o están muy cerca. FWIW, los identifico usando los códigos USAF y WBAN. Al profundizar en los metadatos, vi que tienen diferentes coordenadas y elevaciones, y los datos se detienen en un sitio y luego comienzan en otro. Entonces, como no sé nada mejor, tengo que tratarlos como estaciones separadas. Esto significa que los datos contienen pares de estaciones muy cercanas entre sí.
Analisis preliminar
Intenté agrupar los datos por mes calendario y luego calcular la regresión de mínimos cuadrados ordinarios entre diferentes pares de datos. Luego trazo la correlación entre todos los pares como una línea que conecta las estaciones (a continuación). El color de la línea muestra el valor de R2 del ajuste OLS. La figura luego muestra cómo los más de 30 puntos de datos de enero, febrero, etc. están correlacionados entre diferentes estaciones en el área de interés.
He escrito los códigos subyacentes para que la media diaria solo se calcule si hay puntos de datos cada período de 6 horas, por lo que los datos deben ser comparables en todos los sitios.
Problemas
Desafortunadamente, simplemente hay demasiados datos para tener sentido en una parcela. Eso no se puede solucionar reduciendo el tamaño de las líneas.
Intenté trazar las correlaciones entre los vecinos más cercanos de la región, pero eso se convierte en un desastre muy rápidamente. Las siguientes facetas muestran la red sin valores de correlación, utilizando
La red parece ser demasiado compleja, por lo que creo que necesito encontrar una manera de reducir la complejidad o aplicar algún tipo de núcleo espacial.
Tampoco estoy seguro de cuál es la métrica más adecuada para mostrar la correlación, pero para la audiencia prevista (no técnica), el coeficiente de correlación de OLS podría ser el más simple de explicar. Es posible que necesite presentar alguna otra información como el gradiente o el error estándar también.
Preguntas
Estoy aprendiendo mi camino en este campo y R al mismo tiempo, y agradecería sugerencias sobre:
- ¿Cuál es el nombre más formal para lo que estoy tratando de hacer? ¿Hay algunos términos útiles que me permitan encontrar más literatura? Mis búsquedas están dibujando espacios en blanco para lo que debe ser una aplicación común.
- ¿Existen métodos más apropiados para mostrar la correlación entre múltiples conjuntos de datos separados en el espacio?
- ... en particular, ¿métodos fáciles de mostrar visualmente?
- ¿Alguno de estos está implementado en R?
- ¿Alguno de estos enfoques se presta a la automatización?
fuente
Respuestas:
Creo que hay algunas opciones para mostrar este tipo de datos:
La primera opción sería realizar un "Análisis empírico de funciones ortogonales" (EOF) (también denominado "Análisis de componentes principales" (PCA) en círculos no climáticos). Para su caso, esto debe realizarse en una matriz de correlación de sus ubicaciones de datos. Por ejemplo, su matriz de datos
dat
sería sus ubicaciones espaciales en la dimensión de la columna y el parámetro medido en las filas; Por lo tanto, su matriz de datos consistirá en series de tiempo para cada ubicación. Laprcomp()
función le permitirá obtener los componentes principales, o modos dominantes de correlación, relacionados con este campo:La segunda opción sería crear mapas que muestren correlación en relación con una ubicación individual de interés:
EDITAR: ejemplo adicional
Si bien el siguiente ejemplo no utiliza datos breves, puede aplicar el mismo análisis a un campo de datos después de la interpolación con DINEOF ( http://menugget.blogspot.de/2012/10/dineof-data-interpolating-empirical.html ) . El siguiente ejemplo utiliza un subconjunto de datos mensuales de presión del nivel del mar sobre anomalías del siguiente conjunto de datos ( http://www.esrl.noaa.gov/psd/gcos_wgsp/Gridded/data.hadslp2.html ):
Mapa del modo EOF líder
Crear mapa de correlación
fuente
No veo claramente detrás de las líneas, pero me parece que hay demasiados puntos de datos.
Como desea mostrar la homogeneidad regional y no exactamente las estaciones, le sugiero que primero las agrupe espacialmente. Por ejemplo, superposición por una "red" y calcular el valor promedio medido en cada celda (en cada momento). Si coloca estos valores promedio en los centros de celdas de esta manera, rasteriza los datos (o puede calcular también la latitud y longitud medias en cada celda si no desea superponer líneas). O para promediar dentro de las unidades administrativas, lo que sea. Luego, para estas nuevas "estaciones" promediadas, puede calcular correlaciones y trazar un mapa con un menor número de líneas.
Esto también puede eliminar esas líneas aleatorias únicas de alta correlación que atraviesan toda el área.
fuente