¿Qué resolución temporal para la prueba de significación de series de tiempo?

9

Necesito alguna orientación sobre el nivel apropiado de agrupación para usar en las pruebas de diferencia de medias en datos de series temporales. Me preocupa la pseudo-replicación temporal y de sacrificio, que parece estar en tensión en esta aplicación. Esto se refiere a un estudio mensural más que a un experimento de manipulación.

Considere un ejercicio de monitoreo : un sistema de sensores mide el contenido de oxígeno disuelto (OD) en muchos lugares a lo largo y ancho de un estanque. Las mediciones para cada sensor se registran dos veces al día, ya que se sabe que el OD varía diariamente. Los dos valores se promedian para registrar un valor diario. Una vez a la semana, los resultados diarios se agregan espacialmente para llegar a una concentración semanal única de OD para todo el estanque.

Esos resultados semanales se informan periódicamente y se agregan aún más: los resultados semanales se promedian para dar una concentración mensual de OD para el estanque. Los resultados mensuales se promedian para dar un valor anual. Los promedios anuales se promedian para informar las concentraciones de OD por década para el estanque.

El objetivo es responder preguntas como: ¿La concentración de OD del estanque en el año X fue mayor, menor o igual que la concentración en el año Y? ¿Es la concentración promedio de OD de los últimos diez años diferente a la de la década anterior? Las concentraciones de OD en un estanque responden a muchas entradas de gran magnitud y, por lo tanto, varían considerablemente. Se necesita una prueba de significación. El método consiste en utilizar una comparación de medias de la prueba T. Dado que los valores de la década son la media de los valores anuales, y los valores anuales son la media de los valores mensuales, esto parece apropiado.

Aquí está la pregunta : puede calcular las medias de década y los valores T de esas medias a partir de los valores de OD mensuales o de los valores de OD anuales. La media no cambia, por supuesto, pero el ancho del intervalo de confianza y el valor T sí. Debido al orden de magnitud N más alto alcanzado mediante el uso de valores mensuales, el IC a menudo se endurece considerablemente si sigue esa ruta. Esto puede dar la conclusión opuesta en comparación con el uso de los valores anuales con respecto a la significancia estadística de una diferencia observada en las medias, usando la misma prueba con los mismos datos. ¿Cuál es la interpretación adecuada de esta discrepancia?

Si utiliza los resultados mensuales para calcular las estadísticas de la prueba para una diferencia en los medios de la década, ¿está enfrentando una pseudoreplicación temporal? Si utiliza los resultados anuales para calcular las pruebas de décadas, ¿está sacrificando información y, por lo tanto, pseudoreplicando?


fuente
Tu pregunta es bastante complicada ... Estoy pensando en eso.
deps_stats

Respuestas:

1

Creo que está intentando utilizar métodos estadísticos que son apropiados para observaciones independientes mientras tiene datos correlacionados, tanto temporal como espacialmente. Si tiene observaciones durante 5 horas y decide reafirmar esto como 241 observaciones tomadas cada minuto, realmente no tiene 240 grados de libertad con respecto a la media de estos valores 241. La autocorrelación potencialmente produce una exageración del tamaño de "N" y, por lo tanto, crea declaraciones de incertidumbre falsas. Lo que debe hacer es encontrar a alguien / algún libro de texto / algún sitio web / ... para que le enseñe sobre los datos de series temporales y su análisis. Una forma de comenzar es con GOOGLE "ayúdame a entender las series temporales" y comienza a leer / aprender. Hay mucho material disponible en la web.http://www.autobox.com/AFSUniversity/afsuFrameset.htm . Menciono esto, ya que todavía estoy asociado con esta empresa y sus productos, por lo tanto, mis comentarios son "sesgados y obstinados", pero no solo egoístas.

IrishStat
fuente