¿Qué modelo para un conjunto de datos desafiante? (cientos de series de tiempo con muchos anidamientos)

9

Tengo un conjunto de datos bastante complicado para analizar, y no puedo encontrar una buena solución para ello.

Aquí está la cosa:

1. los datos en bruto son esencialmente grabaciones de canciones de insectos. Cada canción está compuesta de varias ráfagas, y cada ráfaga está compuesta de subunidades. Todos los individuos han sido registrados durante 5 minutos. El número de ráfagas y su posición en la grabación pueden ser muy diferentes entre individuos, así como el número de subunidades por ráfaga.

2. Tengo la frecuencia portadora (frecuencia fundamental) de cada subunidad, y eso es lo que quiero analizar.

Mis problemas:

1. Las frecuencias dentro de una ráfaga obviamente no son independientes (aunque es bastante estable, pero la frecuencia de la subunidad n-1 influirá en la subunidad n).

2. Las ráfagas tampoco son independientes, dentro de una grabación.

3. Son aún menos independientes a medida que la frecuencia disminuye con el tiempo (el individuo se cansa de cantar, por lo que la frecuencia de la canción disminuye cada vez más). La caída parece ser lineal.

4. Anidamiento = Tengo 3 poblaciones replicadas para dos ubicaciones A y B. Así que tengo A1, A2, A3 y B1, B2, B3.

Lo que me gustaría hacer:

1. Caracterice la diferencia de frecuencia entre mis dos ubicaciones (pruébelo estadísticamente)

2. Caracterice la caída de frecuencia entre las dos ubicaciones (vea si cae más rápido en una de ellas)

Cómo hacerlo:

Bueno, por eso necesito ayuda: no lo sé. Parece que mi caso combina problemas que generalmente no se ven juntos. He leído sobre modelos mixtos, sobre GAM, sobre ARIMA, efectos aleatorios y fijos, pero no puedo estar realmente seguro de la mejor manera de hacerlo. Sin embargo, cuando lo grafo (frecuencia ~ número de subunidad n ), la diferencia es muy clara entre las dos ubicaciones. También tengo que tener en cuenta otras variables, como la temperatura (aumenta la frecuencia), etc.

Yo pense acerca de:

  • Anidando los individuos dentro de la réplica de donde provienen, y anidando la réplica dentro de la ubicación (individual / replicate / location).

  • Usa un efecto aleatorio de 'ráfaga', así que tengo en cuenta la variabilidad dentro de cada ráfaga.

  • Use un efecto fijo de 'posición de ráfaga en la grabación' para medir la caída de frecuencia (con la esperanza de que sea realmente lineal).

¿Sería correcto?

¿Hay algún tipo especial de modelo que pueda usar para este tipo de escenario?

Joe
fuente
Bienvenido a este sitio, Joe. No es necesario que inicies sesión en tu publicación, tu nombre siempre aparecerá debajo de tu gravatar :)
chl
Ok y gracias! Es un sitio web muy bonito, muy bien hecho.
Joe
"Anidar los individuos dentro de la réplica de la que provienen y anidar la réplica dentro de la ubicación (individual / replicar / ubicación)" parece una buena idea, en comparación con las formas no anidadas. ¿Qué aspecto tiene un LOESS de sus seis subpoblaciones?
p.
1
Muchas gracias por sus respuestas, realmente lo aprecio. Bueno, me llevó mucho tiempo, pero logré analizar este conjunto de datos (sangriento). Creo que era demasiado ambicioso, que quería modelar todo al mismo tiempo. Entonces dividí el trabajo en varios modelos, para cada problema (diferencia de frecuencia promedio, aumento de frecuencia, etc.). Conclusión: ¡a veces es mejor dividir el trabajo!
Joe

Respuestas:

2

Estas son solo algunas sugerencias generales que puede encontrar útiles, más una hoja de ruta que una receta.

  • Mi instinto sería construir un modelo jerárquico bayesiano, porque se presta al desarrollo iterativo del modelo: no creo que encuentre un modelo existente que tenga todas las campanas y silbatos que busca. Pero esto hace que las pruebas de hipótesis sean más difíciles, no sé cuán necesarias son las pruebas de hipótesis para usted.
  • Parece que tienes un pequeño modelo informal en tu cabeza sobre cómo se comportan los insectos; dices cosas como "cansarse" y sabes que la temperatura aumenta la frecuencia, presumiblemente porque el animal tiene más energía. Parece que tienes un pequeño modelo generativo en tu mente sobre cómo los insectos hacen sus canciones.
  • El problema parece demasiado complejo para modelar "de una vez". Creo que tendrás que construir algo poco a poco. Comenzaría con algunas "suposiciones simples y sólidas", es decir, descartar la mayor parte de la complejidad del conjunto de datos, con un plan para agregarlo más tarde una vez que tenga un modelo simple que funcione.

Entonces, para comenzar, haría algo como preprocesar las frecuencias de las subunidades en una ráfaga por ráfaga en algo así como un par (frecuencia media, tendencia de frecuencia): hacer esto con OLS y simplemente modelar la tendencia y la media de frecuencia una explosión en lugar de las propias subunidades. O podría hacerlo (media, tendencia, número de subunidades), si el número de subunidades se relaciona con el cansancio del insecto. Luego, construya un modelo jerárquico bayesiano donde la distribución de la media y la tendencia de una ráfaga esté determinada por la media, la tendencia de la grabación, y esto a su vez está determinado por la tendencia media de la ubicación.

Luego agregue la temperatura como factor para la media / tendencia de grabación.

Este modelo simple debería permitirle ver la media y la tendencia de las ráfagas individuales en una grabación según lo determinado por la temperatura y la ubicación. Intenta que esto funcione.

Luego, trataría de estimar la diferencia entre la frecuencia media de las ráfagas (o tendencia, dividiendo el tiempo de silencio entre las ráfagas) agregando esto como una variable determinada por la ubicación y el registro. El siguiente paso es un modelo AR de la media de ráfaga dentro de una grabación.

Dado algunos antecedentes y algunas suposiciones muy fuertes sobre la naturaleza de las ráfagas (que toda la información se da por media y tendencia), este modelo básico le dirá:

  • ¿Cómo es la frecuencia media de una explosión diferente ubicación por ubicación y temp por temp
  • ¿Cómo es la tendencia dentro de la explosión diferente ubicación por ubicación y temp por temp
  • ¿Cómo es la tendencia de estallido exterior diferente ubicación por ubicación y temp por temp

Una vez que tenga algo como esto para trabajar, puede ser hora de modelar las subunidades y desechar la estimación original de OLS. Observaría los datos en este punto para tener una idea de qué tipo de modelo de serie temporal podría ajustarse, y modelaría los parámetros del modelo de serie temporal en lugar de los pares (promedio, tendencia).

Patrick Caldon
fuente