Tengo un conjunto de datos bastante complicado para analizar, y no puedo encontrar una buena solución para ello.
Aquí está la cosa:
1. los datos en bruto son esencialmente grabaciones de canciones de insectos. Cada canción está compuesta de varias ráfagas, y cada ráfaga está compuesta de subunidades. Todos los individuos han sido registrados durante 5 minutos. El número de ráfagas y su posición en la grabación pueden ser muy diferentes entre individuos, así como el número de subunidades por ráfaga.
2. Tengo la frecuencia portadora (frecuencia fundamental) de cada subunidad, y eso es lo que quiero analizar.
Mis problemas:
1. Las frecuencias dentro de una ráfaga obviamente no son independientes (aunque es bastante estable, pero la frecuencia de la subunidad n-1 influirá en la subunidad n).
2. Las ráfagas tampoco son independientes, dentro de una grabación.
3. Son aún menos independientes a medida que la frecuencia disminuye con el tiempo (el individuo se cansa de cantar, por lo que la frecuencia de la canción disminuye cada vez más). La caída parece ser lineal.
4. Anidamiento = Tengo 3 poblaciones replicadas para dos ubicaciones A y B. Así que tengo A1, A2, A3 y B1, B2, B3.
Lo que me gustaría hacer:
1. Caracterice la diferencia de frecuencia entre mis dos ubicaciones (pruébelo estadísticamente)
2. Caracterice la caída de frecuencia entre las dos ubicaciones (vea si cae más rápido en una de ellas)
Cómo hacerlo:
Bueno, por eso necesito ayuda: no lo sé. Parece que mi caso combina problemas que generalmente no se ven juntos. He leído sobre modelos mixtos, sobre GAM, sobre ARIMA, efectos aleatorios y fijos, pero no puedo estar realmente seguro de la mejor manera de hacerlo. Sin embargo, cuando lo grafo (frecuencia ~ número de subunidad n ), la diferencia es muy clara entre las dos ubicaciones. También tengo que tener en cuenta otras variables, como la temperatura (aumenta la frecuencia), etc.
Yo pense acerca de:
Anidando los individuos dentro de la réplica de donde provienen, y anidando la réplica dentro de la ubicación (individual / replicate / location).
Usa un efecto aleatorio de 'ráfaga', así que tengo en cuenta la variabilidad dentro de cada ráfaga.
Use un efecto fijo de 'posición de ráfaga en la grabación' para medir la caída de frecuencia (con la esperanza de que sea realmente lineal).
¿Sería correcto?
¿Hay algún tipo especial de modelo que pueda usar para este tipo de escenario?
Respuestas:
Estas son solo algunas sugerencias generales que puede encontrar útiles, más una hoja de ruta que una receta.
Entonces, para comenzar, haría algo como preprocesar las frecuencias de las subunidades en una ráfaga por ráfaga en algo así como un par (frecuencia media, tendencia de frecuencia): hacer esto con OLS y simplemente modelar la tendencia y la media de frecuencia una explosión en lugar de las propias subunidades. O podría hacerlo (media, tendencia, número de subunidades), si el número de subunidades se relaciona con el cansancio del insecto. Luego, construya un modelo jerárquico bayesiano donde la distribución de la media y la tendencia de una ráfaga esté determinada por la media, la tendencia de la grabación, y esto a su vez está determinado por la tendencia media de la ubicación.
Luego agregue la temperatura como factor para la media / tendencia de grabación.
Este modelo simple debería permitirle ver la media y la tendencia de las ráfagas individuales en una grabación según lo determinado por la temperatura y la ubicación. Intenta que esto funcione.
Luego, trataría de estimar la diferencia entre la frecuencia media de las ráfagas (o tendencia, dividiendo el tiempo de silencio entre las ráfagas) agregando esto como una variable determinada por la ubicación y el registro. El siguiente paso es un modelo AR de la media de ráfaga dentro de una grabación.
Dado algunos antecedentes y algunas suposiciones muy fuertes sobre la naturaleza de las ráfagas (que toda la información se da por media y tendencia), este modelo básico le dirá:
Una vez que tenga algo como esto para trabajar, puede ser hora de modelar las subunidades y desechar la estimación original de OLS. Observaría los datos en este punto para tener una idea de qué tipo de modelo de serie temporal podría ajustarse, y modelaría los parámetros del modelo de serie temporal en lugar de los pares (promedio, tendencia).
fuente