Cuándo incluir un efecto aleatorio en un modelo

Soy nuevo en el modelado mixto y estoy confundido sobre si es apropiado usar un efecto aleatorio en un análisis que estoy haciendo. Cualquier consejo sería apreciado.

mi estudio está probando qué tan bien un índice de abundancia de mamíferos recientemente desarrollado puede predecir el valor de un índice establecido pero más laborioso. He estado midiendo estos índices en múltiples parches forestales, con múltiples parcelas en cada parche forestal.

porque no estoy directamente interesado en el efecto de los parches forestales, y porque mis parcelas de muestra están anidadas dentro de parches forestales, he estado usando parches forestales como un efecto aleatorio. Sin embargo, tengo un par de preguntas sobre esto:

En primer lugar, sé que los efectos aleatorios le permiten generalizar sus resultados en todos los niveles posibles del factor aleatorio, no solo en los que muestreó. ¿Pero me parece que para hacer este tipo de inferencia sus niveles tendrían que ser muestreados al azar? Mis parches de bosque no se muestrearon al azar, ¿puedo seguir usándolos como un efecto aleatorio?

segundo, he leído que puede probar si es necesario tener un efecto aleatorio haciendo, por ejemplo, una prueba de razón de probabilidad para comparar modelos con y sin el efecto. He hecho esto, y sugiere que el modelo de efectos aleatorios no explica los datos, así como un modelo de solo efectos fijos. mi problema con esto es que mis parcelas todavía están anidadas dentro de parches forestales y, por lo tanto, presumiblemente no son independientes. entonces, ¿puedo usar este enfoque LRT para justificar la exclusión del efecto aleatorio, o todavía necesito incluirlo para tener en cuenta la anidación? y si termino eliminando el efecto aleatorio, ¿hay alguna forma de verificar que las parcelas dentro de parches forestales se puedan considerar independientes?

¡Gracias por tu ayuda!

Arrendajo

random-effects-model nested-data arrendajo
fuente

Creo que lo principal conceptual con los efectos aleatorios es que todos deberían tener aproximadamente la misma magnitud y ser intercambiables; esto es lo que hace posible la inferencia sobre los efectos aleatorios no muestreados. Además, debe tener cuidado al usar pruebas LR para efectos aleatorios, ya que puede haber una incertidumbre considerable con respecto al componente de varianza, incluso si la estimación de ML / REML es cero o cercana a cero.

chanceislogic

Muchas gracias por eso. Entonces, ¿habría alguna forma de hacer ejercicio si fuera necesario para mantener el efecto aleatorio?

Jay

Por lo que entiendo, es mejor no hacer comparaciones LR con modelos ajustados por REML. En el lmer de R, por ejemplo, debe establecer REML = FALSE al hacer LRT. (El valor predeterminado es VERDADERO, que de lo contrario es mejor.)

Wayne

Respuestas:

Según tengo entendido, tiene un diseño de observación anidado simple (gráficos dentro de parches) y su interés está en una correlación / regresión entre dos variables continuas (los dos índices). El tamaño de su muestra es m parches xn parcelas = N pares de observaciones (o el sumario apropiado si no está equilibrado). No hubo una asignación al azar adecuada, pero tal vez usted pueda / deba / quiera tener en cuenta que (1) los parches se seleccionaron "al azar" de todos los parches de este tipo o en alguna área, y luego (2) las parcelas fueron "al azar" seleccionado dentro de cada parche.

Si ignora el parche de factor aleatorio, puede estar haciendo una pseudoreplicación al considerar que ha seleccionado aleatoriamente N parcelas "libremente", sin limitarlas a estar (en número o tipo) en esos parches (previamente) seleccionados.

Entonces, su primera pregunta: sí, eso es lo que permite un factor aleatorio. La validez de dicha inferencia depende de la validez del supuesto de que la selección aleatoria es equivalente a la selección aleatoria de parches (por ejemplo, que sus resultados no serían diferentes si se seleccionara un conjunto diferente de parches forestales). Eso también pone un límite a su espacio de inferencia: el tipo de bosque o área geográfica hasta donde se extienden sus resultados depende de la población máxima (imaginaria) de parches de donde su muestra es una muestra "aleatoria" creíble. Tal vez sus observaciones sean una muestra "aleatoria razonable" de los mamíferos de los parches forestales en su región, pero sería una muestra sospechosamente agregada de los mamíferos de todo el continente.

La segunda: la prueba dependerá del "grado de pseudoreplicación" o de la evidencia en su muestra de que las parcelas "pertenecen" a los parches. Esto es, cuánta variación hay entre parches y entre parcelas dentro de parches (buscar correlación intraclase). En un extremo, solo está presente la variación entre parches (los gráficos dentro de un parche son todos iguales) y usted tiene "pseudoreplicación pura": su N debe ser el número de parches, y muestrear uno o varios gráficos de cada uno de ellos no proporciona nueva información. En el otro extremo, toda variación ocurre entre parcelas, y no hay una variación adicional explicada al saber a qué parche de bosque pertenece cada parcela (y luego el modelo sin el factor aleatorio parecería más parsimonioso); tienes parcelas "independientes". NINGUNO de los extremos es muy probable que suceda ... particularmente para las variables biológicas observadas en el suelo, aunque solo sea por la autocorrelación espacial y las distribuciones geográficas de los mamíferos. Personalmente prefiero mantener los factores por diseño de todos modos (por ejemplo, incluso cuando los parches no son una fuente relevante de variación EN ESTA MUESTRA) para mantener la analogía "experimental-observacional" explicada anteriormente; recuerde: no tener evidencia en su muestra para rechazar la hipótesis nula de que la variación entre parches es cero no significa que la variación sea cero en la población. incluso cuando los parches no son una fuente relevante de variación EN ESTA MUESTRA) para sostener la analogía "experimental-observacional" explicada anteriormente; recuerde: no tener evidencia en su muestra para rechazar la hipótesis nula de que la variación entre parches es cero no significa que la variación sea cero en la población. incluso cuando los parches no son una fuente relevante de variación EN ESTA MUESTRA) para sostener la analogía "experimental-observacional" explicada anteriormente; recuerde: no tener evidencia en su muestra para rechazar la hipótesis nula de que la variación entre parches es cero no significa que la variación sea cero en la población.

FairMiles
fuente