Ajustar un GLMM binomial (glmer) a una variable de respuesta que es una proporción o fracción

9

Espero que alguien pueda ayudar con lo que creo que es una pregunta relativamente simple, y creo que sé la respuesta, pero sin confirmación se ha convertido en algo de lo que no puedo estar seguro.

Tengo algunos datos de conteo como una variable de respuesta y quiero medir cómo cambia esa variable con la presencia proporcional de algo.

Con más detalle, la variable de respuesta es el recuento de la presencia de una especie de insecto en varios sitios, por lo que, por ejemplo, un sitio se muestrea 10 veces y esta especie puede ocurrir 4 veces.

Quiero ver si esto se correlaciona con la presencia proporcional de un grupo de especies de plantas en la comunidad general de plantas en estos sitios.

Esto significa que mis datos se ven de la siguiente manera (esto es solo un ejemplo)

Site, insectCount, NumberOfInsectSamples, ProportionalPlantGroupPresence
1, 5, 10, 0.5
2, 3, 10, 0.3
3, 7, 9, 0.6
4, 0, 9, 0.1

Los datos también incluyen un efecto aleatorio para la ubicación.

Pensé en dos métodos, uno sería un modelo lineal ( lmer) con los insectos convertidos a una proporción, por ejemplo

 lmer.model<-lmer(insectCount/NumberOfInsectSamples~
 ProportionalPlantGroupPresence+(1|Location),data=Data)

El segundo sería un GLMM binomial ( glmer) ej.

glmer.model <- glmer(cbind(insectCount,NumberOfInsectSamples-insectCount)~
 ProportionalPlantGroupPresence+(1|Location),
 data=Data,family="binomial")

Creo que el binomial glmer es el método correcto, sin embargo, producen resultados bastante diferentes. Parece que no puedo encontrar una respuesta definitiva en la red sin sentirme aún un poco incierto, y deseo asegurarme de no cometer un error.

Cualquier ayuda o comprensión de métodos alternativos sobre esto sería muy apreciada.

ALs
fuente

Respuestas:

17

El binomio GLMM es probablemente la respuesta correcta.

  • Especialmente con un número pequeño a moderado de muestras (9 y 10 en su ejemplo), la distribución de la variable de respuesta probablemente será heteroscedástica (la varianza no será constante y, en particular, dependerá de la media de manera sistemática) y mucho desde Normalidad, de una manera que será difícil de transformar, especialmente si las proporciones son cercanas a 0 o 1 para algunos valores de la variable predictora. Eso hace que el GLMM sea una buena idea.
  • Debe tener cuidado de verificar / tener en cuenta la sobredispersión. Si tiene una sola observación (es decir, una sola muestra / fila binomial en su marco de datos) por ubicación, su (1|Site)efecto aleatorio lo manejará automáticamente (aunque vea Harrison 2015 para una nota de advertencia)
  • si la suposición anterior es correcta (solo tiene una muestra binomial única por ubicación), entonces también puede ajustar esto como un modelo binomial regular ( glm(...,family=binomial)- en ese caso también puede usar un modelo cuasibinomial ( family=quasibinomial) como una forma más simple y alternativa para tener en cuenta la sobredispersión
  • si lo desea, también puede ajustar su GLMM con la proporción como respuesta, si configura el weightsargumento para que sea igual al número de muestras:

     glmer(insectCount/NumberOfInsectSamples~ProportionalPlantGroupPresence+
           (1|Location),
           weights=NumberofInsectSamples,
           data=Data,family="binomial")

    (Esto debería dar resultados idénticos al glmer()ajuste que tiene en su pregunta).

Harrison, Xavier A. " Una comparación del efecto aleatorio a nivel de observación y los modelos beta-binomiales para modelar la sobredispersión en datos binomiales en ecología y evolución ". PeerJ 3 (21 de julio de 2015): e1114. doi: 10.7717 / peerj.1114.

Ben Bolker
fuente
Hola Ben, ¡Muchas gracias por tu respuesta clara y completa!
ALs