¿He especificado correctamente mi modelo en lmer?

26

He explorado muchos sitios de ayuda y todavía estoy confundido acerca de cómo especificar términos anidados más complicados en un modelo mixto también. También estoy confundido en cuanto al uso de :y /y |en la especificación de interacciones y anidando con factores aleatorios usando lmer()en el lme4paquete de R.

A los fines de esta pregunta, supongamos que he retratado con precisión mis datos con este modelo estadístico estándar: es fijo, y son al azar está (implícitamente) anidado dentro .

Yijk=u+stationi+towj(i)+dayk+(station×day)ik+(remolcar×día)j(yo)k
stationtowdayTowstation

En otras palabras, espero que mi modelo incluya Station (i, fixed), Tow (j, random, implícitamente anidado dentro de Station), Day (k, random) e interacción entre Tow y Day, y la interacción entre Day y estación. He consultado con un estadístico para crear mi modelo y en este momento creo que es representativo de mis datos, pero también agregaré una descripción de mis datos para aquellos que estén interesados ​​en la parte inferior de mi publicación para no saturarlos.

Hasta ahora, lo que he podido reconstruir es lo siguiente en lmer:

lmer(y ~ station + (1|station:tow) + (1|Day) + (1|station:day) + (1|tow:day), 
     data=my.data)

¿Representa esto con precisión mi modelo estadístico? ¿Alguna sugerencia sobre cómo mejorar mi código si no se lee correctamente?

He en negrita los términos específicos que tengo dificultades para especificar en mi fórmula anterior

# 1 remolque anidado dentro de la estación cuando el remolque es aleatorio y la estación está fija
Estoy confundido, sin embargo, sobre la diferenciación entre los términos anidados y de interacción que son aleatorios usando :y /. En mi ejemplo anterior, tengo (1|station:tow)en el que espero leer remolques anidados dentro de la estación. He leído comentarios contradictorios en varios sitios, ya sea que deba usarlos :o no /en este (1|...)formato aleatorio lmer.

# 2 La interacción entre la estación y el día cuando la estación es fija y el día es aleatorio
, (1|station:day)pero esta vez espero que lea la interacción entre la estación y el día. Parece que podría usar station * day para tener en cuenta los efectos individuales de station y day, así como su interacción (en lugar de incluir cada uno de los tres términos por separado como lo hago anteriormente), pero no veo cómo especificar esto cuando uno es fijo y el otro es aleatorio. Haría station*(1|day)eso?

# 3 La interacción entre el remolque y el día (ambos aleatorios) cuando el remolque está anidado en la estación (fijo) Luego, finalmente, tengo el (1|tow:day)que espero lee la interacción de towy day, pero me pregunto si necesito especificar nuevamente que el remolque está anidado (implícitamente) en la estación?

Soy nuevo en el modelado estadístico y en ambos, Ry lmeragradezco enormemente el problema de las explicaciones exhaustivas en cualquier respuesta a mis preguntas, si es posible.

Más detalles sobre mis datos: pregunto si las concentraciones de plancton varían en un frente físico en el océano cercano a la costa. Tengo tres estaciones, en la costa, dentro y fuera de este frente. La estación es así fija. En cada estación, tomo tres remolques de plancton replicados (de los cuales clasifico, cuento y obtengo una concentración en términos de # de errores por metro en cubos de agua). El remolque es aleatorio: en tres remolques espero explicar la variabilidad general del plancton en esa estación en particular. El remolque está intrínsecamente anidado en la estación, ya que cada remolque no tiene una identificación única (123,123,123 es la identificación de los remolques en cada estación). Luego hice esto en varios días independientes con un nuevo frente que se había formado. ¿Creo que puedo pensar en Day como un factor de bloqueo? El día es aleatorio ya que repetir esto en varios días de frente independientes está tratando de capturar la variabilidad del día a día y ser representativo de todos los días en los que este frente está presente. Quiero saber acerca de los términos de interacción para ver si Tows cambia en variabilidad de un día a otro y si las estaciones siempre producen datos similares o depende del día?

Nuevamente, gracias por su tiempo y ayuda, ¡lo aprecio!

wtree
fuente
Creo que le faltan algunos subíndices (no quería agregarlos si me equivoqué) en su modelo estadístico estándar.
1
FWIW, para cualquiera que se encuentre con este hilo y se pregunte si está en el tema, dado que se centra en la Rsintaxis, la OMI, es lo suficientemente estadístico (es decir, comprender cómo se relaciona el modelo especificado con la anidación y las interacciones, etc.) para estar en el tema para CV.
gung - Restablece a Monica
1
Esto es 100% sobre el tema en mi opinión.
2
Según su lmer()sintaxis, ha especificado un modelo en el que hay un efecto fijo de stationy cuatro intercepciones aleatorias, compartidas por individuos con la misma (1) combinación de stationy tow, (2) valor de Day, (3) combinación de stationy dayy ( 4) combinación de towy day, respectivamente. ¿Es esto lo que pretendías? No estoy seguro porque, como lo indicó @BabekP, no está claro cómo ha escrito la formulación de su modelo. Has escrito nombres de variables, no parámetros. Normalmente, en un modelo como este, las combinaciones de variables son capturadas por los subíndices.
Macro

Respuestas:

23

Remolque anidado dentro de la estación cuando el remolque es aleatorio y la estación está fija

station+(1|station:tow)es correcto. Como dijo @John en su respuesta, (1|station/tow)se expandiría a (1|station)+(1|station:tow)(efecto principal de la estación más interacción entre remolque y estación), lo que no desea porque ya ha especificado la estación como un efecto fijo.

Interacción entre estación y día cuando la estación es fija y el día es aleatorio.

La interacción entre un efecto fijo y uno aleatorio siempre es aleatorio. Nuevamente, como dijo @John, se station*dayexpande a station+day+station:daylo que (nuevamente) no desea porque ya ha especificado dayen su modelo. No creo que haya una manera de hacer lo que quiere y colapsar los efectos cruzados de day(aleatorio) y station(fijo), pero podría hacerlo si quisiera escribir station+(1|day/station), que según se especifica en la respuesta anterior se expandiría station + (1|day) + (1|day:station).

interacción entre el remolque y el día cuando el remolque está anidado en la estación

Debido a que usted no tiene valores únicos de la towvariable (es decir, porque a medida que decir por debajo de los arrastres se especifican como 1, 2, 3en cada estación, se hace necesario especificar el anidamiento, como (1|station:tow:day). Si tenías las estopas especificarse de forma única, se puede utilizar cualquiera (1|tow:day)o (1|station:tow:day)(deberían dar respuestas equivalentes). Si no especifica la anidación en este caso, lme4intentará estimar un efecto aleatorio que sea compartido por el remolque n. ° 1 en todas las estaciones ...

Una forma de diagnosticar si ha especificado correctamente los efectos aleatorios es mirar el número de observaciones informadas para cada variable de agrupación y ver si está de acuerdo con lo que espera (por ejemplo, el station:tow:daygrupo debe tener un número de observaciones correspondiente a la Número total de combinaciones de estación remolque día: si olvidó la anidación con estación, debería ver que obtiene menos observaciones de las que debería.×××

¿ Le resultan útiles http://bbolker.github.io/mixedmodels-misc/glmmFAQ.html#model-specification y http://bbolker.github.io/mixedmodels-misc/glmmFAQ.html#nested-or-crossed ?

Ben Bolker
fuente
Muchas gracias por la útil respuesta y referencias, son muy apreciadas. Estoy confundido acerca de la notación (1 | a: b) como usted describe arriba, donde parece que el ':' puede significar "anidado", así como una interacción. ¿Cómo puede especificar ambos? En otras palabras, ¿cómo sabe Imer qué relación está indicando? Debo estar perdiendo algo básico aquí, me disculpo.
wtree
44
No hay tanta diferencia, en este contexto, entre interacción y anidamiento. Si Bestá anidado Ao solo interactúa con él depende de si el efecto principal de Aestá incluido en el modelo o no. Si el efecto principal de tambiénB está en el modelo, entonces se cruza ...
Ben Bolker
Hola a todos, hice una pregunta relacionada aquí: stats.stackexchange.com/questions/272377/… si alguien (especialmente @BenBolker) tiene la oportunidad de buscar y dar una respuesta.
Joshua Rosenberg el
11

Algunas de las cosas en la fórmula son un poco confusas. El :es para interacciones entre dos términos, mientras que *es para efectos principales e interacciones. El /es otro para las interacciones, pero lo que hace es generar una interacción entre el numerador y todos los términos en el denominador (por ejemplo A/(B+C) = A:B + A:C). El |es para algo así como "agrupado por". Entonces, 1|stationsería interceptar agrupados por estación y entre paréntesis es aleatorio (1|station). Así es como anidarías.

Esperemos que sea de ayuda. Es un poco extraño tener un efecto aleatorio anidado dentro de un efecto fijo y no estoy seguro de cómo lo representaría. Ni siquiera puedo imaginar la situación. Puede obtener una mejor respuesta si explica cuáles son sus variables y qué desea lograr. Muchas veces las personas hacen preguntas y usan la terminología de manera incorrecta y es difícil comunicarse. Explica qué representan las variables y qué quieres saber sobre ellas.

Centrándose en su descripción en su último párrafo, parece que su remolque es simplemente un indicador de las muestras que recopiló y no es algo de lo que necesite estimaciones en el sentido de que espera que el remolque 1 sea constantemente diferente del remolque 2 de alguna manera. El remolque solo indica una muestra. A menos que realmente crea que el orden de los remolques era importante, ni siquiera se molesta con esa variable. Y si importaban, entonces es un efecto fijo (y tal vez aleatorio, pero no un efecto exclusivamente aleatorio). Dices que quieres saber si los remolques cambian de variabilidad día a día. ¿Qué tal la respuesta es sí? No está en el ámbito de la probabilidad realista de que no varíen de un día a otro. Es solo la variación de sus medidas. Tú' No se permite tratar de dar cuenta de cada especificación de variación porque luego terminas sin que quede ninguna variación por error. Tendría un modelo sobre especificado. Estaría a punto de informar cada medida.

Usted hace una declaración similar acerca de preguntarse si la estación varía según el día; claro que lo hace. ¿Pero quizás te refieres a días específicos? ¿Se agruparon los días de alguna manera por temporada, ciclo lunar, etc.? A menos que tenga algo más que esto, este es el día 1, este es el día 2, etc. ¿Cómo saber que las estaciones varían día a día le dice algo más que las estaciones? Entonces, la respuesta a esa pregunta es, por supuesto, las estaciones varían día a día. Y, por supuesto, los remolques varían día a día y de estación a estación. Terminas a la izquierda con un modelo simple:

aov(y ~ station, data = dat)

El único efecto fijo que tiene aquí, estación, solo se muestrea en varios remolques y varios días. No estoy seguro de que realmente necesites modelado multinivel aquí en absoluto. Parece que estás sobreespecificando tu modelo.

Si realmente desea efectos aleatorios de día y arrastre y hay información que no ha especificado aquí, entonces puede expandirla a un modelo de varios niveles. Eso sería:

lmer(y ~ station + (two*day|station), data = dat)

Sin embargo, necesita múltiples remolques en cada estación y día para usar ese modelo.

John
fuente
Estoy de acuerdo con todo lo que has dicho, pero creo que esto probablemente sea más un comentario que una respuesta.
Macro
@John Estuve contigo hasta que "así es como anidarías". Creo que me perdí el punto real de cómo anidan. ¿Estaría dispuesto a explicar con más detalle? Creo que todavía estoy confundido por el | y lo investigaremos más. Pero por su respuesta, ¿todavía no estoy seguro de cómo, por ejemplo, indicar que el remolque (aleatorio) está anidado dentro de la estación (fijo)?
wtree
@John Oh y la estación se fija como sitios / ubicaciones de interés en el océano y el remolque es aleatorio porque estoy tomando remolques de plancton en estos sitios que son aleatorios porque intentan explicar la variabilidad del plancton en cada sitio y luego se extrapolan representar a la población de plancton en una estación.
wtree
1
No todas las etiquetas de una muestra son variables aleatorias, ver ediciones.
John
1
Todavía creo que el remolque no debería estar en el modelo en absoluto dada esa descripción. Sin embargo, el día suena bien.
John