He explorado muchos sitios de ayuda y todavía estoy confundido acerca de cómo especificar términos anidados más complicados en un modelo mixto también. También estoy confundido en cuanto al uso de :
y /
y |
en la especificación de interacciones y anidando con factores aleatorios usando lmer()
en el lme4
paquete de R
.
A los fines de esta pregunta, supongamos que he retratado con precisión mis datos con este modelo estadístico estándar: es fijo, y son al azar está (implícitamente) anidado dentro .
station
tow
day
Tow
station
En otras palabras, espero que mi modelo incluya Station (i, fixed), Tow (j, random, implícitamente anidado dentro de Station), Day (k, random) e interacción entre Tow y Day, y la interacción entre Day y estación. He consultado con un estadístico para crear mi modelo y en este momento creo que es representativo de mis datos, pero también agregaré una descripción de mis datos para aquellos que estén interesados en la parte inferior de mi publicación para no saturarlos.
Hasta ahora, lo que he podido reconstruir es lo siguiente en lmer
:
lmer(y ~ station + (1|station:tow) + (1|Day) + (1|station:day) + (1|tow:day),
data=my.data)
¿Representa esto con precisión mi modelo estadístico? ¿Alguna sugerencia sobre cómo mejorar mi código si no se lee correctamente?
He en negrita los términos específicos que tengo dificultades para especificar en mi fórmula anterior
# 1 remolque anidado dentro de la estación cuando el remolque es aleatorio y la estación está fija
Estoy confundido, sin embargo, sobre la diferenciación entre los términos anidados y de interacción que son aleatorios usando :
y /
. En mi ejemplo anterior, tengo (1|station:tow)
en el que espero leer remolques anidados dentro de la estación. He leído comentarios contradictorios en varios sitios, ya sea que deba usarlos :
o no /
en este (1|...)
formato aleatorio lmer
.
# 2 La interacción entre la estación y el día cuando la estación es fija y el día es aleatorio
, (1|station:day)
pero esta vez espero que lea la interacción entre la estación y el día. Parece que podría usar station * day para tener en cuenta los efectos individuales de station y day, así como su interacción (en lugar de incluir cada uno de los tres términos por separado como lo hago anteriormente), pero no veo cómo especificar esto cuando uno es fijo y el otro es aleatorio. Haría station*(1|day)
eso?
# 3 La interacción entre el remolque y el día (ambos aleatorios) cuando el remolque está anidado en la estación (fijo)
Luego, finalmente, tengo el (1|tow:day)
que espero lee la interacción de tow
y day
, pero me pregunto si necesito especificar nuevamente que el remolque está anidado (implícitamente) en la estación?
Soy nuevo en el modelado estadístico y en ambos, R
y lmer
agradezco enormemente el problema de las explicaciones exhaustivas en cualquier respuesta a mis preguntas, si es posible.
Más detalles sobre mis datos: pregunto si las concentraciones de plancton varían en un frente físico en el océano cercano a la costa. Tengo tres estaciones, en la costa, dentro y fuera de este frente. La estación es así fija. En cada estación, tomo tres remolques de plancton replicados (de los cuales clasifico, cuento y obtengo una concentración en términos de # de errores por metro en cubos de agua). El remolque es aleatorio: en tres remolques espero explicar la variabilidad general del plancton en esa estación en particular. El remolque está intrínsecamente anidado en la estación, ya que cada remolque no tiene una identificación única (123,123,123 es la identificación de los remolques en cada estación). Luego hice esto en varios días independientes con un nuevo frente que se había formado. ¿Creo que puedo pensar en Day como un factor de bloqueo? El día es aleatorio ya que repetir esto en varios días de frente independientes está tratando de capturar la variabilidad del día a día y ser representativo de todos los días en los que este frente está presente. Quiero saber acerca de los términos de interacción para ver si Tows cambia en variabilidad de un día a otro y si las estaciones siempre producen datos similares o depende del día?
Nuevamente, gracias por su tiempo y ayuda, ¡lo aprecio!
fuente
R
sintaxis, la OMI, es lo suficientemente estadístico (es decir, comprender cómo se relaciona el modelo especificado con la anidación y las interacciones, etc.) para estar en el tema para CV.lmer()
sintaxis, ha especificado un modelo en el que hay un efecto fijo destation
y cuatro intercepciones aleatorias, compartidas por individuos con la misma (1) combinación destation
ytow
, (2) valor deDay
, (3) combinación destation
yday
y ( 4) combinación detow
yday
, respectivamente. ¿Es esto lo que pretendías? No estoy seguro porque, como lo indicó @BabekP, no está claro cómo ha escrito la formulación de su modelo. Has escrito nombres de variables, no parámetros. Normalmente, en un modelo como este, las combinaciones de variables son capturadas por los subíndices.Respuestas:
Remolque anidado dentro de la estación cuando el remolque es aleatorio y la estación está fija
station+(1|station:tow)
es correcto. Como dijo @John en su respuesta,(1|station/tow)
se expandiría a(1|station)+(1|station:tow)
(efecto principal de la estación más interacción entre remolque y estación), lo que no desea porque ya ha especificado la estación como un efecto fijo.Interacción entre estación y día cuando la estación es fija y el día es aleatorio.
La interacción entre un efecto fijo y uno aleatorio siempre es aleatorio. Nuevamente, como dijo @John, se
station*day
expande astation+day+station:day
lo que (nuevamente) no desea porque ya ha especificadoday
en su modelo. No creo que haya una manera de hacer lo que quiere y colapsar los efectos cruzados deday
(aleatorio) ystation
(fijo), pero podría hacerlo si quisiera escribirstation+(1|day/station)
, que según se especifica en la respuesta anterior se expandiríastation + (1|day) + (1|day:station)
.interacción entre el remolque y el día cuando el remolque está anidado en la estación
Debido a que usted no tiene valores únicos de la
tow
variable (es decir, porque a medida que decir por debajo de los arrastres se especifican como1
,2
,3
en cada estación, se hace necesario especificar el anidamiento, como(1|station:tow:day)
. Si tenías las estopas especificarse de forma única, se puede utilizar cualquiera(1|tow:day)
o(1|station:tow:day)
(deberían dar respuestas equivalentes). Si no especifica la anidación en este caso,lme4
intentará estimar un efecto aleatorio que sea compartido por el remolque n. ° 1 en todas las estaciones ...Una forma de diagnosticar si ha especificado correctamente los efectos aleatorios es mirar el número de observaciones informadas para cada variable de agrupación y ver si está de acuerdo con lo que espera (por ejemplo, el× ×
station:tow:day
grupo debe tener un número de observaciones correspondiente a la Número total de combinaciones de estación remolque día: si olvidó la anidación con estación, debería ver que obtiene menos observaciones de las que debería.׿ Le resultan útiles http://bbolker.github.io/mixedmodels-misc/glmmFAQ.html#model-specification y http://bbolker.github.io/mixedmodels-misc/glmmFAQ.html#nested-or-crossed ?
fuente
B
está anidadoA
o solo interactúa con él depende de si el efecto principal deA
está incluido en el modelo o no. Si el efecto principal de tambiénB
está en el modelo, entonces se cruza ...Algunas de las cosas en la fórmula son un poco confusas. El
:
es para interacciones entre dos términos, mientras que*
es para efectos principales e interacciones. El/
es otro para las interacciones, pero lo que hace es generar una interacción entre el numerador y todos los términos en el denominador (por ejemploA/(B+C) = A:B + A:C
). El|
es para algo así como "agrupado por". Entonces,1|station
sería interceptar agrupados por estación y entre paréntesis es aleatorio(1|station)
. Así es como anidarías.Esperemos que sea de ayuda. Es un poco extraño tener un efecto aleatorio anidado dentro de un efecto fijo y no estoy seguro de cómo lo representaría. Ni siquiera puedo imaginar la situación. Puede obtener una mejor respuesta si explica cuáles son sus variables y qué desea lograr. Muchas veces las personas hacen preguntas y usan la terminología de manera incorrecta y es difícil comunicarse. Explica qué representan las variables y qué quieres saber sobre ellas.
Centrándose en su descripción en su último párrafo, parece que su remolque es simplemente un indicador de las muestras que recopiló y no es algo de lo que necesite estimaciones en el sentido de que espera que el remolque 1 sea constantemente diferente del remolque 2 de alguna manera. El remolque solo indica una muestra. A menos que realmente crea que el orden de los remolques era importante, ni siquiera se molesta con esa variable. Y si importaban, entonces es un efecto fijo (y tal vez aleatorio, pero no un efecto exclusivamente aleatorio). Dices que quieres saber si los remolques cambian de variabilidad día a día. ¿Qué tal la respuesta es sí? No está en el ámbito de la probabilidad realista de que no varíen de un día a otro. Es solo la variación de sus medidas. Tú' No se permite tratar de dar cuenta de cada especificación de variación porque luego terminas sin que quede ninguna variación por error. Tendría un modelo sobre especificado. Estaría a punto de informar cada medida.
Usted hace una declaración similar acerca de preguntarse si la estación varía según el día; claro que lo hace. ¿Pero quizás te refieres a días específicos? ¿Se agruparon los días de alguna manera por temporada, ciclo lunar, etc.? A menos que tenga algo más que esto, este es el día 1, este es el día 2, etc. ¿Cómo saber que las estaciones varían día a día le dice algo más que las estaciones? Entonces, la respuesta a esa pregunta es, por supuesto, las estaciones varían día a día. Y, por supuesto, los remolques varían día a día y de estación a estación. Terminas a la izquierda con un modelo simple:
El único efecto fijo que tiene aquí, estación, solo se muestrea en varios remolques y varios días. No estoy seguro de que realmente necesites modelado multinivel aquí en absoluto. Parece que estás sobreespecificando tu modelo.
Si realmente desea efectos aleatorios de día y arrastre y hay información que no ha especificado aquí, entonces puede expandirla a un modelo de varios niveles. Eso sería:
Sin embargo, necesita múltiples remolques en cada estación y día para usar ese modelo.
fuente