Estoy usando un modelo mixto en R
( lme4
) para analizar algunos datos de medidas repetidas. Tengo una respuesta variable (contenido de fibra de las heces) y 3 efectos fijos (masa corporal, etc.). Mi estudio solo tiene 6 participantes, con 16 medidas repetidas para cada uno (aunque dos solo tienen 12 repeticiones). Los sujetos son lagartos que recibieron diferentes combinaciones de alimentos en diferentes 'tratamientos'.
Mi pregunta es: ¿puedo usar la identificación del sujeto como un efecto aleatorio?
Sé que este es el curso de acción habitual en los modelos longitudinales de efectos mixtos, para tener en cuenta la naturaleza aleatoriamente muestreada de los sujetos y el hecho de que las observaciones dentro de los sujetos estarán más estrechamente correlacionadas que las de los sujetos. Pero, tratar la ID del sujeto como un efecto aleatorio implica estimar una media y una varianza para esta variable.
Dado que solo tengo 6 sujetos (6 niveles de este factor), ¿es esto suficiente para obtener una caracterización precisa de la media y la varianza?
¿El hecho de que tengo bastantes mediciones repetidas para cada sujeto ayuda en este sentido (no veo cómo importa)?
Finalmente, si no puedo usar la identificación del sujeto como un efecto aleatorio, ¿incluirlo como un efecto fijo me permitirá controlar el hecho de que tengo medidas repetidas?
Editar: Me gustaría aclarar que cuando digo "puedo" usar la identificación del sujeto como un efecto aleatorio, quiero decir "es una buena idea". Sé que puedo ajustar el modelo con un factor con solo 2 niveles, pero ¿seguramente esto no sería defendible? Me pregunto en qué punto se vuelve razonable pensar en tratar a los sujetos como efectos aleatorios. Parece que la literatura aconseja que 5-6 niveles es un límite inferior. Me parece que las estimaciones de la media y la varianza del efecto aleatorio no serían muy precisas hasta que hubiera más de 15 niveles de factores.
fuente
La "Econometría en su mayoría inofensiva" de Angrist y Pischke tiene una sección titulada, "Menos de 42 grupos", en la que dicen en tono de broma:
Por lo tanto, siguiendo el ... dictamen de que la respuesta a la vida, el universo y todo es 42, creemos que la pregunta es: ¿Cuántos grupos son suficientes para una inferencia confiable usando el ajuste de grupo estándar [similar al estimador de varianza en GEE]?
La forma en que mi instructor de econometría solía responder preguntas como la suya es: "Estados Unidos es un país libre, puedes hacer lo que quieras. Pero si quieres que se publique tu trabajo, debes ser capaz de defender lo que has hecho". " En otras palabras, es probable que pueda ejecutar R o Stata o HLM o Mplus o código SAS PROC GLIMMIX con 6 temas (y cambiar a estos paquetes alternativos si el que elija no ejecuta esto), pero es probable que tenga Es muy difícil defender este enfoque y justificar las pruebas asintóticas.
Creo que, por defecto, incluir una variable como una pendiente aleatoria implica incluir eso también como un efecto fijo, y debe saltar a través de muchos aros de sintaxis si solo desea tener esto como un efecto aleatorio con la media de cero. Esa es una elección sensata que los desarrolladores de software han hecho para usted.
fuente
También podría usar un modelo mixto bayesiano; en ese caso, la incertidumbre en la estimación de los efectos aleatorios se tiene plenamente en cuenta en el cálculo de los intervalos creíbles de predicción del 95%. El nuevo paquete
brms
y la función Rbrm
, por ejemplo, permiten una transición muy fácil de unlme4
modelo mixto frecuentista a uno bayesiano, ya que tiene una sintaxis casi idéntica.fuente
No usaría un modelo de efectos aleatorios con solo 6 niveles. Los modelos que usan un efecto aleatorio de 6 niveles pueden ejecutarse en algún momento utilizando muchos programas estadísticos y, a veces, dan estimaciones imparciales, pero:
Este problema se aborda en la mayoría de los libros de texto estándar en el campo y usted los ha abordado en su pregunta. No creo que te esté dando ninguna información nueva.
fuente
lme4
modelos mixtos y a menudo los ejecuto en tamaños de muestra similares a los del OP (también estoy trabajando con conjuntos de datos de biología).Ha pasado mucho tiempo desde la pregunta original, pero pensé que podría agregar algunos puntos pertinentes a la selección del modelo.
1 - Siempre y cuando se identifique el modelo (es decir, tiene grados de libertad en el espacio de parámetros), debería ser capaz de INTENTAR para adaptarse al modelo. Dependiendo del método de optimización, el modelo puede o no converger. En cualquier caso, no trataría de incluir más de 1 o 2 efectos aleatorios y definitivamente no más de 1 interacción de nivel cruzado. En el caso específico del problema presentado aquí si sospechamos que una interacción entre las características específicas de la lagartija (por ejemplo, edad, tamaño, etc.) y las características de tratamiento / medida, el tamaño del grupo 6 puede no ser suficiente para hacer estimaciones lo suficientemente precisas.
2 - Como mencionan algunas respuestas, la convergencia puede ser un problema. Sin embargo, mi experiencia es que, si bien los datos de las ciencias sociales tienen un gran problema de convergencia debido a problemas de medición, las ciencias biológicas y especialmente las medidas bioquímicas repetidas tienen errores estándar mucho más pequeños. Todo depende del proceso de generación de datos. En los datos sociales y económicos tenemos que trabajar en varios niveles de abstracción. En biológicos y químicos, y ciertamente el error de medición de datos astronómicos es un problema menor.
fuente