Comparación de modelos de efectos mixtos con el mismo número de grados de libertad.

15

Tengo un experimento que intentaré resumir aquí. Imagina que arrojo tres piedras blancas frente a ti y te pido que juzgues su posición. Grabo una variedad de propiedades de las piedras y su respuesta. Hago esto en varias materias. Genero dos modelos. Una es que la piedra más cercana a ti predice tu respuesta, y la otra es que el centro geométrico de las piedras predice tu respuesta. Entonces, usar lmer en RI podría escribir.

mNear   <- lmer(resp ~ nearest + (1|subject), REML = FALSE)
mCenter <- lmer(resp ~ center  + (1|subject), REML = FALSE)

ACTUALIZACIÓN Y CAMBIO: versión más directa que incorpora varios comentarios útiles

podria intentar

anova(mNear, mCenter)

Lo cual es incorrecto, por supuesto, porque no están anidados y realmente no puedo compararlos de esa manera. Esperaba que anova.mer arrojara un error, pero no lo hizo. Pero la posible anidación que podría probar aquí no es natural y todavía me deja con declaraciones algo menos analíticas. Cuando los modelos se anidan naturalmente (por ejemplo, cuadrático en lineal), la prueba es solo de una manera. Pero en este caso, ¿qué significaría tener resultados asimétricos?

Por ejemplo, podría hacer un modelo tres:

mBoth <- lmer(resp ~ center + nearest + (1|subject), REML = FALSE)

Entonces puedo anova.

anova(mCenter, mBoth)
anova(mNearest, mBoth)

Es justo hacerlo y ahora encuentro que el centro se suma al efecto más cercano (el segundo comando) pero BIC en realidad aumenta cuando se agrega el más cercano al centro (corrección para la parsimonia más baja). Esto confirma lo que se sospechaba.

¿Pero es esto suficiente? ¿Y es justo cuando el centro y el más cercano están tan altamente correlacionados?

¿Existe una mejor manera de comparar analíticamente los modelos cuando no se trata de sumar y restar variables explicativas (grados de libertad)?

r mixed-model model-selection John
fuente

Sus modelos no están anidados, ¿cuál sería la razón para usar un LRT entre los dos?

chl

relanzó las cosas según su comentario

John

9

Aún así, puede calcular intervalos de confianza para sus efectos fijos e informar AIC o BIC (véase, por ejemplo, Cnann et al. , Stat Med 1997 16: 2349).

Ahora, puede estar interesado en echar un vistazo a la evaluación del mimetismo del modelo utilizando el bootstrap paramétrico , de Wagenmakers et al. lo que parece parecerse más a su pregunta inicial sobre la evaluación de la calidad de dos modelos competidores.

De lo contrario, los dos documentos sobre medidas de varianza explicada en LMM que me vienen a la mente son:

Lloyd J. Edwards, Keith E. Muller, Russell D. Wolfinger, Bahjat F. Qaqish y Oliver Schabenberger (2008). Una estadística R2 para efectos fijos en el modelo lineal mixto , Statistics in Medicine , 27 (29), 6137-6157.
Ronghui Xu (2003). Medición de la variación explicada en modelos lineales de efectos mixtos, Estadísticas en medicina , 22 (22), 3527-3541.

Pero tal vez hay mejores opciones.

chl
fuente

11

Seguir la sugerencia de ronaf lleva a un artículo más reciente de Vuong para una Prueba de relación de probabilidad en modelos no anidados. Se basa en el KLIC (Criterio de información de Kullback-Leibler) que es similar al AIC en que minimiza la distancia KL. Pero establece una especificación probabilística para la hipótesis, por lo que el uso del LRT conduce a una comparación más basada en principios. Clarke et al. Presentan una versión más accesible de las pruebas de Cox y Vuong; en particular, vea la Figura 3 que presenta el algoritmo para calcular la prueba Vuong LRT.

Pruebas de razón de probabilidad para la selección de modelos y las hipótesis no anidadas (Vuong, 1999)
Prueba de modelos no anidados de relaciones internacionales: reevaluación del realismo (Clarke et al, 2000)

Parece que hay implementaciones R de la prueba de Vuong en otros modelos, pero no más. Aún así, el esquema mencionado anteriormente debería ser suficiente para implementar uno. No creo que pueda obtener la probabilidad evaluada en cada punto de datos de lmer según sea necesario para el cálculo. En una nota sobre sig-ME, Douglas Bates tiene algunos consejos que podrían ser útiles (en particular, la viñeta que menciona).

Mayor

Otra opción es considerar los valores ajustados de los modelos en una prueba de precisión de predicción. La estadística de Williams-Kloot puede ser apropiada aquí. El enfoque básico es hacer retroceder los valores reales contra una combinación lineal de los valores ajustados de los dos modelos y probar la pendiente:

Una prueba para discriminar entre modelos (Atikinson, 1969)
El crecimiento y el estado del bienestar en la UE: un análisis de causalidad (Herce et al, 2001)

El primer documento describe la prueba (y otros), mientras que el segundo tiene una aplicación en un modelo de panel econométrico.

Al usar lmery comparar AIC, el valor predeterminado de la función es usar el método REML (probabilidad máxima restringida). Esto está bien para obtener estimaciones menos sesgadas, pero al comparar modelos, debe volver a ajustar con el REML=FALSEque utiliza el método de Máxima Verosimilitud para el ajuste. El libro Pinheiro / Bates menciona alguna condición bajo la cual está bien comparar AIC / Probabilidad con REML o ML, y esto puede aplicarse en su caso. Sin embargo, la recomendación general es simplemente volver a colocar. Por ejemplo, vea la publicación de Douglas Bates aquí:

¿Cómo puedo extraer el puntaje AIC de un objeto modelo mixto producido usando lmer?

ars
fuente

No especifiqué que había estado ajustando con REML = FALSE. Sin embargo, todavía estoy en una especie de quandry ... El AIC me da una medida de toda la probabilidad, incluidos los efectos aleatorios. Ese es un gran componente. Y, por supuesto, es poco probable que los AIC sean exactamente los mismos. Por lo tanto, parece imprudente simplemente seleccionar el valor más grande sin alguna forma analítica de saber cuánto es más grande.

John

@ John Esta conferencia destaca un punto interesante sobre REML vs. ML y AIC (y señala lo que usted dijo, John), j.mp/bhUVNt . La revisión de Bolker de GLMM también vale la pena echar un vistazo a: j.mp/cAepqA .

chl

4

hay un artículo de drcox que analiza la prueba de modelos separados [sin anotar]. considera algunos ejemplos, que no dan lugar a la complejidad de los modelos mixtos. [Como mi instalación con código R es limitada, no estoy muy seguro de cuáles son sus modelos.]

El documento de altho cox puede no resolver su problema directamente, puede ser útil de dos maneras posibles.

puede buscar en Google Scholar citas de su trabajo, para ver si los resultados posteriores se acercan a lo que desea.
Si tiene una inclinación analítica, puede intentar aplicar el método de Cox a su problema. [quizás no para los débiles de corazón]

btw - cox menciona al pasar la idea que srikant planteó de combinar los dos modelos en uno más grande. no persigue cómo se decidiría qué modelo es mejor, pero señala que incluso si ninguno de los dos modelos es muy bueno, el modelo combinado podría proporcionar un ajuste adecuado a los datos. [No está claro en su situación que un modelo combinado tendría sentido.]

ronaf
fuente

3

No sé R lo suficientemente bien como para analizar su código, pero aquí hay una idea:

Estime un modelo donde tenga tanto covariables centrales como cercanas (llame a esto mBoth). Luego, mCenter y mNear están anidados en mBoth y puede usar mBoth como punto de referencia para comparar el rendimiento relativo de mCenter y mNear.

fuente

1

Estaba pensando que esto no sería apropiado porque los dos estarían altamente correlacionados. Como el centro está lejos, también lo estará el cercano.

John

@John Buen punto.

Creo que tu punto también es bueno ... En realidad no estoy seguro de que importe. Sé que es alto pero por debajo de 0.8 ... aún analizable.

John

Comparación de modelos de efectos mixtos con el mismo número de grados de libertad.

Respuestas: