¿En qué condiciones se debe usar el análisis multinivel / jerárquico?

36

¿En qué condiciones debería alguien considerar el uso de análisis multinivel / jerárquico en lugar de análisis más básicos / tradicionales (por ejemplo, ANOVA, regresión OLS, etc.)? ¿Hay alguna situación en la que esto pueda considerarse obligatorio? ¿Hay situaciones en las que el uso de análisis multinivel / jerárquico es inapropiado? Finalmente, ¿cuáles son algunos buenos recursos para que los principiantes aprendan análisis multinivel / jerárquico?

Patricio
fuente
3
Ver también: stats.stackexchange.com/a/38430/5739
StasK

Respuestas:

22

Cuando la estructura de sus datos es naturalmente jerárquica o anidada, el modelado multinivel es un buen candidato. De manera más general, es un método para modelar interacciones.

Un ejemplo natural es cuando sus datos provienen de una estructura organizada, como el país, el estado, los distritos, donde desea examinar los efectos en esos niveles. Otro ejemplo en el que puede ajustarse a dicha estructura es el análisis longitudinal, en el que tiene mediciones repetidas de muchos sujetos a lo largo del tiempo (por ejemplo, alguna respuesta biológica a una dosis de fármaco). Un nivel de su modelo supone una respuesta media grupal para todos los sujetos a lo largo del tiempo. Otro nivel de su modelo permite perturbaciones (efectos aleatorios) de la media grupal para modelar las diferencias individuales.

Un libro popular y bueno para comenzar es el Análisis de datos de Gelman usando regresión y modelos multinivel / jerárquicos .

ars
fuente
3
Respaldo esta respuesta y me gustaría agregar otra gran referencia sobre este tema: Texto de análisis de datos longitudinales aplicados de Singer < gseacademic.harvard.edu/alda >. Aunque es específico para el análisis longitudinal, ofrece una buena visión general de MLM en general. También encontré Snidjers y el análisis multinivel de Bosker bueno y legible < stat.gamma.rug.nl/multilevel.htm >. John Fox también proporciona una buena introducción a estos modelos en R aquí < cran.r-project.org/doc/contrib/Fox-Companion/… >.
Brett
Gracias a todos por sus respuestas :) Como una pregunta de seguimiento, ¿no podrían conceptualizarse la mayoría de los datos como si fueran jerárquicos / anidados de forma natural? Por ejemplo, en la mayoría de los estudios psicológicos, hay una serie de variables dependientes (cuestionarios, respuestas de estímulo, etc.) anidadas dentro de los individuos, que se anidan aún más dentro de dos o más grupos (asignados aleatoriamente o no aleatoriamente). ¿Estaría de acuerdo en que esto representa una estructura de datos naturalmente jerárquica y / o anidada?
Patrick
Si alguno de ustedes, gurús multinivel / jerárquicos, pudiera dedicar unos minutos, les agradecería que pudieran opinar sobre las preguntas de análisis planteadas en una publicación diferente ( stats.stackexchange.com/questions/1799/… ). Específicamente, ¿cree que los datos de percepción del dolor descritos en esa publicación se analizarían mejor mediante análisis jerárquicos que análisis no jerárquicos? ¿O no haría una diferencia o incluso sería inapropiado? Gracias: D
Patrick
18

El Centro para el modelado multinivel tiene algunos buenos tutoriales gratuitos en línea para el modelado multinivel, y tienen tutoriales de software para ajustar modelos tanto en su software MLwiN como en STATA.

Tome esto como herejía, porque no he leído más que un capítulo en el libro, sino modelos lineales jerárquicos: aplicaciones y métodos de análisis de datos Por Stephen W. Raudenbush, Anthony S. Bryk es muy recomendable. ¡También juré que había un libro sobre modelado de niveles múltiples usando el software R en Springer Use R! serie, pero parece que no puedo encontrarla en este momento (pensé que fue escrita por las mismas personas que escribieron el libro A Beginner's Guide to R).

editar: El libro sobre el uso de R para modelos multinivel es Modelos de efectos mixtos y extensiones en ecología con R de Zuur, AF, Ieno, EN, Walker, N., Saveliev, AA, Smith, GM

buena suerte

Andy W
fuente
9

Aquí hay otra perspectiva sobre el uso de modelos multinivel vs. regresión: en un interesante artículo de Afshartous y de Leeuw, muestran que si el propósito del modelado es predictivo (es decir, predecir nuevas observaciones), la elección del modelo es diferente de cuando El objetivo es la inferencia (donde intenta hacer coincidir el modelo con la estructura de datos). El documento al que me refiero es

Afshartous, D., de Leeuw, J. (2005). Predicción en modelos multinivel. J. Educat. Behav Estadístico. 30 (2): 109-139.

Acabo de encontrar otro artículo relacionado de estos autores aquí: http://moya.bus.miami.edu/~dafshartous/Afshartous_CIS.pdf

Galit Shmueli
fuente
6

yis=αs+Xisβs+ϵis,
yisisXisβsαsϵisαs

Con el modelo en mano, el problema se convierte en una cuestión de estimación. Si tiene muchas escuelas y muchos datos para cada escuela, las buenas propiedades de OLS (vea Angrist y Pischke, Mayormente inofensivo ..., para una revisión actual) sugiera que desearía usar eso, con ajustes adecuados a los errores estándar para tener en cuenta las dependencias, y el uso de variables ficticias e interacciones para obtener efectos a nivel escolar e intercepciones específicas de la escuela. OLS puede ser ineficiente, pero es tan transparente que podría ser más fácil convencer a un público escéptico si lo usa. Pero si sus datos son escasos de ciertas maneras, particularmente si tiene pocas observaciones para algunas escuelas, es posible que desee imponer más "estructura" al problema. Es posible que desee "tomar prestada fortaleza" de las escuelas de muestra más grande para mejorar las estimaciones ruidosas que obtendría en las escuelas de muestra pequeña si la estimación se hiciera sin estructura. Luego, puede recurrir a un modelo de efectos aleatorios estimado a través de FGLS,

En este ejemplo, el uso de un modelo multinivel (sin embargo, en última instancia, decidimos ajustarlo) está motivado por el interés directo en las intercepciones a nivel escolar. Por supuesto, en otras situaciones, estos parámetros a nivel de grupo pueden no ser más que molestias. Si necesita o no ajustarlos (y, por lo tanto, seguir trabajando con algún tipo de modelo multinivel) depende de si se cumplen ciertos supuestos de exogeneidad condicional. Sobre eso, recomendaría consultar la literatura econométrica sobre métodos de datos de panel; La mayoría de las ideas a partir de ahí se transfieren a contextos de datos agrupados generales.

Cyrus S
fuente
1
Este es un hilo viejo, pero en caso de que leas esto: OLS con variables e interacciones ficticias no toma fuerza como las otras técnicas que mencionas, ¿verdad? Tengo algunos datos donde dividí mi análisis en dos partes y usé dos comandos lm (modelo lineal R) para modelar las dos partes. Introduje una variable ficticia para indicar las dos partes, luego volví a usar lm en este modelo "unificado" y las respuestas son cercanas, pero no iguales. Mi pregunta sería: ¿es esa respuesta "mejor", o simplemente diferente debido al algoritmo?
Wayne
@Wayne: si usó dummies y el conjunto completo de interacciones en el segundo, las estimaciones puntuales deberían ser las mismas. Los errores estándar pueden diferir porque el segundo método puede suponer mayores grados de libertad, pero usted querrá verificar si esa es una suposición de modelado correcta.
Cyrus S
6

El modelado multinivel es apropiado, como su nombre lo indica, cuando sus datos tienen influencias que ocurren en diferentes niveles (individual, a lo largo del tiempo, sobre dominios, etc.). El modelado de nivel único supone que todo está ocurriendo en el nivel más bajo. Otra cosa que hace un modelo multinivel es introducir correlaciones entre unidades anidadas. Por lo tanto, las unidades de nivel 1 dentro de la misma unidad de nivel 2 estarán correlacionadas.

En cierto sentido, se puede pensar en el modelado multinivel como un punto intermedio entre la "falacia individualista" y la "falacia ecológica". La falacia individualista es cuando se ignoran los "efectos de la comunidad", como la compatibilidad del estilo de un maestro con el estilo de aprendizaje de un alumno, por ejemplo (se supone que el efecto proviene solo del individuo, así que solo haga la regresión en el nivel 1). mientras que "falacia ecológica" es lo opuesto, y sería como suponer que el mejor maestro tiene a los estudiantes con las mejores calificaciones (y para que el nivel 1 no sea necesario, simplemente haga la regresión por completo en el nivel 2). En la mayoría de los entornos, ninguno es apropiado (el alumno-maestro es un ejemplo "clásico").

yijj

probabilidadislogica
fuente
4

En general, hablar de un análisis jerárquico bayesiano (HB) conducirá a estimaciones de nivel individual eficientes y estables a menos que sus datos sean tales que los efectos de nivel individual sean completamente homogéneos (un escenario poco realista). La eficiencia y las estimaciones de parámetros estables de los modelos HB se vuelven realmente importantes cuando tiene datos escasos (por ejemplo, menos no de obs que el no de parámetros a nivel individual) y cuando desea estimar estimaciones de nivel individual.

Sin embargo, los modelos HB no siempre son fáciles de estimar. Por lo tanto, aunque el análisis HB generalmente supera al análisis que no es HB, debe sopesar los costos relativos frente a los beneficios en función de su experiencia pasada y sus prioridades actuales en términos de tiempo y costo.

Una vez dicho esto, si no está interesado en las estimaciones de nivel individual, simplemente puede estimar un modelo de nivel agregado, pero incluso en estos contextos, estimar modelos agregados a través de HB utilizando estimaciones de nivel individual puede tener mucho sentido.

En resumen, ajustar los modelos HB es el enfoque recomendado siempre que tenga el tiempo y la paciencia para ajustarlos. Luego puede usar modelos agregados como punto de referencia para evaluar el rendimiento de su modelo HB.


fuente
Gracias por su respuesta detallada Srikant :) Actualmente no estoy familiarizado con los análisis bayesianos, pero es uno de los temas que he querido investigar. ¿Es el análisis bayesiano jerárquico diferente de los otros análisis multinivel / jerárquicos discutidos en esta página? Si es así, ¿tiene un recurso recomendado para que las partes interesadas aprendan más?
Patrick
βyonorte(β¯,Σ)β¯norte(.,.)
4

Aprendí de Snijders y Bosker, Análisis multinivel: una introducción al modelado multinivel básico y avanzado. Creo que es muy bueno para los principiantes, debe ser porque soy un espeso en lo que respecta a estas cosas y tenía sentido para mí.

Secundo el Gelman y Hill también, un libro verdaderamente brillante.

Chris Beeley
fuente
1

Los modelos de niveles múltiples deben emplearse cuando los datos están anidados en una estructura jerárquica, particularmente cuando existen diferencias significativas entre las unidades de nivel superior en la variable dependiente (por ejemplo, la orientación del rendimiento del alumno varía entre los alumnos y también entre las clases con las que los alumnos están anidados). En estas circunstancias, las observaciones se agrupan en lugar de ser independientes. Si no se tiene en cuenta la agrupación, se subestiman los errores de las estimaciones de los parámetros, las pruebas de significación sesgadas y la tendencia a rechazar el valor nulo cuando se debe conservar. La justificación del uso de modelos multinivel, así como explicaciones exhaustivas de cómo llevar a cabo los análisis, es proporcionada por

Raudenbush, SW Bryk, AS (2002). Modelos lineales jerárquicos: aplicaciones y métodos de análisis de datos. 2da edición. Newbury Park, CA: Sabio.

El libro de R & B también está bien integrado con el paquete de software HLM de los autores, lo que ayuda mucho en el aprendizaje del paquete. En un artículo clásico se proporciona una explicación de por qué los modelos multinivel son necesarios y preferibles a algunas alternativas (como la codificación ficticia de las unidades de nivel superior).

Hoffman, DA (1997). Una visión general de la lógica y la lógica de los modelos lineales jerárquicos. Journal of Management, 23, 723-744.

El documento de Hoffman se puede descargar de forma gratuita si busca en Google "Hoffman 1997 HLM" y accede al pdf en línea.

StatisticsDoc Consulting
fuente