Digamos que estamos interesados en cómo las calificaciones de los exámenes de los estudiantes se ven afectadas por la cantidad de horas que esos estudiantes estudian. Para explorar esta relación, podríamos ejecutar la siguiente regresión lineal:
Pero si tomamos muestras de alumnos de varias escuelas diferentes, podríamos esperar que los alumnos de la misma escuela sean más similares entre sí que los alumnos de diferentes escuelas. Para tratar este problema de dependencia, el consejo en muchos libros de texto / en la web es ejecutar efectos mixtos e ingresar a la escuela como un efecto aleatorio. Entonces el modelo se convertiría en: Pero, ¿por qué esto resuelve el problema de dependencia que estaba presente en la regresión lineal?
Responda como si estuviera hablando con un niño de 12 años.
Respuestas:
Incluir términos aleatorios en el modelo es una forma de inducir alguna estructura de covarianza entre los grados. El factor aleatorio para la escuela induce una covarianza diferente de cero entre diferentes estudiantes de la misma escuela, mientras que es cuando la escuela es diferente.0
Escribamos su modelo como donde s indexa la escuela e i indexa los alumnos (en cada escuela). Los términos escuela s son variables aleatorias independientes dibujadas en una N ( 0 , τ ) . Las e s , i son variables aleatorias independientes dibujadas en una N ( 0 , σ 2 ) .
Este vector tiene un valor esperado que está determinado por el número de horas trabajadas.
La covarianza entre e Y s ′ , i ′ es 0 cuando s ≠ s ′ , lo que significa que la desviación de las calificaciones de los valores esperados son independientes cuando los estudiantes no están en la misma escuela.Ys , i Ys′, i′ 0 0 s ≠ s′
La covarianza entre e Y s , i ′ es τ cuando i ≠ i ′ , y la varianza de Y s , i es τ + σ 2 : las calificaciones de los estudiantes de la misma escuela tendrán desviaciones correlacionadas de sus valores esperados .Ys , i Ys , i′ τ i ≠ i′ Ys , i τ+ σ2
Ejemplo y datos simulados
Aquí hay una breve simulación R para cincuenta estudiantes de cinco escuelas (aquí tomo ); los nombres de la variable son auto documentados:σ2= τ= 1
Trazamos las desviaciones de la calificación esperada para cada estudiante, es decir, los términos , junto con (línea de puntos) la desviación media para cada escuela:colegios+ es , i
Ahora comentemos esta trama. El nivel de cada línea de puntos (que corresponde a ) se extrae al azar en una ley normal. Los términos aleatorios específicos del alumno también se dibujan al azar en una ley normal, corresponden a la distancia de los puntos desde la línea punteada. El valor resultante es, para cada estudiante, la salida de α + horas β , la calificación determinada por el tiempo dedicado al trabajo. Como resultado, los alumnos en la misma escuela son más similares entre sí que los alumnos de diferentes escuelas, como usted indicó en su pregunta.colegios α + horas β
La matriz de varianza para este ejemplo
En las simulaciones anteriores dibujamos la escuela por separado los efectos y los efectos individuales e s , i , por lo que las consideraciones de covarianza con la que empecé no aparecen claramente aquí. De hecho, habríamos obtenido resultados similares al dibujar un vector normal aleatorio de dimensión 50 con matriz de covarianza de bloque diagonal [ A 0 0 0 0 0 A 0 0 0 0 0 A 0 0 0 0 0 A 0 0 0 0 0 A ] donde cada uno de los cincocolegios mis , i
fuente