En una conferencia escuché la siguiente declaración:
100 mediciones para 5 sujetos proporcionan mucha menos información que 5 mediciones para 100 sujetos.
Es bastante obvio que esto es cierto, pero me preguntaba cómo se podría probar matemáticamente ... Creo que se podría usar un modelo lineal mixto. Sin embargo, no sé mucho acerca de las matemáticas utilizadas para estimarlos (solo corro lmer4
para LMM y bmrs
GLMM :) ¿Podría mostrarme un ejemplo donde esto sea cierto? Prefiero una respuesta con algunas fórmulas, que solo un código en R. Siéntase libre de asumir una configuración simple, como por ejemplo un modelo mixto lineal con intercepciones aleatorias y pendientes distribuidas normalmente.
PD: una respuesta basada en matemáticas que no implique LMM también estaría bien. Pensé en LMM porque me parecían la herramienta natural para explicar por qué menos medidas de más sujetos son mejores que más medidas de pocos sujetos, pero es posible que me equivoque.
Respuestas:
La respuesta corta es que su conjetura es verdadera cuando y solo cuando hay una correlación positiva dentro de la clase en los datos . Hablando empíricamente, la mayoría de los conjuntos de datos agrupados la mayor parte del tiempo muestran una correlación positiva dentro de la clase, lo que significa que en la práctica su conjetura suele ser cierta. Pero si la correlación intraclase es 0, entonces los dos casos que mencionó son igualmente informativos. Y si la correlación intraclase es negativa , en realidad es menos informativo tomar menos medidas en más sujetos; en realidad preferiríamos (en lo que respecta a la reducción de la varianza de la estimación del parámetro) tomar todas nuestras mediciones en un solo tema.
Estadísticamente, hay dos perspectivas desde las cuales podemos pensar en esto: un efecto aleatorio (o mixto ) modelo , que usted menciona en su pregunta, o un modelo marginal , que termina siendo un poco más informativo aquí.
Modelo de efectos aleatorios (mixto)
Digamos que tenemos un conjunto de sujetos de los cuales hemos tomado m mediciones cada uno. Entonces, un modelo simple de efectos aleatorios de la medida j del sujeto i podría ser y i j = β + u i + e i j , donde β es la intersección fija, u i es el efecto aleatorio del sujeto (con varianza σ 2 u ), e i j es el término de error de nivel de observación (con varianza σ 2 en m j i
En este modelo, representa la media de la población, y con un conjunto de datos equilibrado (es decir, un número igual de mediciones de cada sujeto), nuestra mejor estimación es simplemente la media de la muestra. Entonces, si tomamos "más información" para significar una varianza menor para esta estimación, entonces básicamente queremos saber cómo la varianza de la media muestral depende de n y m . Con un poco de álgebra podemos resolver esa var ( 1β n m
Al examinar esta expresión, podemos ver quecada vezquehay alguna variación de sujeto(es decir,σ2u>0), al aumentar el número de sujetos (n), ambos términos serán más pequeños, al tiempo que aumenta el número de mediciones por sujeto (m) solo hará que el segundo término sea más pequeño. (Para una implicación práctica de esto para el diseño de proyectos de replicación de sitios múltiples, veaesta publicación de blog que escribí hace un tiempo).
In the context of the random-effects model, a negative intra-class correlation doesn't really make sense, because it implies that the subject varianceσ2u is somehow negative (as we can see from the ρ equation above, and as explained here and here)... but variances can't be negative! But this doesn't mean that the concept of a negative intra-class correlation doesn't make sense; it just means that the random-effects model doesn't have any way to express this concept, which is a failure of the model, not of the concept. To express this concept adequately we need to consider the marginal model.
Marginal model
For this same dataset we could consider a so-called marginal model ofyij ,
So now when we look at the equation for the variance of the sample mean under the marginal model, we have
(BTW, just a quick aside to point out that the second-to-last line of the derivation above implies that we must haveρ≥−1/(m−1) , or else the whole equation is negative, but variances can't be negative! So there is a lower bound on the intra-class correlation that depends on how many measurements we have per cluster. For m=2 (i.e., we measure each subject twice), the intra-class correlation can go all the way down to ρ=−1 ; for m=3 it can only go down to ρ=−1/2 ; and so on. Fun fact!)
So finally, once again considering the total number of observationsnm to be a constant, we see that the second-to-last line of the derivation above just looks like
fuente