Necesito obtener algún tipo de "promedio" entre una lista de variaciones, pero tengo problemas para encontrar una solución razonable. Hay una discusión interesante sobre las diferencias entre los tres medios pitagóricos (aritmética, geométrica y armónica) en este hilo ; Sin embargo, todavía no creo que ninguno de ellos sea un buen candidato. ¿Alguna sugerencia?
PD Algún contexto: estas variaciones son variaciones de muestra de sujetos, cada uno de los cuales pasó por el mismo diseño de experimento con aproximadamente el mismo tamaño de muestra . En otras palabras, hay variaciones de muestreo , , ..., , correspondientes a esas asignaturas. Ya se ha realizado un metanálisis a nivel de la población. La razón por la que necesito obtener algún tipo de varianza muestral "promedio" o "resumida" es que quiero usarla para calcular un índice como ICC después del metanálisis.
PPS Para mantener la discusión más concreta, permítanme explicar el problema con el siguiente ejemplo en R:
library(metafor)
dat <- get(data(dat.konstantopoulos2011))
dat$district <- as.factor(dat$district)
dat$school <- as.factor(dat$school)
En el conjunto de datos hay una variación asociada con el puntaje de rendimiento de cada escuela:
str(dat)
Classes ‘escalc’ and 'data.frame': 56 obs. of 6 variables:
$ district: Factor w/ 11 levels "11","12","18",..: 1 1 1 1 2 2 2 2 3 3 ...
$ school : Factor w/ 11 levels "1","2","3","4",..: 1 2 3 4 1 2 3 4 1 2 ...
$ year : int 1976 1976 1976 1976 1989 1989 1989 1989 1994 1994 ...
$ yi : atomic -0.18 -0.22 0.23 -0.3 0.13 -0.26 0.19 0.32 0.45 0.38 ...
$ vi : num 0.118 0.118 0.144 0.144 0.014 0.014 0.015 0.024 0.023 0.043 ...
Supongamos que realizamos un metanálisis con un modelo jerárquico o de efectos mixtos:
donde y son los efectos aleatorios para el ésimo escuela y ésimo distrito, respectivamente, y es el error de medición con una distribución gaussiana conocido . Este modelo se puede analizar de la siguiente manera:
(fm <- rma.mv(yi, vi, random = list(~1 | district, ~1 | school), data=dat))
representando las siguientes estimaciones de varianza para los dos componentes de varianza:
Multivariate Meta-Analysis Model (k = 56; method: REML)
Variance Components:
estim sqrt nlvls fixed factor
sigma^2.1 0.0814 0.2853 11 no district
sigma^2.2 0.0010 0.0308 11 no school
Las dos variaciones en el resultado, sigma ^ 2.1 y sigma ^ 2.2, corresponden a las dos variables de efectos aleatorios (distrito y escuela).
Me gustaría calcular el ICC para el distrito, y es por eso que quería obtener una variación resumida en primer lugar para esas variaciones individuales, , del término de medición . Como la varianza total es
mi enfoque original (y simple) era usar solo la media aritmética:
pero no estoy seguro si la media aritmética, , es apropiada en este contexto.
Respuestas:
Ampliando los comentarios que recibió, la respuesta a la pregunta en su título ya se encuentra en ¿Cómo 'sumar' una desviación estándar? hilo, y se lee de la siguiente manera: para obtener la desviación estándar promedio, primero tome el promedio de las variaciones y luego tome la raíz cuadrada de la misma.
A primera vista, este enfoque es válido, pero ignora la naturaleza jerárquica de sus datos. Un ejemplo similar se discute en el capítulo 5 de Bayesian Data Analysis por Andrew Gelman et al (ver también aquí ), quienes muestran que en realidad es más sabio usar modelos jerárquicos que se basan en estimaciones agrupadas. En tu caso tienesn × k observaciones, para norte sujetos en k tratamientos y supongo que se puede suponer que existe algún tipo de similitud entre los resultados obtenidos por cada sujeto y entre cada tratamiento. Esto ya sugiere un modelo jerárquico con efectos cruzados de nivel superior para tratamientos y sujetos. Al usar dicho modelo, usted explicaría ambas fuentes de variación.
Tenga en cuenta que las formulaciones modernas de ICC de hecho lo definen en términos de modelos de efectos mixtos del tipo descrito anteriormente, por lo que emplear ese modelo resuelve múltiples problemas para usted y a menudo es el enfoque recomendado para el metanálisis (pero tenga en cuenta que ICC puede ser engañoso )
En cuanto a su edición, si su modelo es
entoncesαyo∼ N(μα,σ2α) , βj∼ N(μβ,σ2β) y ϵyo j∼ N( 0 ,σ2ϵ) , entonces tu ICC es
La media de los errores no entra en la ecuación en ningún momento. Lo que viene a la ecuación es la varianza de cada uno de los efectos aleatorios.α , β y "ruido" global ϵ . La idea es estimar la proporción de varianza tomada porα , es decir, qué cantidad de la varianza total representa. Así es como ICC fue definido por su creador Ronald A. Fisher (1966) en Métodos estadísticos para investigadores :
Entonces, el numerador en la fórmula ICC es la varianza del efecto de interés y el denominador es la varianza total. Tenga en cuenta que la media de las variaciones no tiene nada que ver con la variación total (suma de las variaciones), por lo que a menos que no entienda algo, no puedo ver por qué la media es de su interés aquí.
fuente