"Promedio" de variaciones

10

Necesito obtener algún tipo de "promedio" entre una lista de variaciones, pero tengo problemas para encontrar una solución razonable. Hay una discusión interesante sobre las diferencias entre los tres medios pitagóricos (aritmética, geométrica y armónica) en este hilo ; Sin embargo, todavía no creo que ninguno de ellos sea un buen candidato. ¿Alguna sugerencia?

PD Algún contexto: estas variaciones son variaciones de muestra de sujetos, cada uno de los cuales pasó por el mismo diseño de experimento con aproximadamente el mismo tamaño de muestra . En otras palabras, hay variaciones de muestreo , , ..., , correspondientes a esas asignaturas. Ya se ha realizado un metanálisis a nivel de la población. La razón por la que necesito obtener algún tipo de varianza muestral "promedio" o "resumida" es que quiero usarla para calcular un índice como ICC después del metanálisis.nknσ12σ22σn2norte

PPS Para mantener la discusión más concreta, permítanme explicar el problema con el siguiente ejemplo en R:

library(metafor)
dat <- get(data(dat.konstantopoulos2011))
dat$district <- as.factor(dat$district)
dat$school <- as.factor(dat$school)

En el conjunto de datos hay una variación asociada con el puntaje de rendimiento de cada escuela:

str(dat)
Classes ‘escalc’ and 'data.frame':  56 obs. of  6 variables:
 $ district: Factor w/ 11 levels "11","12","18",..: 1 1 1 1 2 2 2 2 3 3 ...
 $ school  : Factor w/ 11 levels "1","2","3","4",..: 1 2 3 4 1 2 3 4 1 2 ...
 $ year    : int  1976 1976 1976 1976 1989 1989 1989 1989 1994 1994 ...
 $ yi      : atomic  -0.18 -0.22 0.23 -0.3 0.13 -0.26 0.19 0.32 0.45 0.38 ...
 $ vi      : num  0.118 0.118 0.144 0.144 0.014 0.014 0.015 0.024 0.023 0.043 ...

Supongamos que realizamos un metanálisis con un modelo jerárquico o de efectos mixtos:

yyoj=una+αyo+βj+ϵyoj

donde y son los efectos aleatorios para el ésimo escuela y ésimo distrito, respectivamente, y es el error de medición con una distribución gaussiana conocido . Este modelo se puede analizar de la siguiente manera:αyoβjyojϵyojnorte(0 0,vyoj)

(fm <- rma.mv(yi, vi, random = list(~1 | district, ~1 | school), data=dat)) 

representando las siguientes estimaciones de varianza para los dos componentes de varianza:

Multivariate Meta-Analysis Model (k = 56; method: REML)
Variance Components: 

            estim    sqrt  nlvls  fixed    factor
sigma^2.1  0.0814  0.2853     11     no  district
sigma^2.2  0.0010  0.0308     11     no    school

Las dos variaciones en el resultado, sigma ^ 2.1 y sigma ^ 2.2, corresponden a las dos variables de efectos aleatorios (distrito y escuela).

Me gustaría calcular el ICC para el distrito, y es por eso que quería obtener una variación resumida en primer lugar para esas variaciones individuales, , del término de medición . Como la varianza total esvyojϵyoj

Vunar(yyoj)=Vunar(αyo+βj+ϵyoj)=σ12+σ22+vyoj

mi enfoque original (y simple) era usar solo la media aritmética:

σ12σ12+σ22+metromiunanorte(vyoj)

pero no estoy seguro si la media aritmética, , es apropiada en este contexto.metromiunanorte(vyoj)

Bluepole
fuente
44
El contexto lo es todo aquí. ¿Son estas variaciones teóricas (momentos de distribuciones) o variaciones de muestra? Si son variaciones de muestra, ¿cuál es la relación entre las muestras? ¿Vienen de la misma población? En caso afirmativo, ¿tiene disponible el tamaño de cada muestra? Si las muestras no provienen de la misma población, ¿cómo justifica promediar las variaciones?
Alecos Papadopoulos
2
El modelado jerárquico es una respuesta muy flexible. Esta publicación de blog sobre las ocho escuelas es un buen comienzo. andrewgelman.com/2014/01/21/… Gelman et al., Bayesian Data Analysis es un excelente lugar para obtener más información.
Sycorax dice Reinstate Monica
2
Posible duplicado de ¿Cómo 'sumar' una desviación estándar?
Firebug
1
¿Es este un problema XY? ¿Desea saber cómo promediar las variaciones ... o desea saber cómo calcular un ICC para un metanálisis?
Mark White
1
En ese caso, ¿esta stat.stackexchange.com/questions/187197/… publica ayuda?
mdewey

Respuestas:

7

Ampliando los comentarios que recibió, la respuesta a la pregunta en su título ya se encuentra en ¿Cómo 'sumar' una desviación estándar? hilo, y se lee de la siguiente manera: para obtener la desviación estándar promedio, primero tome el promedio de las variaciones y luego tome la raíz cuadrada de la misma.

A primera vista, este enfoque es válido, pero ignora la naturaleza jerárquica de sus datos. Un ejemplo similar se discute en el capítulo 5 de Bayesian Data Analysis por Andrew Gelman et al (ver también aquí ), quienes muestran que en realidad es más sabio usar modelos jerárquicos que se basan en estimaciones agrupadas. En tu caso tienesnorte×k observaciones, para norte sujetos en ktratamientos y supongo que se puede suponer que existe algún tipo de similitud entre los resultados obtenidos por cada sujeto y entre cada tratamiento. Esto ya sugiere un modelo jerárquico con efectos cruzados de nivel superior para tratamientos y sujetos. Al usar dicho modelo, usted explicaría ambas fuentes de variación.

Tenga en cuenta que las formulaciones modernas de ICC de hecho lo definen en términos de modelos de efectos mixtos del tipo descrito anteriormente, por lo que emplear ese modelo resuelve múltiples problemas para usted y a menudo es el enfoque recomendado para el metanálisis (pero tenga en cuenta que ICC puede ser engañoso )


En cuanto a su edición, si su modelo es

yyoj=una+αyo+βj+ϵyoj

entonces αyonorte(μα,σα2), βjnorte(μβ,σβ2) y ϵyojnorte(0 0,σϵ2), entonces tu ICC es

yoCCα=σα2σα2+σβ2+σϵ2

La media de los errores no entra en la ecuación en ningún momento. Lo que viene a la ecuación es la varianza de cada uno de los efectos aleatorios.α,β y "ruido" global ϵ. La idea es estimar la proporción de varianza tomada porα, es decir, qué cantidad de la varianza total representa. Así es como ICC fue definido por su creador Ronald A. Fisher (1966) en Métodos estadísticos para investigadores :

(...) la correlación intraclase será simplemente la fracción de la varianza total debido a esa causa que tienen en común las observaciones de la misma clase.

Entonces, el numerador en la fórmula ICC es la varianza del efecto de interés y el denominador es la varianza total. Tenga en cuenta que la media de las variaciones no tiene nada que ver con la variación total (suma de las variaciones), por lo que a menos que no entienda algo, no puedo ver por qué la media es de su interés aquí.

Tim
fuente
Realmente aprecio la respuesta y todos los comentarios anteriores. Acabo de agregar otra posdata en la publicación original para aclarar aún más el problema. Tengo que admitir que no estoy tan familiarizado con el enfoque bayesiano. Si el problema se puede caracterizar mejor bajo el paradigma bayesiano, explique un poco más con el conjunto de datos de ejemplo que acabo de presentar en la posdata. ¡Gracias!
bluepole
@bluepole No necesita un modelo bayesiano. El modelo tradicional de efectos mixtos funcionaría bien. Los modelos bayesianos son generalmente más flexibles para tales problemas.
Tim
Entonces, para el conjunto de datos de ejemplo agregado en mi publicación original, ¿crees que la media aritmética es razonable en el contexto?
bluepole
Una cosa que está mal expresada en su anexo es que ϵyoj sigue norte(0 0,σyoj2)no norte(0 0,σϵ2), dónde σyoj2es conocida. Entonces, no veo cómo tuσϵ2es estimado. Y mi pregunta original permanece.
bluepole
En mi descripción, solo he mencionado un modelo con la suposición ϵyojnorte(0 0,σyoj2), dónde σyoj2es conocida. ¿Podrías elaborar un poco más sobre cómoyoσyoj2/ /yojσyoj2está relacionado con la fórmula ICC? ¡Gracias!
bluepole