Imagina que repites un experimento tres veces. En cada experimento, recolectas medidas por triplicado. Los triplicados tienden a estar bastante juntos, en comparación con las diferencias entre los tres medios experimentales. Calcular el gran significado es bastante fácil. Pero, ¿cómo se puede calcular un intervalo de confianza para la gran media?
Data de muestra:
Experimento 1: 34, 41, 39
Experimento 2: 45, 51, 52
Experimento 3: 29, 31, 35
Suponga que los valores replicados dentro de un experimento siguen una distribución gaussiana, al igual que los valores medios de cada experimento. La SD de variación dentro de un experimento es menor que la SD entre los medios experimentales. Suponga también que no hay ordenamiento de los tres valores en cada experimento. El orden de izquierda a derecha de los tres valores en cada fila es completamente arbitrario.
El enfoque simple es calcular primero la media de cada experimento: 38.0, 49.3 y 31.7, y luego calcular la media, y su intervalo de confianza del 95%, de esos tres valores. Usando este método, la gran media es 39.7 con un intervalo de confianza del 95% que varía de 17.4 a 61.9.
El problema con ese enfoque es que ignora totalmente la variación entre triplicados. Me pregunto si no hay una buena manera de explicar esa variación.
fuente
Respuestas:
Hay un intervalo de confianza exacto natural para el grandioso en el modelo ANOVA unidireccional aleatorio balanceado De hecho, es fácil verificar que la distribución de las medias observadas ˉ y i ∙ es ˉ y i ∙ ∼ iid N ( μ , τ 2 ) con τ 2 = σ 2 b + σ 2 w
Tenga en cuenta que este intervalo de confianza no es más que el intervalo clásico para una media gaussiana al considerar solo el grupo significa como las observacionesy¯yo ∙ . Así, el enfoque simple que mencionas:
es correcto. Y tu intuición sobre la variación ignorada:
Está Mal. También menciono la corrección de tal simplificación en /stats//a/72578/8402
Actualización 12/04/2014
Algunos detalles ahora están escritos en mi blog: Reducir un modelo para obtener intervalos de confianza .
fuente
Esta es una cuestión de estimación dentro de un modelo lineal de efectos mixtos. El problema es que la varianza de la gran media es una suma ponderada de dos componentes de varianza que deben estimarse por separado (a través de un ANOVA de los datos). Las estimaciones tienen diferentes grados de libertad. Por lo tanto, aunque se puede intentar construir un intervalo de confianza para la media utilizando las fórmulas habituales de muestra pequeña (t de Student), es poco probable que alcance su cobertura nominal porque las desviaciones de la media no seguirán exactamente una distribución de t de Student.
Un artículo reciente (2010) de Eva Jarosova, Estimación con el modelo de efectos lineales mixtos , analiza este tema. (A partir de 2015 ya no parece estar disponible en la Web.) En el contexto de un conjunto de datos "pequeño" (aun así, aproximadamente tres veces más grande que este), ella usa la simulación para evaluar dos cálculos aproximados de CI (el pozo aproximación de Satterthwaite conocida y el "método de Kenward-Roger"). Sus conclusiones incluyen
En resumen, un buen enfoque parece ser
Calcule un IC convencional utilizando las estimaciones de los componentes de varianza y pretendiendo que se aplica una distribución t.
También calcule al menos uno de los IC ajustados.
Si los cálculos son "cercanos", acepte el CI convencional. De lo contrario, informe que no hay datos suficientes para producir un IC confiable.
fuente
No puede tener un intervalo de confianza que resuelva ambos problemas. Tienes que elegir uno. Puede derivar uno de un término de error cuadrático medio dentro de la varianza del experimento que le permite decir algo acerca de la precisión con la que puede estimar los valores dentro del experimento o puede hacerlo entre experimentos. Si solo hiciera lo primero, tendería a querer trazarlo alrededor de 0 en lugar de alrededor de la gran media porque no le dice nada sobre el valor medio real, solo sobre un efecto (en este caso 0). O simplemente podría trazar ambos y describir lo que hacen.
Tienes un control sobre el medio. Para el interior, es como calcular el término de error en un ANOVA para que funcione un MSE y, a partir de ahí, el SE para el CI es simplemente sqrt (MSE / n) (n = 3 en este caso).
fuente
Creo que el IC para la gran media es demasiado amplio [17,62] incluso para el rango de datos originales.
Estos experimentos son MUY comunes en química. Por ejemplo, en la certificación de materiales de referencia, debe recoger algunas botellas de todo el lote de manera aleatoria, y debe llevar a cabo un análisis replicado de cada botella. ¿Cómo se calcula el valor de referencia y su incertidumbre? Hay muchas maneras de hacerlo, pero la más sofisticada (y correcta, creo) es la aplicación de metaanálisis o ML (Dersimonian-Laird, Vangel-Rukhin, etc.)
¿Qué pasa con las estimaciones de arranque?
fuente