Cómo mostrar barras de error para experimentos cruzados (emparejados)

19

El siguiente escenario se ha convertido en las preguntas más frecuentes del trío de investigador (I), revisor / editor (R, no relacionado con CRAN) y yo (M) como creador de la trama. Podemos suponer que (R) es el típico revisor médico de grandes jefes, que solo sabe que cada parcela debe tener una barra de error, de lo contrario, está mal. Cuando un revisor estadístico está involucrado, los problemas son mucho menos críticos.

Guión

En un estudio farmacológico cruzado típico, se analizan dos fármacos A y B para determinar su efecto sobre el nivel de glucosa. Cada paciente se prueba dos veces en orden aleatorio y bajo el supuesto de que no se transfiere. El punto final primario es la diferencia entre glucosa (BA), y suponemos que una prueba t pareada es adecuada.

(I) quiere una gráfica que muestre los niveles absolutos de glucosa en ambos casos. Teme el deseo de (R) de barras de error, y pide errores estándar en los gráficos de barras. No comencemos la guerra del gráfico de barras aquí ._)

gráficos de barras y glucosa SE para dos tratamientos

(I): Eso no puede ser cierto. Las barras se superponen, y tenemos p = 0.03? Eso no es lo que aprendí en la escuela secundaria.

(M): Tenemos un diseño emparejado aquí. Las barras de error solicitadas son totalmente irrelevantes, lo que cuenta es el SE / CI de las diferencias emparejadas, que no se muestran en el gráfico. Si tuviera una opción y no hubiera demasiados datos, preferiría la siguiente gráfica

Las líneas unidas muestran el emparejamiento, puntos los valores originales

Agregado 1: este es el diagrama de coordenadas paralelas mencionado en varias respuestas

(M): las líneas muestran el emparejamiento, y la mayoría de las líneas suben, y esa es la impresión correcta, porque la pendiente es lo que cuenta (bueno, esto es categórico, pero de todos modos).

(I): Esa imagen es confusa. Nadie lo entiende y no tiene barras de error (R está al acecho).

(M): También podríamos agregar otro gráfico que muestre el intervalo de confianza relevante de la diferencia. La distancia desde la línea cero da una impresión del tamaño del efecto.

(I): nadie lo hace

(R): Y desperdicia árboles preciosos

(M): (Como buen alemán): Sí, se toma el punto en los árboles. Pero, sin embargo, uso esto (y nunca lo publico) cuando tenemos múltiples tratamientos y múltiples contrastes.

intervalo de confianza de la diferencia

Alguna sugerencia ? El código R está debajo, si desea crear un diagrama.

# Graphics for Crossover experiments
library(ggplot2)
library(plyr)
theme_set(theme_bw()+theme(panel.margin=grid::unit(0,"lines")))
n = 20
effect = 5 
set.seed(4711)
glu0 = rnorm(n,120,30)
glu1 = glu0 + rnorm(n,effect,7)
dt = data.frame(patient = rep(paste0("P",10:(9+n))),              
                treatment = rep(c("A","B"), each=n),glucose = c(glu0,glu1))

dt1 = ddply(dt,.(treatment), function(x){
  data.frame(glucose = mean(x$glucose), se = sqrt(var(x$glucose)/nrow(x)) )})

tt = t.test(glucose~treatment,paired=TRUE,data=dt,conf.int=TRUE)
dt2 = data.frame(diff = -tt$estimate,low=-tt$conf.int[2], up=-tt$conf.int[1])
p = paste("p =",signif(tt$p.value,2))

png(height=300,width=300)
ggplot(dt1, aes(x=treatment, y=glucose, fill=treatment))+      
  geom_bar(stat="identity")+  
  geom_errorbar(aes(ymin=glucose-se, ymax=glucose+se),size=1., width=0.3)+
  geom_text(aes(1.5,150),label=p,size=6)

ggplot(dt,aes(x=treatment,y=glucose, group=patient))+ylim(0,190)+
  geom_line()+geom_point(size=4.5)+
  geom_text(aes(1.5,60),label=p,size=6)

ggplot(dt2,aes(x="",y=diff))+
  geom_errorbar(aes(ymin=low,ymax=up),size=1.5,width=0.2)+ 
  geom_text(aes(1,-0.8),label=p,size=6)+
  ylab("95% CI of difference glucose B-A")+  ylim(-10,10)+
  theme(panel.border=element_blank(), panel.grid.major.x=element_blank(),
         panel.grid.major.y=element_line(size=1,colour="grey88"))

dev.off()
Dieter Menne
fuente
¡Oh Dios mío @ dieter-menne, gran pregunta! Depende mucho del tipo de revista a la que envíe el artículo. Me mantendré alejado de las guerras de gráficos, pero me encantan los gráficos 2 y 3: tanta información en tan poco espacio.
doug.numbers
44
Masson y Loftus (2003) es una referencia frecuente. Muestran parcelas de ejemplo en las que panelizan el CI de la diferencia en un segundo panel de la misma gráfica. Si eso hará felices a todos en el circo, no lo sé (aunque lo siento por ti)
Andy W
Gracias, @AndyW, por la referencia. Va al grano, pero tiene un problema: es de psicología. Hay muchos más documentos buenos sobre el tema de psicólogos que tienen una mejor base estadística en comparación con los revisores médicos. Desearía poder encontrar alguna guía de diario de alto rango sobre el tema, esa es la única espada afilada que podría manejar.
Dieter Menne

Respuestas:

17

Está totalmente en lo cierto al suponer que las barras de error que representan el error estándar de la media son totalmente inapropiadas para los diseños dentro del tema. Sin embargo, la cuestión de la superposición de barras de error y su importancia es otro tema, al que volveré al final de esta lista de referencias comentadas.

Existe abundante literatura de Psicología sobre intervalos de confianza dentro del sujeto o barras de error que hacen exactamente lo que desea. El trabajo de referencia es claramente:

Loftus, GR y Masson, MEJ (1994). Uso de intervalos de confianza en diseños dentro del tema . Psychonomic Bulletin & Review , 1 (4), 476–490. doi: 10.3758 / BF03210951

Sin embargo, su problema es que usan el mismo término de error para todos los niveles de un factor dentro del sujeto. Esto no parece ser un gran problema para su caso (2 niveles). Pero hay enfoques más modernos para resolver este problema. Más destacado:

Franz, V. y Loftus, G. (2012). Errores estándar e intervalos de confianza en los diseños dentro de los sujetos: generalizando a Loftus y Masson (1994) y evitando los sesgos de las cuentas alternativas . Boletín y revisión psiconómica , 1–10. doi: 10.3758 / s13423-012-0230-1

Baguley, T. (2011). Cálculo y representación gráfica de intervalos de confianza dentro del sujeto para ANOVA. Métodos de investigación del comportamiento . doi: 10.3758 / s13428-011-0123-7 [ se puede encontrar aquí ]

Se pueden encontrar más referencias en los últimos dos documentos (que creo que merecen una lectura).


¿Cómo interpretan los investigadores los CI? Malo según el siguiente artículo:

Belia, S., Fidler, F., Williams, J. y Cumming, G. (2005). Los investigadores no entienden los intervalos de confianza y las barras de error estándar . Métodos psicológicos , 10 (4), 389-396. doi: 10.1037 / 1082-989X.10.4.389

¿Cómo debemos interpretar los IC superpuestos y no superpuestos?

Cumming, G. y Finch, S. (2005). Inferencia por ojo: intervalos de confianza y cómo leer imágenes de datos . Psicólogo estadounidense , 60 (2), 170-180. doi: 10.1037 / 0003-066X.60.2.170


Una última reflexión (aunque esto no es relevante para su caso): si tiene un diseño de diagrama dividido (es decir, factores dentro y entre sujetos) en un diagrama, puede olvidarse de las barras de error. Me (humildemente) recomendar mi raw.means.plotfunción en el paquete R plotrix.

Henrik
fuente
2
Lista de referencias muy útil. Cumming ha reunido muchas de sus ideas en amazon.com/Understanding-New-Statistics-Meta-Analysis-ebook/dp/… (Lo que quieras decir sobre la expresión "las nuevas estadísticas", probablemente estoy de acuerdo.)
Nick Cox
@amoeba El papel de Baguley que cito utiliza la técnica del papel de Morey.
Henrik
10

La pregunta no parece ser tanto sobre las barras de error como sobre las mejores formas de trazar datos emparejados.

En esencia, las barras de error aquí son, a lo sumo, una forma de resumir la incertidumbre: no dicen, y necesariamente no pueden decir mucho, sobre cualquier estructura fina en los datos.

En la pregunta se han mencionado gráficos de coordenadas paralelas, a veces llamados gráficos de perfil, un término que significa diferentes cosas en diferentes campos. Los gráficos de dispersión básicos ya han sido sugeridos por @Ray Koopman.

Un gráfico de dispersión especializada popular aquí y hay una parcela de diferencia (en este caso , por ejemplo) frente a la media (o suma) o . En medicina, esto a menudo se conoce como un (quizás porque Oldham lo usó anteriormente) y en estadística a menudo se conoce como un diagrama de diferencia de medias de Tukey.( A + B ) / 2 A + BUN-si(UN+si)/ /2UN+si

Otra fuente para esta trama es Neyman, J., Scott, EL y Shane, CD 1953. Sobre la distribución espacial de las galaxias: un modelo específico. Astrophysical Journal 117: 92–133.

En términos generales, tales tramas se asemejan a la idea de trazar residuos versus ajustados, también popularizada por Tukey y su cuñado Anscombe.

La idea clave de tales gráficos es que la línea horizontal sin diferencia es naturalmente equivalente a la línea de igualdad , pero a menudo es más fácil psicológicamente trabajar con una línea de referencia horizontal. Además, si y son ampliamente similares, un diagrama de dispersión utiliza gran parte de su espacio para enfatizar ese hecho, mientras que la estructura de las diferencias debería ser de mayor interés.A = B A BUN-si=0 0UN=siUNsi

Un diseño descuidado es el diagrama de línea paralela de McNeil, DR 1992. Sobre la representación gráfica de datos emparejados. Estadístico estadounidense 46: 307-310. Esto también se discute en las dos referencias a continuación.

Las revisiones vinculadas a Stata, con varias referencias, están en

2004, Acuerdo gráfico y desacuerdo. Stata Journal 4: 329-349.

.pdf accesible en http://www.stata-journal.com/sjpdf.html?articlenum=gr0005

Gráficos emparejados, paralelos o de perfil para cambios, correlaciones y otras comparaciones. Stata Journal 9: 621-639.

.pdf accesible en http://www.stata-journal.com/sjpdf.html?articlenum=gr0041

Los usuarios que no son de Stata deberían poder saltar y tararear a través del código de Stata mientras descubren cómo implementar los gráficos en su propio software favorito.

UNsi

Nick Cox
fuente
4

Pruebe con un diagrama de dispersión de los puntos individuales (A, B). La mayoría de ellos deben estar en un solo lado de la diagonal (la línea A = B). Hay dos análogos de barras de error. El convencional, equivalente a un IC para la diferencia de medias, sería una banda de confianza para la diferencia de medias. La banda sería la región entre dos líneas, ambas paralelas a la diagonal. Una prueba t pareada sería significativa si y solo si ambos bordes de la banda están en el mismo lado de la diagonal.

Un análogo de barra de error más conservador sería una elipse de confianza para el centroide.

Ray Koopman
fuente
1
CmetromithoresiCmetromithoreUN
No, cl. - :) La química clínica es demasiado sofisticada. ¿Podría ser que haya agregado alguna referencia en "allí"; No estoy seguro de qué papel estás hablando.
Dieter Menne
4

Resumen preliminar:

Masson / Loftus es muy exhaustivo y no es una lectura fácil para mis colegas médicos que no aceptarían algo como una "interacción". También tienen algunas sugerencias para comparaciones múltiples, que muestran que los intervalos de confianza por pares son difíciles de ilustrar cuando uno no quiere simplificar demasiado.

Masson Loftus

No me gusta este estilo: las barras con barras de error tienen un aspecto milenario excelso. Sin embargo, también usan un estilo un poco más elegante:

Masson Loftus sin rejas

Cumming / Finch y Belia et al. son lecturas obligatorias. La primera es la elección perfecta para darle a tu amigo que se estremece cuando ve la palabra interacción . Ordené el libro de Cumming después de leer ese artículo. El segundo muestra una prueba que implementaré en Shiny para la próxima reunión de investigadores médicos.

Cumming / Finch

Me gusta esta trama, incluso si hay un segundo eje que nunca usé antes; compruebe la contribución de Henrik y de otros en StackOverflow para obtener un método de gráficos R-base para obtenerlo. Preferiría poner el segundo eje a la izquierda de la diferencia para dejar absolutamente claro que los valores cambiaron, y tal vez agregar un eje de valor p.

¿Alguien de la fracción de celosía / ggplot tomando una foto? Todas las soluciones suministradas son gráficos de base y no panelizables / facetables.

Sin embargo: tenga en cuenta que los comentarios y documentos son en su mayoría del departamento de psicología (y @cbeleites de química hardcore). Sería bueno recibir comentarios de los revisores de revistas médicas.

Dieter Menne
fuente
0

¿Por qué no simplemente trazar la diferencia * para cada paciente? Luego puede usar un histograma, un diagrama de caja o un diagrama de probabilidad normal y superponer un intervalo de confianza del 95% para la diferencia.

  • En algunos escenarios, podría ser la diferencia de los logaritmos. Ver, por ejemplo, Patterson & Jones, "Bioequivalence and Statistics in Clinical Pharmacology", Chapman, 2006.
Emil Friedman
fuente
Por qué no? Puede proporcionar información válida, pero las parcelas con puntos individuales o pares no son realmente populares en la investigación médica. Es por eso que la trama paralela (que proporciona más información) es tan impopular. Los investigadores médicos quieren promedios y "rangos normales" (sea lo que sea).
Dieter Menne