¿Cómo visualizar una prueba t de dos muestras independiente?

11

¿Cuáles son las formas más aceptadas de visualizar los resultados de una prueba t independiente de dos muestras? ¿Se usa con mayor frecuencia una tabla numérica o algún tipo de gráfico? El objetivo es que un observador casual mire la figura e inmediatamente vea que probablemente sean de dos poblaciones diferentes.

data-visualization t-test cbake
fuente

¿"Aceptado" por quién, en qué contexto? ¿"Usado más a menudo" dónde?

Glen_b -Reinstate Monica

18

Vale la pena tener claro el propósito de su trama. En general, hay dos tipos diferentes de objetivos: puede hacer gráficos para usted mismo para evaluar los supuestos que está haciendo y guiar el proceso de análisis de datos, o puede hacer gráficos para comunicar un resultado a los demás. Estos no son lo mismo; por ejemplo, muchos espectadores / lectores de su trama / análisis pueden ser estadísticamente poco sofisticados y pueden no estar familiarizados con la idea de, por ejemplo, la varianza igual y su papel en una prueba t. Desea que su trama transmita la información importante sobre sus datos incluso a consumidores como ellos. Están confiando implícitamente en que has hecho las cosas correctamente. De la configuración de su pregunta, supongo que está detrás del último tipo.

Siendo realistas, el gráfico más común y aceptado para comunicar los resultados de una prueba t ¹ a otros (dejando de lado si es realmente el más apropiado) es un gráfico de barras de medias con barras de error estándar. Esto coincide muy bien con la prueba t porque una prueba t compara dos medios usando sus errores estándar. Cuando tiene dos grupos independientes, esto generará una imagen intuitiva, incluso para los que no son estadísticamente sofisticados, y las personas (que deseen datos) pueden "ver de inmediato que probablemente son de dos poblaciones diferentes". Aquí hay un ejemplo simple usando los datos de @ Tim:

nonsmokers <- c(18,22,21,17,20,17,23,20,22,21)
smokers <- c(16,20,14,21,20,18,13,15,17,21)
m        = c(mean(nonsmokers), mean(smokers))
names(m) = c("nonsmokers", "smokers")
se       = c(sd(nonsmokers)/sqrt(length(nonsmokers)), 
             sd(smokers)/sqrt(length(smokers)))
windows()
  bp = barplot(m, ylim=c(16, 21), xpd=FALSE)
  box()
  arrows(x0=bp, y0=m-se, y1=m+se, code=3, angle=90)

Dicho esto, los especialistas en visualización de datos suelen despreciar estas tramas. A menudo se los ridiculiza como "diagramas de dinamita" (cf. Por qué los diagramas de dinamita son malos ) En particular, si solo tiene unos pocos datos, a menudo se recomienda que simplemente muestre los datos ellos mismos . Si los puntos se superponen, puede fluctuarlos horizontalmente (agregue una pequeña cantidad de ruido aleatorio) para que ya no se superpongan. Debido a que una prueba t es fundamentalmente sobre las medias y los errores estándar, es mejor superponer las medias y los errores estándar en dicho gráfico. Aquí hay una versión diferente:

set.seed(4643)
plot(jitter(rep(c(0,1), each=10)), c(nonsmokers, smokers), axes=FALSE, 
     xlim=c(-.5, 1.5), xlab="", ylab="")
box()
axis(side=1, at=0:1, labels=c("nonsmokers", "smokers"))
axis(side=2, at=seq(14,22,2))
points(c(0,1), m, pch=15, col="red")
arrows(x0=c(0,1), y0=m-se, y1=m+se, code=3, angle=90, length=.15)

Si tiene muchos datos, los diagramas de caja pueden ser una mejor opción para obtener una visión general rápida de las distribuciones, y también puede superponer los medios y los SE allí.

data(randu)
x1 = qnorm(randu[,1])
x2 = qnorm(randu[,2])
m  = c(mean(x1), mean(x2))
se = c(sd(x1)/sqrt(length(x1)), sd(x2)/sqrt(length(x2)))
boxplot(x1, x2)
points(c(1,2), m, pch=15, col="red")
arrows(x0=1:2, y0=m-(1.96*se), y1=m+(1.96*se), code=3, angle=90, length=.1)
# note that I plotted 95% CIs so that they will be easier to see

Las gráficas simples de los datos, y las gráficas de caja, son lo suficientemente simples como para que la mayoría de las personas puedan comprenderlas incluso si no son muy conocedoras de las estadísticas. Sin embargo, tenga en cuenta que ninguno de estos facilita la evaluación de la validez de haber utilizado una prueba t para comparar sus grupos. Esos objetivos se cumplen mejor con diferentes tipos de tramas.

_{1. Tenga en cuenta que esta discusión supone una prueba t de muestras independientes. Estas gráficas podrían usarse con una prueba t de muestras dependientes, pero también podrían ser engañosas en ese contexto (cf. ¿Está mal el uso de barras de error para las medias en un estudio dentro de los sujetos? ).}

gung - Restablece a Monica
fuente

Un gran problema con el uso de la gráfica de barra + IC es que a veces la diferencia es estadísticamente significativa, pero las IC se superponen . Dado que la trama bar + CI intenta atraer a un público generalista, realmente no queremos pasar tiempo explicando esta arruga adicional.

Heisenberg

@Heisenberg, soy consciente de eso. No existe una trama única y perfecta para todas las ocasiones y propósitos. Tampoco mencioné los IC, solo los SE (aunque eso sería equivalente a algunos CI, dependiendo del df). La importancia se menciona comúnmente en el pie de figura, y se discute en el texto. Si desea que se muestre sin ambigüedades en el gráfico en sí, puede agregar corchetes y valores p (por ejemplo, aquí ).

gung - Restablece a Monica

Mis disculpas si el tono suena agresivo. Estoy un poco molesto porque al final todavía no hay una forma elegante de visualizar una prueba t para una audiencia generalista sin explicar más. Puede resumirse en trazar: 2 gráficos de barras que muestran los medios grupales con SE y un tercer gráfico que muestra la diferencia y su IC (como su enlace ). Pero tal visualización muestra información redundante (agrupa los medios Y la diferencia en los medios), lo que también podría confundir a la audiencia.

Heisenberg

@Heisenberg, no usaría la trama de mi otra respuesta a menos que tratara de mostrar una prueba t para pacientes internos. Creo que a menudo es bueno presentar 2 barras con SE para una prueba t, con un título de figura simple. Si necesita importancia en la trama, puede agregar corchetes o algo así (generalmente lo encuentro innecesario).

gung - Restablecer Monica

14

La forma más utilizada para visualizar la comparación tipo -test es usar boxplots . A continuación, proporciono un ejemplo utilizando un conjunto de datos que describe "la relación entre fumar marihuana y un déficit en el rendimiento en una tarea que mide la memoria a corto plazo" de este sitio . $t$

> nonsmokers <- c(18,22,21,17,20,17,23,20,22,21)
> smokers <- c(16,20,14,21,20,18,13,15,17,21)
> 
> t.test(nonsmokers, smokers)

    Welch Two Sample t-test

data:  nonsmokers and smokers
t = 2.2573, df = 16.376, p-value = 0.03798
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.1628205 5.0371795
sample estimates:
mean of x mean of y 
     20.1      17.5

En realidad, los diagramas de caja se usan comúnmente para la prueba de hipótesis "informal", por ejemplo, según lo descrito por Yoav Benjamini en el artículo de 1988 Abrir la caja de un diagrama de caja :

La gráfica de caja regular se complementa con un intervalo de confianza aproximado para la mediana del lote, que se muestra como un par de cuñas sacadas de los lados de la caja. Estos intervalos de confianza se construyen de tal manera que cuando dos muescas de diagramas de caja diferentes no se superponen, sus medianas son significativamente diferentes. (...) Dado que la fórmula para el intervalo de confianza es una constante por el rango intercuartil dividido por la raíz cuadrada del tamaño del lote, este último se puede percibir a partir de la longitud de las cuñas en relación con la longitud de la caja.

Ver también: prueba T usando solo datos de resumen en un diagrama de caja

Este gráfico no muestra cantidades directamente involucradas en -test, como notó @NickCox . Si desea una comparación directa de medias con intervalos de confianza, puede usar un diagrama de barras con intervalos de confianza marcados. El uso de medias e intervalos de confianza también le permite realizar una prueba de hipótesis (ver aquí o aquí ). $t$

Como puede ver en otras publicaciones y comentarios en este hilo, tanto los gráficos de caja como los gráficos de dinamita son una opción algo controvertida, así que permítame darle una alternativa más que aún no se mencionó. Primero, recuerde que prueba y la regresión están relacionadas . Puede trazar una comparación tipo -test como dos puntos con barras de error (intervalos de confianza) que están conectados con la línea. La pendiente de la línea es proporcional a la pendiente de regresión si usó regresión lineal en lugar de $t$ $t$ $t$ -prueba en esta situación. La principal ventaja de este gráfico es que le permite juzgar fácilmente la magnitud de la diferencia de medias mirando la pendiente de la línea. La desventaja puede ser que puede sugerir que existe cierta "continuidad" entre los medios (es decir, que tenía muestras emparejadas).

Los diagramas de caja parecen ser más utilizados ya que proporcionan más información sobre la distribución de las variables visualizadas (en comparación con la media con el intervalo de confianza solamente) También complementan, en lugar de duplicar, la información de test y tal uso de la trama es alentado por la mayoría de las guías de estilo, por ejemplo, por el Manual de Publicaciones de la Asociación Americana de Psicología : $t$

La primera consideración es el valor de información de la figura en el texto del documento en el que debe aparecer. Si la figura no contribuye sustancialmente a la comprensión del documento o duplica otros elementos del documento, no debe incluirse.

Tim
fuente

44

Esto es realmente común, incluso en textos que discuten pruebas t y ANOVA, pero es una elección extraordinaria, sin embargo. El diagrama de caja no muestra ninguna de las cantidades involucradas en una prueba t directamente. Como mínimo, una gráfica pertinente debe mostrar los medios y dar más detalles sobre la distribución que una gráfica de caja. El detalle dentro de las colas a menudo es crucial para interpretar la prueba.

Nick Cox

OK @NickCox, el conjunto de datos fue elegido solo para visualización, pero ahora lo cambié a un ejemplo más apropiado.

Tim

3

El diagrama de barras (también conocido como "diagrama de dinamita") tiene una relación tinta: información extremadamente alta.

Frank Harrell

La cita del Manual APA (no he verificado el contexto) es un buen consejo general, pero no es en sí mismo un argumento directo para usar el diagrama de caja parcialmente relevante en este contexto. Estoy de acuerdo, naturalmente, en que los diagramas de caja pueden ser muy útiles y, a menudo, complementarios, y que se usan con mucha frecuencia, pero mi primer punto sigue siendo.

Nick Cox

@NickCox No puedo decir que estoy de acuerdo con usted, pero aún consideraría boxplot para proporcionar información adicional y no duplicar los resultados de la prueba t, incluso si no se relaciona directamente con la prueba t. Es simple, claro e informativo.

Tim

8

Esto es principalmente una variación de las útiles respuestas de @Tim y @gung, pero los gráficos no se pueden incluir en un comentario.

Puntos pequeños pero posiblemente útiles:

Un diagrama de tiras o un diagrama de puntos como se ilustra en @gung necesita modificación si hay vínculos, como en los datos de ejemplo. Los puntos pueden apilarse o fluctuar, o como en el ejemplo a continuación, puede usar un diagrama híbrido de caja de cuantiles como lo sugiere Emanuel Parzen (la referencia más accesible es probablemente 1979. Modelado de datos estadísticos no paramétricos. Journal, American Statistical Association74: 105-121). Esto también tiene otros méritos, al subrayar que si la mitad de los datos están dentro del cuadro, entonces la mitad también está afuera, y al mostrar esencialmente todos los detalles de la distribución. Donde solo hay dos grupos, como en este contexto, cualquier tipo de diagrama de caja más convencional puede ser una pantalla mínima, de hecho esquelética. Algunos lo tomarían como una virtud, pero hay margen para mostrar más detalles. El argumento inverso es que un diagrama de caja que marca puntos particulares, especialmente aquellos a más de 1.5 IQR del cuartil más cercano, es una advertencia clara para el usuario: tenga cuidado con una prueba t, ya que puede haber puntos en las colas que debería preocuparse por
Naturalmente, puede agregar una indicación de los medios a un diagrama de caja, que a menudo se realiza. Agregar un marcador diferente o un símbolo de punto es común. Aquí elegimos líneas de referencia.

Gráficos de caja de cuantiles para fumadores y no fumadores. Las cajas muestran medianas y cuartiles. Las líneas horizontales en azul muestran los medios.

Nota. El gráfico fue creado en Stata. Aquí está el código para los interesados. stripplotdebe instalarse previamente con ssc inst stripplot.

clear 
mat nonsmokers = (18,22,21,17,20,17,23,20,22,21)
mat smokers = (16,20,14,21,20,18,13,15,17,21)
local n = max(colsof(nonsmokers), colsof(smokers)) 
set obs `n' 
gen smokers = smokers[1, _n] 
gen nonsmokers = nonsmokers[1, _n] 
stripplot smokers nonsmokers, vertical cumul centre xla(, noticks) ///
xsc(ra(0.6 2.4)) refline(lcolor(blue)) height(0.5) box ///
ytitle(digit span score) yla(, ang(h)) mcolor(red) msize(medlarge)

EDITAR. Esta idea adicional en respuesta a la respuesta de @Frank Harrell superpone dos gráficos de probabilidad normal (realmente gráficos de cuantil-cuantil). Las líneas horizontales muestran medias. Algunos desearían agregar líneas para cada grupo que indiquen un ajuste perfecto, por ejemplo, a través de ( , su media) y ( , su media su DE) o alternativas resistentes resistentes. $0$ $1$ $+$

Nick Cox
fuente

1

+1, he tenido la intención de alterar los datos, pero aún no he podido llegar a ellos. También estaba pensando en agregar gráficos más avanzados, incluidos gráficos de caja de cuantiles, gráficos de violín y gráficos qq, pero finalmente abandoné la idea de enumerar cada vez más gráficos.

gung - Restablece a Monica

@gung Bastante justo; desafortunadamente o afortunadamente, el hilo podría transformarse fácilmente en cómo comparar dos distribuciones en general. Para otro ejemplo de datos, los histogramas podrían ser un competidor serio, etc.

Nick Cox

5

Además del buen objetivo de presentar los resultados, debe tenerse en cuenta qué gráficos verifican los supuestos de la prueba varianza igual de dos muestras para que tenga un rendimiento excelente. Eso sería funciones inversas normales de las dos funciones de distribución acumulativa empírica. Para satisfacer los supuestos de la prueba, estas dos curvas deben ser líneas rectas paralelas. $t$

Frank Harrell
fuente

He agregado una de varias posibilidades a mi propia respuesta.

Nick Cox

¿Cómo visualizar una prueba t de dos muestras independiente?

Respuestas: