¿Es apropiado trazar la media en un histograma?

13

¿Está "bien" agregar una línea vertical a un histograma para visualizar el valor medio?

Me parece bien, pero nunca he visto esto en los libros de texto y similares, así que me pregunto si hay algún tipo de convención para no hacerlo.

El gráfico es para un trabajo a término, solo quiero asegurarme de no romper accidentalmente alguna regla súper importante de estadísticas tácitas. :)

Invitado
fuente
Por qué no. Solo para agregar un comentario. La media es un valor de resumen como lo es el histograma. Puede variar el grado de información proporcionada, por ejemplo, variando el tamaño del depósito del histograma. Sin embargo, generalmente el histograma proporciona más información que solo la media. En realidad, puede aproximar el valor medio de un histograma. Creo que es por eso que generalmente no se proporcionan juntos.
Simone
A veces se ven histogramas con una distribución superpuesta (por ejemplo, más comúnmente en mi experiencia, la distribución normal trazada usando la media de la muestra y la desviación estándar). Lo que está haciendo lo mismo (y un poco más) que dibujar una línea vertical (que indica dónde está la muestra la media es con el pico de la curva.)
James Stanley

Respuestas:

30

¿Por supuesto, por qué no?

histograma con media

Aquí hay un ejemplo (una de las docenas que encontré con una simple búsqueda en Google):

hist con media y mediana

(La fuente de la imagen es el blog de medición de usabilidad, aquí ).

He visto medias, significa más o menos una desviación estándar, varios cuantiles (como mediana, cuartiles, percentiles 10 y 90) se muestran de varias maneras.

En lugar de dibujar una línea a través de la trama, puede marcar información en la parte inferior de la misma, así:

histograma con diagrama de caja marginal

Hay un ejemplo (uno de los muchos que se encuentran) con un diagrama de caja en la parte superior en lugar de en la parte inferior, aquí .

A veces las personas marcan en los datos:

trama de histograma con jitter
(He alterado ligeramente las ubicaciones de datos porque los valores se redondearon a enteros y no se podía ver bien la densidad relativa).

Hay un ejemplo de este tipo, hecho en Stata, en esta página (vea el tercero aquí )

Los histogramas son mejores con un poco de información adicional; pueden ser engañosos por sí mismos

¡Solo debes tener cuidado de explicar en qué consiste tu trama! (Para empezar, querría un título y una etiqueta de eje x mejores que los que usé aquí. Además, una explicación en un pie de figura que explica lo que había marcado en él).

-

Una última trama:

histograma con diagrama de tira

-

Mis tramas se generan en R.

Editar:

Como supuso @gung, abline(v=mean...se usó para dibujar la línea media a través del gráfico y rugse usó para dibujar los valores de los datos (aunque en realidad lo usé rug(jitter(...porque los datos se redondearon a enteros).

Aquí hay una manera de hacer el diagrama de caja entre el histograma y el eje:

hist(Davis2[,2],n=30)
boxplot(Davis2[,2],
  add=TRUE,horizontal=TRUE,at=-0.75,border="darkred",boxwex=1.5,outline=FALSE)

No voy a enumerar para qué sirve todo, pero puede consultar los argumentos en la ayuda ( ?boxplot) para averiguar para qué sirven y jugar con ellos usted mismo.

Sin embargo, no es una solución general: no garantizo que siempre funcione tan bien como aquí (tenga en cuenta que ya cambié el atyboxwex opciones *). Si no escribe una función inteligente para ocuparse de todo, es necesario prestar atención a lo que hace todo para asegurarse de que está haciendo lo que desea.

He aquí cómo crear los datos que utilicé (estaba tratando de mostrar cómo la regresión de Theil realmente pudo manejar varios valores atípicos influyentes). Simplemente se trataba de datos con los que estaba jugando cuando respondí por primera vez a esta pregunta.

 library("car")
 add <- data.frame(sex=c("F","F"),
       weight=c(150,130),height=c(NA,NA),repwt=c(55,50),repht=c(NA,NA))
 Davis2 <- rbind(Davis,add)

* - un valor apropiado para ates alrededor de -0.5 veces el valor de boxwex; sería un buen valor predeterminado si escribe una función para hacerlo; boxwexnecesitaría ser escalado de una manera que se relacione con la escala y (altura) de la gráfica de caja; Sugeriría 0.04 a 0.05 veces el límite y superior a menudo podría estar bien.

Código para el gráfico marginal:

 hist(Davis2[,2],n=30)
 stripchart(jitter(Davis2[,2],amount=.5),
       method="jitter",jitter=.5,pch=16,cex=.05,add=TRUE,at=-.75,col='purple3')
Glen_b -Reinstate a Monica
fuente
+1, estos son agradables; ¿Quieres agregar el código? abline(v=mean(Davis2[,2]))Y rug(Davis2[,2])supongo, pero ¿cómo encajaste el diagrama de caja allí?
gung - Restablece a Monica
1
@gung Consulte la edición para obtener detalles breves, incluido un ejemplo reproducible similar al que se muestra en el diagrama de caja. Realmente no está haciendo nada más inteligente que hacer uso de varios de los argumentos de la boxplotfunción. Entre boxploty boxppuedes hacer algunas cosas ingeniosas con poco esfuerzo.
Glen_b -Reinstalar a Mónica el
Sabiduría para todas las edades: "Si no escribe una función inteligente para ocuparse de todo, es necesario prestar atención a lo que hace todo para asegurarse de que está haciendo lo que quiere" ;-).
gung - Restablece a Monica
Sí. Incluso contemplé escribir algo inteligente para configurar aty boxwexasí sucesivamente ... pero, en el mejor de los casos, solo hago unas pocas parcelas como esa al año, y me toma unos segundos cada vez escribir? Boxplot y configurar las opciones correctas. Pensé que es más fácil prestar atención a lo que estoy haciendo.
Glen_b -Reinstale a Monica el
@gung Edité para dar código para crear los datos Davis2 que estaba usando. Espero que ayude.
Glen_b -Reinstate Monica el
3

Por supuesto que puede. Solo asegúrese de etiquetar / indicar claramente lo que significa la línea y evitar que la trama esté demasiado 'ocupada'.

Nada es peor que un gráfico que transmite demasiada información para ser fácilmente comprensible. La tabla es una forma a menudo pasada por alto para mostrar estadísticas resumidas de forma clara y concisa.

TLJ
fuente
2

Las respuestas anteriores hacen excelentes puntos, pero aquí hay uno fundamental para agregar.

La media es el centro de gravedad de una distribución y, por lo tanto, el punto de pivote de un histograma. Es donde se equilibraría la distribución. Entonces, existe una relación recíproca: la media no solo puede ayudarlo a pensar en un histograma, sino que también puede ayudarlo a pensar en la media. Esto es quizás incluso más útil cuando una distribución está sesgada y la media de la distribución no está necesariamente en el medio.

Nick Cox
fuente