¿Está "bien" agregar una línea vertical a un histograma para visualizar el valor medio?
Me parece bien, pero nunca he visto esto en los libros de texto y similares, así que me pregunto si hay algún tipo de convención para no hacerlo.
El gráfico es para un trabajo a término, solo quiero asegurarme de no romper accidentalmente alguna regla súper importante de estadísticas tácitas. :)
self-study
data-visualization
mean
histogram
Invitado
fuente
fuente
Respuestas:
¿Por supuesto, por qué no?
Aquí hay un ejemplo (una de las docenas que encontré con una simple búsqueda en Google):
(La fuente de la imagen es el blog de medición de usabilidad, aquí ).
He visto medias, significa más o menos una desviación estándar, varios cuantiles (como mediana, cuartiles, percentiles 10 y 90) se muestran de varias maneras.
En lugar de dibujar una línea a través de la trama, puede marcar información en la parte inferior de la misma, así:
Hay un ejemplo (uno de los muchos que se encuentran) con un diagrama de caja en la parte superior en lugar de en la parte inferior, aquí .
A veces las personas marcan en los datos:
(He alterado ligeramente las ubicaciones de datos porque los valores se redondearon a enteros y no se podía ver bien la densidad relativa).
Hay un ejemplo de este tipo, hecho en Stata, en esta página (vea el tercero aquí )
Los histogramas son mejores con un poco de información adicional; pueden ser engañosos por sí mismos
¡Solo debes tener cuidado de explicar en qué consiste tu trama! (Para empezar, querría un título y una etiqueta de eje x mejores que los que usé aquí. Además, una explicación en un pie de figura que explica lo que había marcado en él).
-
Una última trama:
-
Mis tramas se generan en R.
Editar:
Como supuso @gung,
abline(v=mean...
se usó para dibujar la línea media a través del gráfico yrug
se usó para dibujar los valores de los datos (aunque en realidad lo usérug(jitter(...
porque los datos se redondearon a enteros).Aquí hay una manera de hacer el diagrama de caja entre el histograma y el eje:
No voy a enumerar para qué sirve todo, pero puede consultar los argumentos en la ayuda (
?boxplot
) para averiguar para qué sirven y jugar con ellos usted mismo.Sin embargo, no es una solución general: no garantizo que siempre funcione tan bien como aquí (tenga en cuenta que ya cambié el
at
yboxwex
opciones *). Si no escribe una función inteligente para ocuparse de todo, es necesario prestar atención a lo que hace todo para asegurarse de que está haciendo lo que desea.He aquí cómo crear los datos que utilicé (estaba tratando de mostrar cómo la regresión de Theil realmente pudo manejar varios valores atípicos influyentes). Simplemente se trataba de datos con los que estaba jugando cuando respondí por primera vez a esta pregunta.
* - un valor apropiado para
at
es alrededor de -0.5 veces el valor deboxwex
; sería un buen valor predeterminado si escribe una función para hacerlo;boxwex
necesitaría ser escalado de una manera que se relacione con la escala y (altura) de la gráfica de caja; Sugeriría 0.04 a 0.05 veces el límite y superior a menudo podría estar bien.Código para el gráfico marginal:
fuente
abline(v=mean(Davis2[,2]))
Yrug(Davis2[,2])
supongo, pero ¿cómo encajaste el diagrama de caja allí?boxplot
función. Entreboxplot
yboxp
puedes hacer algunas cosas ingeniosas con poco esfuerzo.at
yboxwex
así sucesivamente ... pero, en el mejor de los casos, solo hago unas pocas parcelas como esa al año, y me toma unos segundos cada vez escribir? Boxplot y configurar las opciones correctas. Pensé que es más fácil prestar atención a lo que estoy haciendo.Por supuesto que puede. Solo asegúrese de etiquetar / indicar claramente lo que significa la línea y evitar que la trama esté demasiado 'ocupada'.
Nada es peor que un gráfico que transmite demasiada información para ser fácilmente comprensible. La tabla es una forma a menudo pasada por alto para mostrar estadísticas resumidas de forma clara y concisa.
fuente
Las respuestas anteriores hacen excelentes puntos, pero aquí hay uno fundamental para agregar.
La media es el centro de gravedad de una distribución y, por lo tanto, el punto de pivote de un histograma. Es donde se equilibraría la distribución. Entonces, existe una relación recíproca: la media no solo puede ayudarlo a pensar en un histograma, sino que también puede ayudarlo a pensar en la media. Esto es quizás incluso más útil cuando una distribución está sesgada y la media de la distribución no está necesariamente en el medio.
fuente
No veo ningún problema con esto, veo esto , esto y esto como ejemplos.
fuente