Soy de una formación en economía y, por lo general, en la disciplina, las estadísticas resumidas de las variables se presentan en una tabla. Sin embargo, deseo trazarlos.
Podría modificar un diagrama de caja para permitir que muestre la media, la desviación estándar, el mínimo y el máximo, pero no deseo hacerlo, ya que los diagramas de caja se usan tradicionalmente para mostrar medianas y Q1 y Q3.
Todas mis variables tienen diferentes escalas. Sería genial si alguien pudiera sugerir una manera significativa por la cual pudiera trazar estas estadísticas resumidas. Puedo trabajar con R o Stata.
r
data-visualization
boxplot
Ridhima
fuente
fuente
R
comandos, esta pregunta está fuera de tema aquí. Pero parece que está preguntando principalmente sobre cómo sería una buena trama y, en segundo lugar, cómo crearla. Si es así, sugiero eliminar "con R" de su título y tal vez declarar, en el cuerpo, que tieneR
disponible.Respuestas:
Hay una razón por la cual el diagrama de caja de Tukey es universal, se puede aplicar a datos derivados de diferentes distribuciones, desde gaussiana a Poisson, etc. normalidad. Sin embargo, la media y la DE son más propensas a los valores atípicos, y deben interpretarse con respecto a la distribución subyacente. La siguiente solución es más adecuada para datos normales o logarítmicos normales. Puede navegar a través de una selección de medidas robustas aquí , y explorar el paquete WRS R aquí .
Además, al agregar
+ geom_jitter()
o+ geom_point()
al código anterior, puede visualizar simultáneamente los valores de datos sin procesar.Gracias a @Roland por señalar la trama del violín . Tiene la ventaja de visualizar la densidad de probabilidad al mismo tiempo que la estadística de resumen:
Ambos ejemplos se muestran a continuación.
fuente
Hay innumerables posibilidades.
Una opción que he visto utilizada y que evita la confusión con los diagramas de caja (suponiendo que tenga medianas o datos originales disponibles) es trazar un diagrama de caja y agregar un símbolo que marque la media (con suerte con una leyenda para hacerlo explícito). Esta versión del diagrama de caja que agrega un marcador para la media se menciona, por ejemplo, en Frigge et al (1989) [1]:
La gráfica izquierda muestra un símbolo + como un marcador medio y la gráfica derecha usa un triángulo en el borde, adaptando el marcador promedio de la gráfica de haz y fulcro de Doane & Tracy [2].
Vea también esta publicación SO y esta
Si no tiene (o realmente no quiere mostrar) la mediana, se necesitará una nueva trama y entonces sería bueno que fuera visualmente diferente de un diagrama de caja.
Quizás algo como esto:
Si sus números están en escalas muy diferentes, pero todos son positivos, puede considerar trabajar con registros o puede hacer pequeños múltiplos con escalas diferentes (pero claramente marcadas)
Código (actualmente no es un código particularmente 'agradable', pero por el momento esto es solo explorar ideas, no es un tutorial sobre cómo escribir un buen código R):
[1] Frigge, M., DC Hoaglin y B. Iglewicz (1989),
"Algunas implementaciones del diagrama de caja".
Estadístico estadounidense , 43 (febrero): 50-54.
[2] Doane DP y RL Tracy (2000),
"Uso de pantallas de haz y fulcro para explorar datos"
American Statistician , 54 (4): 289–290, noviembre
fuente