Para datos distribuidos aproximadamente normalmente, los diagramas de caja son una excelente manera de visualizar rápidamente la mediana y la difusión de los datos, así como la presencia de valores atípicos.
Sin embargo, para las distribuciones de colas más pesadas, muchos puntos se muestran como valores atípicos, ya que los valores atípicos se definen como fuera del factor fijo del IQR, y esto sucede, por supuesto, con mucha más frecuencia con las distribuciones de colas pesadas.
Entonces, ¿qué utilizan las personas para visualizar este tipo de datos? ¿Hay algo más adaptado? Yo uso ggplot en R, si eso importa.
r
distributions
data-visualization
data-transformation
ggplot2
static_rtti
fuente
fuente
Respuestas:
El problema central de la OP parece tener es que tienen datos de cola muy pesadas - y no creo que la mayoría de los presentes respuestas realidad se ocupan de esa cuestión en absoluto , por lo que estoy promoviendo mi comentario anterior a una respuesta.
Si desea quedarse con boxplots, a continuación se enumeran algunas opciones. He creado algunos datos en R que muestran el problema básico:
La mitad central de los datos se reduce a una pequeña tira de un par de mm de ancho. El mismo problema afecta a la mayoría de las otras sugerencias, incluidas las parcelas QQ, los gráficos de bandas, las parcelas de colmena / abejas y las parcelas de violín.
Ahora algunas soluciones potenciales:
1) transformación ,
Si los registros o inversas producen una gráfica de caja legible, pueden ser una muy buena idea, y la escala original todavía se puede mostrar en el eje.
El gran problema es que a veces no hay transformación 'intuitiva'. Hay un problema menor que, si bien los cuantiles se traducen con transformaciones monotónicas lo suficientemente bien, las cercas no; si solo traza en caja los datos transformados (como hice aquí), los bigotes tendrán valores de x diferentes que en el gráfico original.
Aquí usé un inverso-hiperbólico-sin (asinh); es similar a un registro en las colas y similar a lineal cerca de cero, pero a la gente generalmente no le parece una transformación intuitiva, por lo que en general no recomendaría esta opción a menos que una transformación bastante intuitiva como el registro sea obvia. Código para eso:
2) saltos de escala: tome valores extremos extremos y comprímalos en ventanas estrechas en cada extremo con una escala mucho más comprimida que en el centro. Le recomiendo un descanso completo en toda la escala si hace esto.
3) recorte de valores atípicos extremos (que normalmente no recomendaría sin indicar esto muy claramente, pero parece la siguiente trama, sin "<5" y "2>" en cada extremo), y
4) lo que llamaré "flechas" extremadamente atípicas - similar al recorte, pero con el recuento de valores recortados indicado en cada extremo
fuente
Personalmente, me gusta usar un diagrama de tira con jitter al menos para tener una idea de los datos. El siguiente diagrama es con celosía en R (lo siento, no ggplot2). Me gustan estas tramas porque son muy fáciles de interpretar. Como dices, una razón para esto es que no hay ninguna transformación.
El paquete beeswarm ofrece una gran alternativa a stripplot (gracias a @January por la sugerencia).
Con sus datos, ya que se distribuyen aproximadamente de manera normal, otra cosa para intentar podría ser un qqplot, qqnorm en este caso.
fuente
beeswarm
paquete.Puedes apegarte a las gráficas de caja. Existen diferentes posibilidades para definir los bigotes. Dependiendo del grosor de la cola, el número de muestras y la tolerancia a los valores atípicos, puede elegir dos cuantiles más o menos extremos. Dado su problema, evitaría los bigotes definidos a través del IQR.
A menos, por supuesto, que desee transformar sus datos, lo que en este caso dificulta la comprensión.
fuente
Supongo que esta pregunta se trata de comprender los datos (en lugar de “administrarlos”).
Si los datos son de cola pesada y / o multimodales, considero que estas "capas" de ggplot2 son muy útiles para este propósito:
geom_violin
ygeom_jitter
.fuente