Estoy escribiendo mi tesis doctoral y me he dado cuenta de que confío excesivamente en los diagramas de cajas para comparar distribuciones. ¿Qué otras alternativas te gustan para lograr esta tarea?
También me gustaría preguntarle si conoce algún otro recurso como la galería R en el que pueda inspirarme con diferentes ideas sobre visualización de datos.
r
distributions
data-visualization
boxplot
relative-distribution
pedrosaurio
fuente
fuente
hist
,; densidades suavizadasdensity
; Parcelas QQqqplot
; parcelas de tallo y hojas (un poco antiguas)stem
. Además, la prueba de Kolmogorov-Smirnov podría ser un buen complementoks.test
.Respuestas:
Voy a elaborar mi comentario, como lo sugiere @gung. También incluiré la trama del violín sugerida por @Alexander, para completar. Algunas de estas herramientas se pueden usar para comparar más de dos muestras.
Espero que esto ayude.
fuente
Después de explorar un poco más sobre sus sugerencias, encontré este tipo de argumento para complementar la respuesta de @Procastinator. Se llama 'enjambre de abejas' y es una mezcla de diagrama de caja con diagrama de violín con el mismo nivel de detalle que el diagrama de dispersión.
paquete R de beeswarm
fuente
beanplot
.Una nota:
Desea responder preguntas sobre sus datos y no crear preguntas sobre el método de visualización en sí. A menudo, aburrido es mejor. También hace que las comparaciones de comparaciones sean más fáciles de comprender.
Una respuesta:
La necesidad de un formato simple más allá del paquete base de R probablemente explica la popularidad del paquete ggplot de Hadley en R.
Finalmente, descubrí que agregar un fondo simple ayuda. Es por eso que escribí "bgfun", que puede ser llamado por panel.first
fuente
alpha=0.5
al primer diagrama (ageom_density()
) para que las partes superpuestas no estén ocultas.Aquí hay un buen tutorial del blog Flowing Data de Nathan Yau que usa datos sobre delitos a nivel estatal R y de EE. UU. Muestra:
Últimamente, me encuentro tramando CDF mucho más que histogramas.
fuente
Existe un concepto específico para comparar distribuciones, que debería conocerse mejor: la distribución relativa.
Veamos un ejemplo. El sitio web http://www.math.hope.edu/swanson/data/cellphone.txt proporciona datos sobre la duración de la última llamada telefónica de los estudiantes masculinos y femeninos. Expresemos la distribución de la duración de las llamadas telefónicas para estudiantes varones, con mujeres estudiantes como referencia.
También podemos hacer el mismo gráfico con intervalos de confianza puntuales alrededor de la curva de densidad relativa:
Las amplias bandas de confianza en este caso reflejan el pequeño tamaño de la muestra.
Hay un libro sobre este método: Handcock
El código R para la trama está aquí:
Para la última trama, cambie a:
Tenga en cuenta que las gráficas se producen con el uso de la estimación de la densidad del núcleo, con un grado de suavidad elegido a través de gcv (validación cruzada generalizada).
fuente
Me gusta estimar las densidades y trazarlas,
fuente