Digamos que tengo dos distribuciones que quiero comparar en detalle, es decir, de manera que haga que la forma, la escala y el desplazamiento sean fácilmente visibles. Una buena manera de hacerlo es trazar un histograma para cada distribución, colocarlos en la misma escala X y apilar uno debajo del otro.
Al hacer esto, ¿cómo se debe hacer binning? ¿Deberían ambos histogramas usar los mismos límites de bin incluso si una distribución está mucho más dispersa que la otra, como en la Imagen 1 a continuación? ¿Debería hacerse un binning de forma independiente para cada histograma antes del zoom, como en la Imagen 2 a continuación? ¿Hay incluso una buena regla general sobre esto?
data-visualization
histogram
pdf
binning
dsimcha
fuente
fuente
Respuestas:
Creo que necesitas usar los mismos contenedores. De lo contrario, la mente te engaña. Normal (0,2) se ve más disperso en relación con Normal (0,1) en la Imagen # 2 que en la Imagen # 1. Nada que ver con las estadísticas. Parece que Normal (0,1) se puso a "dieta".
-Ralph Winters
El punto medio y los puntos finales del histograma también pueden alterar la percepción de la dispersión. Tenga en cuenta que en este applet una selección de bin máxima implica un rango de> 1.5 - ~ 5 mientras que una selección de bin mínima implica un rango de <1 -> 5.5
http://www.stat.sc.edu/~west/javahtml/Histogram.html
fuente
Otro enfoque sería trazar las diferentes distribuciones en la misma trama y usar algo como el
alpha
parámetroggplot2
para abordar los problemas de sobreplotación. La utilidad de este método dependerá de las diferencias o similitudes en su distribución, ya que se trazarán con los mismos contenedores. Otra alternativa sería mostrar curvas de densidad suavizadas para cada distribución. Aquí hay un ejemplo de estas opciones y las otras opciones discutidas en el hilo:fuente
Entonces, ¿se trata de mantener el mismo tamaño de contenedor o mantener el mismo número de contenedores? Puedo ver argumentos para ambos lados. Una solución alternativa sería estandarizar los valores primero. Entonces podrías mantener ambos.
fuente