Diagrama de caja y bigotes para distribución multimodal

13

¿Puedo usar gráficos de caja y bigotes también para distribución multimodal o solo para distribución unimodal?

usuario1091344
fuente
El término habitual para una distribución con más de un modo sería ' multimodal '. Si eso es lo que quieres decir, edita para usar el término habitual. Si quiere decir algo más, defina el término.
Glen_b -Reinstale a Monica
1
Los gráficos de caja no siempre son útiles para formas de distribución complicadas. Bimodal ... multimodal (supongo que para ser un término más común que "polimodal") las formas a menudo estarán ocultas. Mucho depende de cuán fuerte sea la desviación de la unimodalidad. De lo contrario, no sonará ninguna campana y no aparecerá ningún mensaje de error. Pero incluso un histograma o una estimación de la densidad del núcleo pueden alterar distribuciones complicadas; algunos consideran que es una característica, ya que es fácil aceptar en exceso los modos que son solo peculiaridades en una muestra. Yo diría que el único tipo de argumento que no pierde información es un diagrama cuantil.
Nick Cox
@Glen_b lo hice. En mi libro, están hablando de la distribución polimodal. ¿Es correcto unimodal para un pico?
user1091344
1
Ciertamente puedes usar un diagrama de caja, ¿quién te detendría? El problema es que el diagrama de caja habitual no indica la cantidad de modos (aunque hay modificaciones de los cuadros de caja que pueden indicar multimodalidad). Los diagramas de caja son mejores cuando el interés se centra en las comparaciones entre grupos de ubicación y distribución (en muchos grupos) en lugar de cuando la forma de distribución es de interés directo. Si es importante mostrar la multimodalidad, especialmente si hay pocos grupos, sugiero usar una pantalla diferente, o quizás varias. (Expandiré mi comentario en una respuesta cuando pueda.)
Glen_b -Reinstale a Monica
1
Su evidencia no nos inclina a pensar bien en este libro.
Nick Cox

Respuestas:

20

El problema es que el diagrama de caja habitual * generalmente no puede dar una indicación del número de modos. Mientras que en algunas circunstancias (generalmente raras) es posible obtener una indicación clara de que el número más pequeño de modos excede 1, más generalmente un diagrama de caja dado es consistente con uno o cualquier número mayor de modos.

* Se han sugerido varias modificaciones de los tipos habituales de diagrama de caja, que hacen más para indicar los cambios en la densidad y la cámara se pueden utilizar para identificar modos múltiples, pero no creo que ese sea el propósito de esta pregunta.

Por ejemplo, aunque esta trama hace indicar la presencia de al menos dos modos (los datos fueron generados a fin de tener exactamente dos) -

ingrese la descripción de la imagen aquí

Por el contrario, este tiene dos modos muy claros en su distribución, pero simplemente no se puede distinguir de la gráfica de caja:

ingrese la descripción de la imagen aquí

norte= 100): ningún cdf unimodal es consistente con las restricciones en el cdf en ese caso, que requiere un aumento relativamente brusco en el primer trimestre, un aplanamiento a (en promedio) una pequeña tasa de aumento en la mitad del medio y luego cambiar a otro aumento brusco en el último trimestre.

De hecho, la figura 1 aquí (que creo que es un documento de trabajo publicado más tarde en [1]) muestra cuatro conjuntos de datos diferentes con el mismo diagrama de caja.

No tengo esos datos a mano, pero es un asunto trivial hacer un conjunto de datos similar: como se indica en el enlace anterior relacionado con el resumen de cinco números, solo necesitamos restringir nuestras distribuciones para que se encuentren dentro de los cuadros rectangulares que el el resumen de cinco números nos restringe.

Aquí está el código R que generará datos similares a los del documento:

x1 = qnorm(ppoints(1:100,a=-.072377))
x1 = x1/diff(range(x1))*18+10
b = fivenum(x1)  # all of the data has this five number summary
x2 = qnorm(ppoints(1:48));x2=x2/diff(range(x2))*.6
x2 = c(b[1],x2+b[2],.31+b[2],b[4]-.31,x2+b[4],b[5])
d = .1183675; x3 = ((0:34)-34/2)/34*(9-d)+(5.5-d/2)
x3 = c(x3,rep(9.5,15),rep(10.5,15),20-x3)
x4 = c(1,rep(b[2],24),(0:49)/49*(b[4]-b[2])+b[2],(0:24)/24*(b[5]-b[4])+b[4])

Aquí hay una visualización similar a la del documento, de los datos anteriores (excepto que muestro los cuatro diagramas de caja aquí):

ingrese la descripción de la imagen aquí

Cuidado, sin embargo - histogramas también pueden tener problemas ; de hecho, vemos uno de sus problemas aquí, porque la distribución en el tercer histograma "pico" es en realidad claramente bimodal; el ancho del contenedor del histograma es simplemente demasiado ancho para mostrarlo. Además, como Nick Cox señala en los comentarios, las estimaciones de densidad del kernel también pueden afectar la impresión del número de modos (a veces difuminando modos ... o algunas veces sugiriendo modos pequeños donde no existen ninguno en la distribución original). Hay que tener cuidado con la interpretación de muchas pantallas comunes.

Hay modificaciones de la gráfica de caja que pueden indicar mejor la multimodalidad (gráficas de florero, violín y frijol, entre muchas otras). En algunas situaciones pueden ser útiles, pero si estoy interesado en encontrar modos, generalmente miraré un tipo diferente de pantalla.

x4

[1]: Choonpradub, C. y McNeil, D. (2005),
"¿Se puede mejorar el diagrama de caja?"
Songklanakarin J. Sci. Technol. , 27 : 3, págs. 649-657.
http://www.jourlib.org/paper/2081800
pdf

Glen_b -Reinstate a Monica
fuente
2
Dos comentarios más amplios sobre modos. 1. Una buena prueba de un patrón particular de modalidad es si se repite repetidamente en muestras del mismo tamaño. Mi experiencia es que los modos pueden ser extremadamente volubles en ese sentido. 2. Al considerar modos, siempre vale la pena preguntar si un modo tiene una interpretación sustantiva. Pero cada argumento puede estar equivocado; Si no recuerdo mal, la mayoría de las personas adivinarían que una mezcla de hombres y mujeres impartiría bimodalidad a la distribución de las alturas, pero es difícil de detectar incluso en muestras grandes de alta calidad.
Nick Cox
1
@ NickCox gracias; en realidad, habría adivinado que las alturas no serían bimodales; imagine que (como una aproximación aproximada a la realidad) consideramos dos distribuciones normales con desviaciones estándar similares, cuyas medias difieren en aproximadamente 1sd, con aproximadamente tantos machos como hembras. Entonces, de hecho, la distribución combinada (mezcla de dos normales) es unimodal. La realidad es un poco más compleja, por supuesto, ambas distribuciones son mezclas de grupos étnicos, están sesgadas incluso dentro de los sexos y grupos étnicos, tienen diferentes variaciones y los medios difieren en más de 1 sd, pero el resultado (unimodalidad) no debería sorprendernos
Glen_b: reinstala a Monica
3
Vale la pena señalar que JW Tukey en su análisis de datos exploratorios (Reading, MA: Addison-Wesley, 1977) incluyó un diagrama de puntos de los datos de Rayleigh, lo que condujo al descubrimiento de argón, como un patrón bimodal para el cual los gráficos de caja son inútiles y otro Se necesita mostrar, en el caso de Tukey, un diagrama de puntos, para ver la estructura. Tukey, como es bien conocido, llamó el diagrama de caja y no es tan conocido como su reinventor.
Nick Cox
7

Existen múltiples opciones para detectar la multimodalidad con R. Los datos para los gráficos a continuación se generaron con tres modos (-3,0,1). Los demás superan claramente el diagrama de caja (el diagrama del violín parece tener diferentes configuraciones predeterminadas de densidad del núcleo), pero ninguno distingue realmente entre los modos 0 y 1. Realmente hay pocas razones para usar boxplots en la era de las computadoras. ¿Por qué tirar información?

ingrese la descripción de la imagen aquí

dat <- c(rnorm(500, -3, 1), rnorm(200, 0, 1), rnorm(300, 1, 1))

par(mfrow=c(2, 2))
boxplot(dat, horizontal=TRUE, main="Boxplot")

require(beanplot)
beanplot(dat, horizontal=TRUE, main="Beanplot")

require(viopoints)
viopoints(dat, horizontal=TRUE, main="Viopoints")

require(vioplot)
vioplot(dat, horizontal=TRUE)
title("Violin Plot")
Lívido
fuente