¿Qué es un 'diagrama de bolsas' o 'diagrama de caja bivariado'?

11

He encontrado un documento que introduce la versión multidimensional (bivariante aquí) del diagrama de caja - un bagplot. ¿Qué es exactamente esa trama? Puedo ver la serie de polígonos anidados basados ​​en vértices, uno de esos polígonos se declara como un diagrama de bolsa. ¿Cuál es la idea de la construcción de polígonos anidados? ¿Cuál de los polígonos es el diagrama de bolsas (central o que contiene el número promedio de puntos)? ¿Los bordes de un diagrama de bolsas poseen algunas propiedades útiles (como dividir específicamente el conjunto de puntos)?

mbaitoff
fuente
3
Hay un artículo de Rousseeuw, Pits and Tukey en American Statistician que explica esto. Tengo, por alguna razón, problemas para pegar el enlace, pero Google "plotter" y "Tukey" lo encontrarán
Peter Flom - Reincorporar a Monica
1
Solo lo encontré por un precio escandaloso. Sigue buscando.
mbaitoff
1
Si tiene acceso a cualquier biblioteca decente, deberían tenerla. El estadístico estadounidense está bastante suscrito. También había algo en quora, pero no lo miré.
Peter Flom - Restablece a Monica
2
Rousseeuw y Ruts tienen otro artículo en línea además del estadístico estadounidense en formato postscript de forma gratuita.
Andy W
@AndyW, preguntándote como miembro de SPSS: ¿cómo crees que es posible hacerlo a través de GPL de alguna manera? ¿Vas a inventar el código para nosotros SPSSers?
ttnphns

Respuestas:

13

Aquí hay un ejemplo con notas:

Aquí está el artículo The Bagplot: A Bivariate Boxplotde Peter J. Rousseeuw, Ida Ruts y John W. Tukey de The American Statistician: http://venus.unive.it/romanaz/ada2/bagplot.pdf

Del resumen de ese artículo:

La "mediana de profundidad" es la ubicación más profunda, y está rodeada por una "bolsa" que contiene las n / 2 observaciones con mayor profundidad. Ampliar la bolsa por un factor 3 produce la "cerca" (que no se traza). Las observaciones entre la bolsa y la cerca están marcadas por un lazo gris claro, mientras que las observaciones fuera de la cerca están marcadas como valores atípicos. El diagrama de bolsas visualiza la ubicación, la dispersión, la correlación, el sesgo y las colas de los datos.

Aquí hay una ilustración de las partes clave:

ingrese la descripción de la imagen aquí

Se puede encontrar una discusión adicional en lo siguiente:

De los documentos de ayuda del aplpackpaquete (para Rusuarios):

Un diagrama de bolsas es una generalización bivariada del diagrama de caja conocido. Ha sido propuesto por Rousseeuw, Ruts y Tukey. En el caso bivariado, la caja de la gráfica de caja cambia a un casco convexo, la bolsa de la gráfica de bolsa. En la bolsa hay 50 por ciento de todos los puntos. La cerca separa los puntos en la cerca de los puntos exteriores. Se calcula aumentando la bolsa. El bucle se define como el polígono convexo que contiene todos los puntos dentro de la cerca. Si todos los puntos están en línea recta, obtienes un diagrama de caja clásico. bagplot () traza bagplot que es muy similar al descrito en Rousseeuw et al. Observaciones: la mediana bidimensional es aproximada. Existen dificultades conocidas con conjuntos de datos pequeños (pero creo que no es aconsejable hacer un resumen (gráfico) de, por ejemplo, 10 puntos).

En caso de que las personas quieran trazar varias tramas de bolsas (superpuestas), es conveniente si las tramas son semitransparentes. Por esta razón, el indicador de transparencia se ha agregado al comando bagplot. Si transparencia == VERDADERO, la capa alfa se establece en '99' (hexadecimal). Esto hace que los gráficos de bolsas aparezcan semitransparentes, pero SOLO si el dispositivo de salida es PDF y se abre usando: pdf (file = "filename.pdf", version = "1.4"). Por esta razón, el valor predeterminado es transparencia == FALSO. Wouter Meuleman ha propuesto esta característica, así como los argumentos para especificar diferentes colores.

Y un ejemplo:

library(aplpack)
attach(mtcars)
bagplot(wt, mpg, xlab="Car Weight", 
        ylab="Miles Per Gallon",
        main="Bagplot Example", 
        transparency = TRUE, 
        show.whiskers = FALSE, 
        # note that data a 'fence' separates inliers from outliers, 
        # and a 'loop' indicates the points outside the bag but 
        # inside the fence. In the 'bag' are 50 percent of all 
        # points
        show.loophull = TRUE, # draw 'loop'?
        show.baghull = TRUE)  # draw 'bag'?

ingrese la descripción de la imagen aquí

preguntas relacionadas:

Ben
fuente
44
Actualización: alguien hizo una geom ggplot2 para esto: gist.github.com/benmarwick/00772ccea2dd0b0f1745 . ¿Quizás un usuario emprendedor podría convertir esto en un paquete?
shadowtalker