¿Cuál es la historia de los diagramas de cajas y cómo evolucionó el diseño de "caja y bigotes"?

19

Muchas fuentes fechan el diseño clásico de "diagrama de caja" para John Tukey y su "diagrama esquemático" de 1970. El diseño parece haberse mantenido relativamente estático desde entonces, ya que la versión reducida de Edward Tufte del diagrama de caja no se dio cuenta, mientras que Las gráficas de violín , aunque una variante más informativa de la gráfica de caja, siguen siendo menos populares. La sugerencia de Cleveland de que los bigotes se extiendan hasta los percentiles 10 y 90 tiene algunos partidarios, véase Cox (2009) , pero no es la norma.

Hadley Wickham y Lisa Stryjewski escribieron un artículo inédito sobre la historia de los diagramas de cajas, pero no parece cubrir los precursores históricos de los diagramas de cajas.

Entonces, ¿cómo surgió la trama actual y ubicua de "caja y bigotes"? ¿De qué tipo de visualización de datos evolucionó, esos diseños anteriores tenían ventajas significativas y por qué parecen haber sido eclipsados ​​de manera tan completa por el esquema de Tukey? Una respuesta ilustrada sería una ventaja, pero sería útil dirigirla a una referencia que se sumerja más históricamente que Wickham y Stryjewski.

Referencias

  • Cox, NJ (2009). Speaking Stata: Creación y variación de diagramas de caja. Stata Journal , 9 (3), 478.
  • Wickham, H. y Stryjewski, L. (2011). 40 años de parcelas. http://vita.had.co.nz/papers/boxplots.pdf
Lepisma
fuente
1
Algunas discusiones relevantes sobre una serie de precursores aquí: stats.stackexchange.com/questions/125521/… ... Tukey estaba al tanto del trabajo de Mary Spears, pero es posible que no haya visto ninguno de los anteriores
Glen_b -Reinstate Monica
Gracias @Glen_b, esa fue la discusión que leí que inspiró esta pregunta, ¡pero me ha llevado 4 años darme la vuelta y no pude rastrear la discusión! (Desafortunadamente, los comentarios no aparecen en la búsqueda en el sitio, por lo que sería útil tratar de incluirlo en un Q&A adecuado).
Silverfish
1
Uso la búsqueda de Google con site:stats.stackexchange.comset para rastrear cosas en los comentarios. Pude recordar suficientes detalles (que era una discusión entre Nick y yo en relación con las diagramas de caja y que había mencionado a Schmid) para obtener el primer éxito.
Glen_b -Reinstate Monica
1
Comentario tangencial sobre valores atípicos de diagrama de caja. Dos reglas han sido ampliamente utilizadas. Por lo general, el valor predeterminado (en R y otro software) es que las observaciones por debajo de o por encima de se designan como valores atípicos; la "regla 1.5IQR". En versiones anteriores, Minitab también usaba una regla , llamando a los valores atípicos más extremos "valores atípicos probables" y los menos extremos "valores atípicos posibles". Al menos para datos más o menos normales, ambas reglas muestran porcentajes de valores atípicos que varían mucho con el tamaño de la muestraHay evidencia de simulaciones de que una regla sería más estable hasta 1000's. Q 3 + 1.5 I Q R 3 I Q R n . 2.25 I Q RQ1-1,5yoQRQ3+1,5yoQR3yoQRnorte.2,25yoQR
BruceET
1
github.com/hadley/boxplots-paper incluye mucho material, como informes de revisores anónimos de una revista (? _American Statistician_) (breve y desalentador) e independientes pero superpuestos revisiones no solicitadas por David Hoaglin y yo (ambos mucho más detallados).
Nick Cox

Respuestas:

18

Resumen del Director Ejecutivo

La historia es mucho más larga y más complicada de lo que mucha gente piensa que es.

Resumen Ejecutivo

La historia de lo que Tukey llamó gráficas de caja está enredada con la de lo que ahora a menudo se llaman gráficas de puntos o tiras (docenas de otros nombres) y con representaciones de la función empírica de cuantil.

Los diagramas de cajas en formas ampliamente actuales se conocen mejor a través del trabajo de John Wilder Tukey (1970, 1972, 1977).

Pero la idea de mostrar la mediana y los cuartiles como resúmenes básicos, juntos a menudo pero no siempre con puntos que muestran todos los valores, se remonta al menos a los diagramas de dispersión (muchos nombres variantes) introducidos por el geógrafo Percy Robert Crowe (1933). Estos fueron los alimentos básicos para los geógrafos y se usaron en muchos libros de texto, así como en trabajos de investigación de finales de la década de 1930 en adelante.

Bibby (1986, pp.56, 59) dio referencias aún más tempranas a ideas similares enseñadas por Arthur Lyon Bowley (más tarde Sir Arthur) en sus conferencias sobre 1897 y a su recomendación (Bowley, 1910, p.62; 1952, p.73 ) para utilizar puntos mínimos y máximos y 10, 25, 50, 75 y 90% como base para el resumen gráfico.

Las barras de rango que muestran extremos y cuartiles a menudo se atribuyen a Mary Eleanor Spear (1952), pero en mi lectura, menos personas citan a Kenneth W. Haemer (1948). Los artículos de Haemer sobre gráficos estadísticos en el American Statistician alrededor de 1950 fueron ingeniosos y tienen un mordisco crítico y vale la pena volver a leerlos. (Muchos lectores podrán acceder a ellos a través de jstor.org.) En contraste, los libros de Spear (Spear 1969 es una repetición) fueron accesibles y sensibles, pero deliberadamente introductorios en lugar de innovadores o académicos.

Las variantes de las gráficas de cajas en las que los bigotes se extienden a percentiles seleccionados son más comunes de lo que muchas personas parecen pensar. Una vez más, los geógrafos utilizaron parcelas equivalentes a partir de la década de 1930.

Lo que es más original en la versión de Tukey de los diagramas de caja son, en primer lugar, los criterios para identificar puntos en las colas que se trazarán por separado y se identificarán como merecedores de una consideración detallada, y con tanta frecuencia señalan que una variable debe analizarse en una escala transformada. Su regla general de 1.5 IQR surgió solo después de mucha experimentación. Ha mutado en algunas manos a una regla estricta para eliminar puntos de datos, que nunca fue la intención de Tukey. Un nombre llamativo y memorable (diagrama de caja) no hizo daño al garantizar un impacto mucho más amplio de estas ideas. El diagrama de dispersión en contraste es más bien un término aburrido y triste.

La lista bastante larga de referencias aquí es, posiblemente contraria a las apariencias, no pretende ser exhaustiva. El objetivo es simplemente proporcionar documentación para algunos precursores y alternativas del diagrama de caja. Las referencias específicas pueden ser útiles para consultas detalladas o si están cerca de su campo. Por el contrario, aprender sobre prácticas en otros campos puede ser saludable. A menudo se ha subestimado la experiencia gráfica, no solo cartográfica, de los geógrafos.

Más detalles

Crowe (1933, 1936), Matthews (1936), Hogg (1948), Monkhouse y Wilkinson (1952), Farmer (1956), Gregory (1963), Hammond y McCullagh (1974), Lewis utilizaron los diagramas de caja de puntos híbridos. (1975), Matthews (1981), Wilkinson (1992, 2005), Ellison (1993, 2001), Wild y Seber (2000), Quinn y Keough (2002), Young et al. (2006) y Hendry y Nielsen (2007) y muchos otros. Ver también Miller (1953, 1964).

Cleveland (1985) enfatizó el dibujo de bigotes a percentiles particulares, en lugar de a puntos de datos dentro de tantos IQR de los cuartiles, pero Matthews (1936) y Grove (1956) lo anticiparon, es decir, entre el primer y el primer intervalo. séptimo octiles, así como el rango y rango intercuartil. Dury (1963), Johnson (1975), Harris (1999), Myatt (2007), Myatt y Johnson (2009, 2011) y Davino et al. (2014) mostraron medias, así como mínimos, cuartiles, medianas y máximas. Schmid (1954) mostró gráficos sumarios con mediana, cuartiles y puntos de 5 y 95%. Bentley (1985, 1988), Davis (2002), Spence (2007, 2014) y Motulsky (2010, 2014, 2018) trazaron bigotes a 5 y 95% de puntos. Morgan y Henrion (1990, pp.221, 241), Spence (2001, p.36), y Gotelli y Ellison (2004, 2013, pp.72, 110, 213, 416) trazó bigotes a 10% y 90% de puntos. Harris (1999) mostró ejemplos de 5 y 95% y 10 y 90% de puntos. Altman (1991, pp.34, 63) y Greenacre (2016) trazaron bigotes a 2.5% y 97.5% puntos. Reimann y col. (2008, pp.46-47) trazaron bigotes a 5% y 95% y 2% y 98% puntos.

Parzen (1979a, 1979b, 1982) hibridó gráficos de caja y cuantil como gráficos de caja cuantil. Véanse también (p. Ej.) Shera (1991), Militký y Meloun (1993), Meloun y Militký (1994). Sin embargo, tenga en cuenta que el diagrama de caja cuantil de Keen (2010) es solo un diagrama de caja con bigotes que se extienden hasta los extremos. Por el contrario, las gráficas de caja cuantil de JMP son evidentemente gráficas de caja con marcas al 0.5%, 2.5%, 10%, 90%, 97.5%, 99.5%: ver Sall et al. (2014, pp.143-4).

Aquí hay algunas notas sobre las variantes de las gráficas de caja de cuantiles.

(A) La gráfica de percentil de caja de Esty y Banfield (2003) traza la misma información de manera diferente, trazando datos como líneas continuas y produciendo una visualización simétrica en la que el eje vertical muestra cuantiles y el eje horizontal muestra no trazando la posición , pero ambas min ( ) y su imagen especular min ( ). Detalle menor: en su papel, las posiciones de trazado se describen erróneamente como "percentiles". Ver también Martinez et al. (2011, 2017), lo que perpetúa esa confusión.pagpag,1-pag-pag,1-pag

La idea de graficar min ( ) (o su porcentaje equivalente) aparece independientemente en (B) "parcelas de montaña" (Krouwer 1992; Monti 1995; Krouwer y Monti 1995; Goldstein 1996) y en (C) parcelas de la "función de distribución empírica invertida" (Huh 1995). Ver también Xue y Titterington (2011) para un análisis detallado de plegar una función de distribución en cualquier cuantil. pag,1-pag

Según la literatura que he visto, parece que ninguno de estos hilos, las gráficas de cajas de cuantiles o las variantes posteriores (A) (B) (C), se citan entre sí.

!!! al 3 de octubre de 2018, se deben proporcionar detalles para algunas referencias en la próxima edición.

Altman, DG 1991. Estadísticas prácticas en investigación médica. Londres: Chapman y Hall.

Bentley, JL 1985. Perlas de programación: selección. Comunicaciones de la ACM 28: 1121-1127.

Bentley, JL 1988. Más perlas de programación: confesiones de un codificador. Lectura, MA: Addison-Wesley.

Bibby, J. 1986. Notas hacia una historia de la enseñanza de estadísticas. Edimburgo: John Bibby (Libros).

Bowley, AL 1910. Un manual elemental de estadística. Londres: Macdonald y Evans. (séptima edición, 1952)

Cleveland, WS 1985. Elementos de datos gráficos. Monterey, CA: Wadsworth.

Crowe, PR 1933. El análisis de la probabilidad de lluvia: un método gráfico y su aplicación a datos europeos. Scottish Geographical Magazine 49: 73-91.

Crowe, PR 1936. El régimen de lluvias de las llanuras occidentales. Revisión geográfica 26: 463-484.

Davis, JC 2002. Estadísticas y análisis de datos en geología. Nueva York: John Wiley.

Dickinson, GC 1963. Mapeo estadístico y la presentación de estadísticas. Londres: Edward Arnold. (segunda edición 1973)

Dury, GH 1963. East Midlands y The Peak. Londres: Thomas Nelson.

Agricultor, BH 1956. Lluvia y suministro de agua en la zona seca de Ceilán. En Steel, RW y CA Fisher (eds) Ensayos geográficos en tierras tropicales británicas. Londres: George Philip, 227-268.

Gregory, S. 1963. Métodos estadísticos y el geógrafo. Londres: Longmans. (ediciones posteriores 1968, 1973, 1978; editor más tarde Longman)

Grove, AT 1956. Erosión del suelo en Nigeria. En Steel, RW y CA Fisher (eds) Ensayos geográficos en tierras tropicales británicas. Londres: George Philip, 79-111.

Haemer, KW 1948. Gráficos de barras de rango. Estadístico estadounidense 2 (2): 23.

Hendry, DF y B. Nielsen. 2007. Modelado econométrico: un enfoque de probabilidad. Princeton, NJ: Princeton University Press.

Hogg, WH 1948. Diagramas de dispersión de lluvia: una discusión de sus ventajas y desventajas. Geografía 33: 31-37.

Ibrekk, H. y MG Morgan. 1987. Comunicación gráfica de cantidades inciertas a personas no técnicas. Análisis de riesgo 7: 519-529.

Johnson, BLC 1975. Bangladesh. Londres: Heinemann Educational.

Keen, KJ 2010. Gráficos para estadísticas y análisis de datos con R. Boca Raton, FL: CRC Press. (2a edición 2018)

Lewis, CR 1975. El análisis de los cambios en el estado urbano: un estudio de caso en Mid-Wales y en la zona fronteriza del centro de Gales. Transacciones del Instituto de Geógrafos Británicos 64: 49-65.

Martínez, WL, AR Martínez y JL Solka. 2011. Análisis de datos exploratorios con MATLAB. Boca Ratón, FL: CRC Press.

Matthews, HA 1936. Una nueva visión de algunas lluvias indias familiares. Scottish Geographical Magazine 52: 84-97.

Matthews, JA 1981. Enfoques cuantitativos y estadísticos de la geografía: un manual práctico. Oxford: Pérgamo.

Meloun, M. y J. Militký. 1994. Tratamiento de datos asistido por computadora en quimiometría analítica. I. Análisis exploratorio de datos univariados. Chemical Papers 48: 151-157.

Militký, J. y M. Meloun. 1993. Algunas ayudas gráficas para el análisis de datos exploratorios univariados. Analytica Chimica Acta 277: 215-221.

Miller, AA 1953. La piel de la tierra. Londres: Methuen. (2a edición, 1964)

Monkhouse, FJ y HR Wilkinson. 1952. Mapas y diagramas: su compilación y construcción. Londres: Methuen. (ediciones posteriores 1963, 1971)

Morgan, MG y M. Henrion. 1990. Incertidumbre: una guía para abordar la incertidumbre en el análisis cuantitativo de riesgos y políticas. Cambridge: Cambridge University Press.

Myatt, GJ 2007. El sentido de los datos: una guía práctica para el análisis exploratorio de datos y la minería de datos. Hoboken, Nueva Jersey: John Wiley.

Myatt, GJ y Johnson, WP 2009. Comprensión de los datos II: una guía práctica para la visualización de datos, métodos avanzados de extracción de datos y aplicaciones. Hoboken, Nueva Jersey: John Wiley.

Myatt, GJ y Johnson, WP 2011. Comprensión de los datos III: una guía práctica para diseñar visualizaciones interactivas de datos. Hoboken, Nueva Jersey: John Wiley.

Ottaway, B. 1973. Diagramas de dispersión: un nuevo enfoque para la visualización de las fechas de carbono 14. Arqueometría 15: 5-12.

Parzen, E. 1979a. Modelado de datos estadísticos no paramétricos. Revista, Asociación Americana de Estadística 74: 105-121.

Parzen, E. 1979b. Una perspectiva de función cuantil de densidad en estimación robusta. En Launer, RL y GN Wilkinson (eds) Robustez en Estadística. Nueva York: Academic Press, 237-258.

Parzen, E. 1982. Modelado de datos usando funciones cuantil y densidad-cuantil. En Tiago de Oliveira, J. y Epstein, B. (eds) Algunos avances recientes en estadística. Londres: Academic Press, 23-52.

Quinn, GP y MJ Keough. 2002. Diseño experimental y análisis de datos para biólogos. Cambridge: Cambridge University Press.

Reimann, C., P. Filzmoser, RG Garrett y R. Dutter. 2008. Análisis de datos estadísticos explicados: estadísticas ambientales aplicadas con R. Chichester: John Wiley.

Sall, J., A. Lehman, M. Stephens y L. Creighton. 2014. Estadísticas de inicio de JMP: una guía de estadísticas y análisis de datos con JMP. Cary, NC: Instituto SAS.

Shera, DM 1991. Algunos usos de las gráficas de cuantiles para mejorar la presentación de datos. Computing Science and Statistics 23: 50-53.

Spear, ME 1952. Estadísticas de gráficos. Nueva York: McGraw-Hill.

Spear, ME 1969. Técnicas prácticas de cartografía. Nueva York: McGraw-Hill.

Tukey, JW 1970.
Análisis exploratorio de datos. Edición preliminar limitada. Volumen I. Reading, MA: Addison-Wesley.

Tukey, JW 1972. Algunas pantallas gráficas y semigraficas. En Bancroft, TA y Brown, SA (eds) Documentos estadísticos en honor de George W. Snedecor. Ames, IA: Iowa State University Press, 293-316. (también accesible en http://www.edwardtufte.com/tufte/tukey )

Tukey, JW 1977. Análisis de datos exploratorios. Lectura, MA: Addison-Wesley.

Wild, CJ y GAF Seber. 2000. Encuentros casuales: un primer curso en análisis de datos e inferencia. Nueva York: John Wiley.

Nick Cox
fuente
Tengo otro material en parcelas de percentiles de caja, parcelas de montaña y otras formas híbridas, que se agregarán más adelante.
Nick Cox
Realmente aprecio esta respuesta, gracias Nick, esperando las adiciones sobre las alternativas y los híbridos. Creo que es justo decir que los "diagramas de caja" y los amigos "forman una" familia "de visualizaciones de datos, aunque no sé cómo debería llamarse esa familia
Silverfish
¡Gracias! si la posesión de líneas u otros marcadores que indican la mediana y los cuartiles define una caja, entonces hubo parcelas de cajas mucho antes de que Tukey las nombrara, y estoy seguro de que nunca afirmó lo contrario. Sin embargo, muchas historias en miniatura en los libros de texto y en otros lugares parecen enfáticas al respecto; sobre todo, es solo un meme repetido sin evidencia como la historia de que los lemmings saltan de los acantilados como suicidio colectivo. Muchas de las alternativas a las gráficas de caja ni siquiera muestran una caja en ningún sentido, por lo que el campo está abierto para incluir cualquier representación gráfica de distribuciones univariadas.
Nick Cox