¿Cómo presentar un diagrama de caja con un valor atípico extremo?

Podría usar alguna orientación sobre la presentación de algunos datos.

Este primer gráfico es una comparación de casos y controles para la citocina IL-10. He configurado manualmente el eje y para incluir el 99% de los datos.

IL-10 con eje Y manual

La razón por la que configuré esto manualmente es porque el grupo de casos tiene un valor atípico extremo. Con valores atípicos

Mis colaboradores dudan en realizar una eliminación atípica de nuestro conjunto de datos. Estoy de acuerdo con eso, pero prefieren no hacerlo. Esa sería la solución obvia. Pero si voy a mantener todos los datos y no eliminar este valor atípico, ¿cómo puedo presentar este diagrama de caja de manera óptima? Eje dividido? ¿Es aceptable usar solo el primer gráfico y observar que fue construido para incluir todos los datos? (Esta opción me parece deshonesta). Cualquier consejo sería genial.

r data-visualization outliers boxplot presentation Alex C
fuente

¿Por qué no presentar ambas parcelas?

Alexis

Respuestas:

Yo diría que con datos como estos realmente necesita mostrar resultados en una escala transformada. Ese es el primer imperativo y una cuestión más importante que precisamente cómo dibujar un diagrama de caja.

Pero me hago eco de Frank Harrell al instar a algo más informativo que un diagrama de caja mínimo, incluso con algunos puntos extremos identificados. Tienes suficiente espacio para mostrar mucha más información. Aquí hay uno de los muchos ejemplos, una caja híbrida y una gráfica cuantil. Al igual que en sus datos, se comparan dos grupos.

ingrese la descripción de la imagen aquí

Tomaré estos dos puntos uno por uno y diré más.

Escala transformada

En el caso más simple, todos sus valores pueden ser positivos y luego debe intentar usar una escala logarítmica.

Si tiene ceros exactos, una escala de raíz cuadrada o raíz cúbica seguirá mejorando la asimetría extrema. Algunas personas están contentas con log (valor + constante), donde constante es más comúnmente 1, como una forma de lidiar con ceros.

Las implicaciones para las gráficas de caja de usar una escala transformada son sutiles.

Si usa la convención común de Tukey de mostrar individualmente todos los puntos más allá del cuartil superior + 1.5 IQR o el cuartil inferior - 1.5 IQR, entonces esos límites deberían calcularse en la escala transformada. Eso no es mismo que calcular esos límites en la escala original y luego transformarlos.

En cambio, apoyaría lo que parece ser una convención minoritaria de seleccionar cuantiles para los extremos de los bigotes. Una de varias ventajas de eso es que la transformación de cuantil = cuantil de transformación, al menos lo suficientemente cerca para fines gráficos en la mayoría de los casos. (La letra pequeña es cuando los cuantiles se calculan por interpolación lineal entre estadísticas de orden adyacentes).

Cleveland (1985) sugirió esta convención cuantil de manera bastante prominente. Para el registro, los gráficos de caja mejorados con cuadros a cuartiles, cuadros más delgados a octiles externos (12.5 y 87.5% puntos) y diagramas de datos de franjas fueron utilizados en geografía y climatología por (por ejemplo) Matthews (1936) y Grove (1956), bajo el nombre "diagramas de dispersión".

Más que parcelas

Las parcelas de cajas fueron reinventadas por Tukey alrededor de 1970 y promocionadas más visiblemente en su libro de 1977. Gran parte de su propósito era promover gráficos que pudieran dibujarse rápidamente con lápiz (cil) y papel en la exploración informal. También estaba sugiriendo formas de identificar posibles valores atípicos. Eso estuvo bien, pero ahora todos tenemos acceso a computadoras, no es difícil dibujar gráficos que muestren, si no todos los datos, al menos muchos más detalles. El papel de resumen de los gráficos de caja es valioso, pero un gráfico también puede mostrar la estructura fina, en caso de que sea interesante o importante. (Y lo que los investigadores piensan que no es interesante o sin importancia podría ser más sorprendente para sus lectores).

Hay mucho espacio para el desacuerdo cortés sobre exactamente lo que funciona mejor, pero las parcelas de cajas desnudas han sido bastante vendidas, en mi opinión.

Los usuarios de Stata pueden encontrar más información sobre el programa que dibujó la figura en esta publicación Statalist . Los usuarios de otro software no deberían encontrar dificultades para dibujar algo tan bueno o mejor (de lo contrario, ¿por qué usar ese software?).

Cleveland, WS 1985. Elementos de datos gráficos. Monterey, CA: Wadsworth.

Grove, AT 1956. Erosión del suelo en Nigeria. En Steel, RW y Fisher, CA (Eds) Ensayos geográficos en tierras tropicales británicas. Londres: George Philip, 79-111.

Matthews, HA 1936. Una nueva visión de algunas lluvias indias familiares. Scottish Geographical Magazine 52: 84-97.

Tukey, JW 1977. Análisis exploratorio de datos. Lectura, MA: Addison-Wesley.

Nick Cox
fuente

Nunca antes había visto semejante yuxtaposición de diagramas de caja y ECDF. ¡Realmente genial! ¿Qué piensa sobre la superposición de los dos ECDF en un panel separado?

Frank Harrell

@ Frank Harrell Gracias. La superposición también es una buena idea. Consulte, por ejemplo, stata-journal.com/sjpdf.html?articlenum=gr0018 para ver algunos ejemplos en mi trabajo.

Nick Cox

Para no quitarle nada a la excelente respuesta de Nick, que creo que vale la pena probar y votar, pero quería explorar algunas posibilidades.

Con datos tan sesgados en varios órdenes de magnitud, el trazado en una escala logarítmica es a menudo bastante revelador; tenga en cuenta que aún puede tener marcas de graduación y etiquetas de marca de graduación en los valores originales. (Estoy de acuerdo con los puntos de Nick relacionados con las transformaciones, por lo que no me extenderé más sobre eso).

Otra opción además de la transformación es hacer algo como su segundo diagrama, pero incluir una indicación de todos los valores no trazados:

$\$ ingrese la descripción de la imagen aquí

De esa forma, no eliminará los valores atípicos, solo los mostrará de manera diferente.

Sin embargo, me uniría a Frank y Nick para sugerir el uso de una pantalla más informativa que un diagrama de caja simple: la combinación de un diagrama de caja con un diagrama cuantil en la publicación de Nick parece una idea particularmente buena, aunque uno podría trazar el diagrama de cuantil ligeramente arriba (o debajo) , como aquí) el cuadro correspondiente en lugar de al lado:

$\$ ingrese la descripción de la imagen aquí

Si no está haciendo algo así (simplemente con un diagrama de caja simple, por ejemplo), sugeriría cajas sustancialmente más estrechas.

Glen_b -Reinstate a Monica
fuente

La superposición de gráficos de caja y cuantiles también es atractiva. Subraya que el diagrama de caja es una reducción del diagrama de cuantil, aunque para algunos el diagrama de caja puede parecer redundante. Para un fuerte énfasis en la relación entre los dos gráficos, véase, por ejemplo, Parzen, E. 1979. Modelado de datos estadísticos no paramétricos. Revista de la Asociación Americana de Estadística 74: 105-121

Nick Cox

¿Tiene el conjunto de datos del OP? ¿O estás raspando el gráfico / fingiéndolo?

Nick Cox

@ Nick Simplemente fingiendo, básicamente; Raspé efectivamente los puntos extremos (solo a mano, había muy pocos), y luego generé valores debajo de los cuartiles superiores al tomar muestras de 3 uniformes entre los valores conocidos (los 3 cuartiles y el mínimo), y entre los cuartiles superiores y el final de los bigotes superiores con exponenciales, luego agregué los puntos extremos en (solo para que mis diagramas de caja se vean similares). Al menos esa es la esencia de la idea. Los puntos extremos no serán precisos, por lo que los valores impresos en mi gráfico son más como ejemplos.

Glen_b -Reinstate Monica

@Glen_b Puedo hacer una pregunta por separado si lo prefiere, pero ¿qué método usó para superponer el diagrama cuantil con el diagrama de caja?

Tavrock

@Tavrock Han pasado dos años y medio desde que escribí eso, así que supongo. Lo obvio es llamar pointspara mostrar los valores cuantiles (parece algo parecido a xs=sort(x); points(ppoints(xs),xs)después de la gráfica de caja, pero en un examen minucioso los puntos están debajo de la gráfica de caja, por lo que puede haber sido trazada y luego cuadrada con add = TRUE o it puede haber sido diagrama de caja, a continuación, a continuación, los puntos diagrama de caja sobre la parte superior ... quizás

Glen_b -Reinstate Mónica

Prefiero un diagrama de caja extendido o un diagrama de violín porque contienen mucha más información. Escalo las gráficas de cajas extendidas a los cuantiles 0.01 y 0.99 de las muestras combinadas. Ver http://biostat.mc.vanderbilt.edu/wiki/pub/Main/StatGraphCourse/graphscourse.pdf para más detalles.

Frank Harrell
fuente