Podría usar alguna orientación sobre la presentación de algunos datos.
Este primer gráfico es una comparación de casos y controles para la citocina IL-10. He configurado manualmente el eje y para incluir el 99% de los datos.
La razón por la que configuré esto manualmente es porque el grupo de casos tiene un valor atípico extremo.
Mis colaboradores dudan en realizar una eliminación atípica de nuestro conjunto de datos. Estoy de acuerdo con eso, pero prefieren no hacerlo. Esa sería la solución obvia. Pero si voy a mantener todos los datos y no eliminar este valor atípico, ¿cómo puedo presentar este diagrama de caja de manera óptima? Eje dividido? ¿Es aceptable usar solo el primer gráfico y observar que fue construido para incluir todos los datos? (Esta opción me parece deshonesta). Cualquier consejo sería genial.
Respuestas:
Yo diría que con datos como estos realmente necesita mostrar resultados en una escala transformada. Ese es el primer imperativo y una cuestión más importante que precisamente cómo dibujar un diagrama de caja.
Pero me hago eco de Frank Harrell al instar a algo más informativo que un diagrama de caja mínimo, incluso con algunos puntos extremos identificados. Tienes suficiente espacio para mostrar mucha más información. Aquí hay uno de los muchos ejemplos, una caja híbrida y una gráfica cuantil. Al igual que en sus datos, se comparan dos grupos.
Tomaré estos dos puntos uno por uno y diré más.
Escala transformada
En el caso más simple, todos sus valores pueden ser positivos y luego debe intentar usar una escala logarítmica.
Si tiene ceros exactos, una escala de raíz cuadrada o raíz cúbica seguirá mejorando la asimetría extrema. Algunas personas están contentas con log (valor + constante), donde constante es más comúnmente 1, como una forma de lidiar con ceros.
Las implicaciones para las gráficas de caja de usar una escala transformada son sutiles.
Si usa la convención común de Tukey de mostrar individualmente todos los puntos más allá del cuartil superior + 1.5 IQR o el cuartil inferior - 1.5 IQR, entonces esos límites deberían calcularse en la escala transformada. Eso no es mismo que calcular esos límites en la escala original y luego transformarlos.
En cambio, apoyaría lo que parece ser una convención minoritaria de seleccionar cuantiles para los extremos de los bigotes. Una de varias ventajas de eso es que la transformación de cuantil = cuantil de transformación, al menos lo suficientemente cerca para fines gráficos en la mayoría de los casos. (La letra pequeña es cuando los cuantiles se calculan por interpolación lineal entre estadísticas de orden adyacentes).
Cleveland (1985) sugirió esta convención cuantil de manera bastante prominente. Para el registro, los gráficos de caja mejorados con cuadros a cuartiles, cuadros más delgados a octiles externos (12.5 y 87.5% puntos) y diagramas de datos de franjas fueron utilizados en geografía y climatología por (por ejemplo) Matthews (1936) y Grove (1956), bajo el nombre "diagramas de dispersión".
Más que parcelas
Las parcelas de cajas fueron reinventadas por Tukey alrededor de 1970 y promocionadas más visiblemente en su libro de 1977. Gran parte de su propósito era promover gráficos que pudieran dibujarse rápidamente con lápiz (cil) y papel en la exploración informal. También estaba sugiriendo formas de identificar posibles valores atípicos. Eso estuvo bien, pero ahora todos tenemos acceso a computadoras, no es difícil dibujar gráficos que muestren, si no todos los datos, al menos muchos más detalles. El papel de resumen de los gráficos de caja es valioso, pero un gráfico también puede mostrar la estructura fina, en caso de que sea interesante o importante. (Y lo que los investigadores piensan que no es interesante o sin importancia podría ser más sorprendente para sus lectores).
Hay mucho espacio para el desacuerdo cortés sobre exactamente lo que funciona mejor, pero las parcelas de cajas desnudas han sido bastante vendidas, en mi opinión.
Los usuarios de Stata pueden encontrar más información sobre el programa que dibujó la figura en esta publicación Statalist . Los usuarios de otro software no deberían encontrar dificultades para dibujar algo tan bueno o mejor (de lo contrario, ¿por qué usar ese software?).
Cleveland, WS 1985. Elementos de datos gráficos. Monterey, CA: Wadsworth.
Grove, AT 1956. Erosión del suelo en Nigeria. En Steel, RW y Fisher, CA (Eds) Ensayos geográficos en tierras tropicales británicas. Londres: George Philip, 79-111.
Matthews, HA 1936. Una nueva visión de algunas lluvias indias familiares. Scottish Geographical Magazine 52: 84-97.
Tukey, JW 1977. Análisis exploratorio de datos. Lectura, MA: Addison-Wesley.
fuente
Para no quitarle nada a la excelente respuesta de Nick, que creo que vale la pena probar y votar, pero quería explorar algunas posibilidades.
Con datos tan sesgados en varios órdenes de magnitud, el trazado en una escala logarítmica es a menudo bastante revelador; tenga en cuenta que aún puede tener marcas de graduación y etiquetas de marca de graduación en los valores originales. (Estoy de acuerdo con los puntos de Nick relacionados con las transformaciones, por lo que no me extenderé más sobre eso).
Otra opción además de la transformación es hacer algo como su segundo diagrama, pero incluir una indicación de todos los valores no trazados:
De esa forma, no eliminará los valores atípicos, solo los mostrará de manera diferente.
Sin embargo, me uniría a Frank y Nick para sugerir el uso de una pantalla más informativa que un diagrama de caja simple: la combinación de un diagrama de caja con un diagrama cuantil en la publicación de Nick parece una idea particularmente buena, aunque uno podría trazar el diagrama de cuantil ligeramente arriba (o debajo) , como aquí) el cuadro correspondiente en lugar de al lado:
Si no está haciendo algo así (simplemente con un diagrama de caja simple, por ejemplo), sugeriría cajas sustancialmente más estrechas.
fuente
points
para mostrar los valores cuantiles (parece algo parecido axs=sort(x); points(ppoints(xs),xs)
después de la gráfica de caja, pero en un examen minucioso los puntos están debajo de la gráfica de caja, por lo que puede haber sido trazada y luego cuadrada con add = TRUE o it puede haber sido diagrama de caja, a continuación, a continuación, los puntos diagrama de caja sobre la parte superior ... quizásPrefiero un diagrama de caja extendido o un diagrama de violín porque contienen mucha más información. Escalo las gráficas de cajas extendidas a los cuantiles 0.01 y 0.99 de las muestras combinadas. Ver http://biostat.mc.vanderbilt.edu/wiki/pub/Main/StatGraphCourse/graphscourse.pdf para más detalles.
fuente