Reglas de “cuándo usar boxplot y when barplot” (¿de pulgar?)

14

Tanto la gráfica de caja y bigotes como el gráfico de barras son gráficos apropiados para ANOVA según The R Book (Crawley, 2013), pero ¿ cuál es más apropiado ? Supongo que depende de la situación ... ¿alguien puede ayudarme?

Ladislav Naďo
fuente
55
" Aunque un problema podría resolverse mediante varias pruebas alternativas, siempre hay una sola que es la más apropiada para usar ", no estoy de acuerdo con esa oración; No creo que siempre sea cierto.
Glen_b -Reinstale a Monica
55
Estoy de acuerdo con @Glen_b aquí y sugiero que incluso esta redacción pierda el punto clave. Identificar la prueba más apropiada depende mínimamente de conocer el proceso de generación exacto de los datos, lo cual es, digamos, inusual. Es más común que haya varias pruebas posibles con diferentes ventajas y desventajas.
Nick Cox
1
No creo que siquiera mencionaría las pruebas (hipótesis o significación) en ninguna caracterización breve del buen pensamiento estadístico ... Sin embargo, creo que este es un tema secundario. Su pregunta es lo suficientemente clara sin ella.
Nick Cox

Respuestas:

18

Específicamente para la ilustración gráfica de ANOVA:

  • Un diagrama de caja o gráfico de barras es mucho mejor que nada gráficamente para ANOVA, pero como se traza comúnmente, ambos son indirectos o incompletos como un resumen gráfico.

  • ANOVA trata sobre comparaciones de medias en un contexto de variaciones de uno o más tipos, por lo que el gráfico más apropiado mostraría, como mínimo, las medias y los datos en bruto. Las desviaciones estándar de grupo (SD) o cantidades relacionadas no harían daño.

  • Aunque algunas variedades de diagramas de caja muestran medios y medianas, el tipo estándar muestra medianas, cuartiles y alguna información en las colas de la distribución. La variante más común parece ser aquella en la que se muestran puntos de datos individuales si y solo si se encuentran a más de 1.5 IQR del cuartil más cercano. Es decir: rango intercuartil IQR cuartil superior cuartil inferior, por lo tanto, trace como valores de puntos mayores que el cuartil superior 1.5 IQR o menores que el cuartil inferior- + -=+1.5 IQR. Tal convención puede ser útil para mostrar valores atípicos gruesos que pueden ser problemáticos para ANOVA, pero ni las medianas ni los cuartiles juegan ningún papel en ANOVA y si los medios aproximados de las medianas son un punto a verificar, no se supone. Comúnmente, los analistas de datos experimentados toman, por ejemplo, valores atípicos marcados pronunciados y / o asimetría de distribución como un signo de un problema que necesita acción, como la transformación de los datos o la necesidad de un modelo lineal generalizado con una función de enlace de no identidad. Sin embargo, es sorprendente cuántos libros de texto y otras cuentas muestran diagramas de caja cuando se presenta un ANOVA, pero no mencionan los elefantes que no están en la habitación, los medios que no están trazados.

  • Por el contrario, el tipo de gráfico de barras más común en este contexto resume los datos por medios y SD o errores estándar, pero de lo contrario omite cualquier visualización de puntos de datos individuales. Entonces, por ejemplo, los valores atípicos o la asimetría marcada solo pueden inferirse a partir de medios fuera de línea o variabilidad inflada dentro de los grupos individuales.

En general, hay muchas sugerencias sobre qué tipos de gráficos son útiles, pero hay poco consenso sobre cuáles son los mejores. Sugeriría como criterio que un buen gráfico muestra

  • El patrón completo de variación en los datos, al menos como telón de fondo o contexto.

  • Resúmenes relevantes de los datos, específicamente aquellos relevantes para el modelo entretenido o los descriptores considerados

  • Indicaciones de posibles problemas con los datos que ponen en duda los supuestos que se están haciendo.

Existen varios diseños que ayudan con ANOVA, como los gráficos de puntos o franjas con medios adicionales y SE.

Este artículo de John Tukey explica la diferencia entre gráficos de propaganda y gráficos analíticos que es pertinente aquí. Demasiadas ilustraciones gráficas de ANOVA son gráficos de propaganda (¡mira! Los grupos son muy diferentes) sin mucho análisis (¿y qué más podemos aprender sobre los datos o las limitaciones de la técnica en esta aplicación?).

Nick Cox
fuente
Entonces, ¿qué tal las parcelas de violín con, idealmente, con medias, SD y valores atípicos dibujados?
ziggystar
Las parcelas de violín pueden ser útiles. Personalmente, prefiero algo más cercano a los datos sin procesar, para que también pueda ver la modalidad y la granularidad.
Nick Cox
8

No se confunda entre los gráficos de barras (se usa una barra para mostrar cada cantidad de interés) y los gráficos de dinamita (una barra muestra el promedio de cada grupo, más las barras de error). Los gráficos de dinamita NUNCA son aceptables porque ocultan la distribución de los datos sin ningún motivo.

Sí, me doy cuenta de que este es, con mucho, el tipo de trama más común. Es un gran problema que refleja la importancia (baja) que los investigadores otorgan a la forma de sus datos. Si fueras un detective buscando un arma homicida, ¿sería mejor si un testigo te dijera 1) solo la ubicación y el tamaño del arma? o 2) la ubicación, el tamaño y la forma?

http://biostat.mc.vanderbilt.edu/wiki/pub/Main/TatsukiRcode/Poster3.pdf

Lívido
fuente
¿Tiene otros recursos sobre por qué las parcelas de dinamita no son ideales?
mguzmann
@mguzmann Lo siento, no lo hago. También me pregunté a quién se le ocurrió la idea, su adopción con el tiempo, etc. y no pude encontrar nada al respecto. Me imagino que evolucionó a partir de tablas de informes de medias +/- error en los días anteriores a las computadoras. He visto documentos de la década de 1930 que logran publicar tablas del conjunto de datos completo, por lo que tampoco estoy seguro de que esa práctica haya estado realmente justificada. Por ejemplo: Hedrich AW. Estimaciones mensuales de la población infantil "susceptible" al sarampión, 1900–1931, Baltimore, Maryland. Am J Hyg 1933; 17: 613-636.
Livid