Tanto la gráfica de caja y bigotes como el gráfico de barras son gráficos apropiados para ANOVA según The R Book (Crawley, 2013), pero ¿ cuál es más apropiado ? Supongo que depende de la situación ... ¿alguien puede ayudarme?
boxplot
rule-of-thumb
barplot
Ladislav Naďo
fuente
fuente
Respuestas:
Específicamente para la ilustración gráfica de ANOVA:
Un diagrama de caja o gráfico de barras es mucho mejor que nada gráficamente para ANOVA, pero como se traza comúnmente, ambos son indirectos o incompletos como un resumen gráfico.
ANOVA trata sobre comparaciones de medias en un contexto de variaciones de uno o más tipos, por lo que el gráfico más apropiado mostraría, como mínimo, las medias y los datos en bruto. Las desviaciones estándar de grupo (SD) o cantidades relacionadas no harían daño.
Aunque algunas variedades de diagramas de caja muestran medios y medianas, el tipo estándar muestra medianas, cuartiles y alguna información en las colas de la distribución. La variante más común parece ser aquella en la que se muestran puntos de datos individuales si y solo si se encuentran a más de 1.5 IQR del cuartil más cercano. Es decir: rango intercuartil IQR cuartil superior cuartil inferior, por lo tanto, trace como valores de puntos mayores que el cuartil superior 1.5 IQR o menores que el cuartil inferior- + -= - + - 1.5 IQR. Tal convención puede ser útil para mostrar valores atípicos gruesos que pueden ser problemáticos para ANOVA, pero ni las medianas ni los cuartiles juegan ningún papel en ANOVA y si los medios aproximados de las medianas son un punto a verificar, no se supone. Comúnmente, los analistas de datos experimentados toman, por ejemplo, valores atípicos marcados pronunciados y / o asimetría de distribución como un signo de un problema que necesita acción, como la transformación de los datos o la necesidad de un modelo lineal generalizado con una función de enlace de no identidad. Sin embargo, es sorprendente cuántos libros de texto y otras cuentas muestran diagramas de caja cuando se presenta un ANOVA, pero no mencionan los elefantes que no están en la habitación, los medios que no están trazados.
Por el contrario, el tipo de gráfico de barras más común en este contexto resume los datos por medios y SD o errores estándar, pero de lo contrario omite cualquier visualización de puntos de datos individuales. Entonces, por ejemplo, los valores atípicos o la asimetría marcada solo pueden inferirse a partir de medios fuera de línea o variabilidad inflada dentro de los grupos individuales.
En general, hay muchas sugerencias sobre qué tipos de gráficos son útiles, pero hay poco consenso sobre cuáles son los mejores. Sugeriría como criterio que un buen gráfico muestra
El patrón completo de variación en los datos, al menos como telón de fondo o contexto.
Resúmenes relevantes de los datos, específicamente aquellos relevantes para el modelo entretenido o los descriptores considerados
Indicaciones de posibles problemas con los datos que ponen en duda los supuestos que se están haciendo.
Existen varios diseños que ayudan con ANOVA, como los gráficos de puntos o franjas con medios adicionales y SE.
Este artículo de John Tukey explica la diferencia entre gráficos de propaganda y gráficos analíticos que es pertinente aquí. Demasiadas ilustraciones gráficas de ANOVA son gráficos de propaganda (¡mira! Los grupos son muy diferentes) sin mucho análisis (¿y qué más podemos aprender sobre los datos o las limitaciones de la técnica en esta aplicación?).
fuente
No se confunda entre los gráficos de barras (se usa una barra para mostrar cada cantidad de interés) y los gráficos de dinamita (una barra muestra el promedio de cada grupo, más las barras de error). Los gráficos de dinamita NUNCA son aceptables porque ocultan la distribución de los datos sin ningún motivo.
Sí, me doy cuenta de que este es, con mucho, el tipo de trama más común. Es un gran problema que refleja la importancia (baja) que los investigadores otorgan a la forma de sus datos. Si fueras un detective buscando un arma homicida, ¿sería mejor si un testigo te dijera 1) solo la ubicación y el tamaño del arma? o 2) la ubicación, el tamaño y la forma?
http://biostat.mc.vanderbilt.edu/wiki/pub/Main/TatsukiRcode/Poster3.pdf
fuente