Aunque los otros encuestados han proporcionado ideas útiles, me encuentro en desacuerdo con algunos de sus puntos de vista. En particular, creo que los gráficos que pueden mostrar los detalles de los datos (sin estar desordenados) son más ricos y gratificantes de ver que los que resumen u ocultan abiertamente los datos, y creo que todos los datos son interesantes, no solo aquellos para computadora X. Echemos un vistazo.
(Estoy mostrando pequeñas parcelas aquí para señalar que se pueden mostrar bastantes números, en detalle, en espacios pequeños).
Este gráfico muestra los valores de datos individuales, todos de ellos. Utiliza la distancia a lo largo del eje y para representar los tiempos de computación, ya que las personas pueden comparar las distancias de manera más rápida y precisa en un eje común (como lo han demostrado los estudios de Bill Cleveland). Para garantizar que la variabilidad se entienda correctamente en el contexto del tiempo real, el eje y se extiende hasta cero: cortarlo en cualquier valor positivo exagerará la variación relativa en el tiempo, introduciendo un "Factor de mentira" (en la terminología de Tufte) .80 = 2 × 4 × 10
La geometría gráfica (marcadores de puntos versus segmentos de línea) distingue claramente la computadora X (marcadores) de la computadora Y (segmentos). Las variaciones en el simbolismo, tanto la forma como el color para los marcadores de puntos, así como la variación en la posición a lo largo del eje x distinguen claramente los programas. (El uso de la forma asegura que las distinciones persistirán incluso en una representación en escala de grises, que probablemente se encuentre en un diario impreso).
Los programas parecen no tener ningún orden inherente, por lo que no tiene sentido presentarlos alfabéticamente por sus nombres en clave "a", ..., "d". Esta libertad ha sido explotada para secuenciar los resultados por el tiempo medio requerido por la computadora X. Este simple cambio, que no requiere complejidad o tinta adicional, revela un patrón interesante: los tiempos relativos de los programas en la computadora Y difieren de los tiempos relativos en computadora X. Aunque esto puede o no ser estadísticamente significativo, es una característica de los datos que este gráfico hace evidente por casualidad. Eso es lo que esperamos que haga un buen gráfico.
Al hacer que los marcadores de puntos sean lo suficientemente grandes, casi se mezclan visualmente en una representación gráfica de la variabilidad total por programa. (La combinación pierde algo de información: no vemos exactamente dónde ocurren las superposiciones. Esto podría solucionarse moviendo ligeramente los puntos en la dirección horizontal, resolviendo así todas las superposiciones).
Este gráfico solo podría ser suficiente para presentar los datos. Sin embargo, hay más por descubrir usando las mismas técnicas para comparar tiempos de una carrera a otra.
Esta vez, la posición horizontal distingue la computadora Y de la computadora X, esencialmente mediante el uso de paneles uno al lado del otro. (Los contornos alrededor de cada panel se han borrado, ya que interferirían con las comparaciones visuales que queremos hacer en la trama). Dentro de cada panel, la posición distingue la ejecución. Exactamente como en la primera gráfica, y usando el mismo esquema de marcador para distinguir los programas, los marcadores varían en forma y color. Esto facilita las comparaciones entre las dos parcelas.
Tenga en cuenta el contraste visual en los patrones de marcadores entre los dos paneles: esto tiene una inmediatez no permitida por las tablas de números, que deben escanearse cuidadosamente antes de darse cuenta de que la computadora Y es tan consistente en sus tiempos.
Los marcadores están unidos por líneas discontinuas débiles para proporcionar conexiones visuales dentro de cada programa. Estas líneas son tinta extra, aparentemente innecesarias para presentar los datos, por lo que sospecho que el profesor Tufte las evitaría. Sin embargo, creo que sirven como guías visuales útiles para separar el desorden donde los marcadores de diferentes programas casi se superponen.
Nuevamente, supongo que las ejecuciones son independientes y, por lo tanto, el número de ejecución no tiene sentido. Una vez más podemos explotar eso: por separado dentro de cada panel, las ejecuciones se han secuenciado por el tiempo total para los cuatro algoritmos. (El eje x no etiqueta los números de ejecución, porque esto sería solo una distracción). Como en el primer gráfico, esta secuencia revela varios patrones interesantes de correlación entre los tiempos de los cuatro algoritmos dentro de cada ejecución. La mayor parte de la variación para la computadora X se debe a cambios en el algoritmo "b" (cuadrados rojos). Ya vimos eso en el primer gráfico. Sin embargo, los peores resultados totales se deben a dos largos tiempos para los algoritmos "c" y "d" (diamantes de oro y triángulos verdes, respectivamente), y estos ocurrieron dentro de las mismas dos carreras. También es interesante que los valores atípicos para los programas "a" y "c" ocurrieron en la misma ejecución. Estas observaciones podrían revelar información útil sobre la variación en el tiempo del programa para la computadora X. Son ejemplos de cómo, debido a que estos gráficos muestran los detalles de los datos (en lugar de resúmenes como barras o diagramas de caja o lo que sea), se puede ver mucho sobre la variación y las correlaciones. -pero no necesito explicar eso aquí; puedes explorarlo por ti mismo.
Construí estos gráficos sin pensar en una "historia" o "girando" los datos, porque primero quería ver qué tenían que decir los datos. Tales gráficos nunca adornarán las páginas de USA Today, tal vez, pero debido a su capacidad de revelar patrones al permitir comparaciones visuales rápidas y precisas,son buenos candidatos para comunicar resultados a una audiencia científica o técnica. (Lo que no quiere decir que no tengan fallas: hay algunas formas obvias de mejorarlas, que incluyen la inquietud en la primera y el suministro de buenas leyendas y etiquetas juiciosas en ambas). Entonces sí, estoy de acuerdo en que es importante prestar atención a la audiencia potencial, pero no estoy convencido de que los gráficos deban crearse con la intención de defender o presionar un punto de vista particular.
En resumen, me gustaría ofrecer este consejo.
Use los principios de diseño que se encuentran en la literatura sobre cartografía y neurociencia cognitiva (por ejemplo, Alan MacEachren ) para mejorar las posibilidades de que los lectores interpreten su gráfico como usted lo desee y que puedan sacar conclusiones honestas e imparciales de ellos.
Utilice los principios de diseño que se encuentran en la literatura sobre gráficos estadísticos (por ejemplo, Ed Tufte y Bill Cleveland ) para crear presentaciones informativas ricas en datos.
Experimente y sea creativo. Los principios son el punto de partida para hacer un gráfico estadístico, pero pueden romperse. Comprende qué principios estás rompiendo y por qué.
Apunte a la revelación en lugar de un simple resumen. Un gráfico satisfactorio revela claramente patrones de interés en los datos. Un gran gráfico revelará patrones inesperados y nos invita a hacer comparaciones que podríamos no haber pensado de antemano. Puede solicitarnos que hagamos nuevas preguntas y más preguntas. Así es como avanzamos nuestra comprensión.
Las tramas le permiten contar una historia, para girar los datos de la manera en que desea que el lector interprete sus resultados. ¿Cuál es el mensaje para llevar? ¿Qué quieres meter en sus mentes? Determine ese mensaje, luego piense en cómo convertirlo en una figura.
En sus tramas, no sé qué mensaje debo aprender y me devuelve demasiados datos sin procesar --- Quiero resúmenes eficientes, no los datos en sí.
Para la trama 1, preguntaría, ¿qué comparaciones quieres hacer? Los gráficos que tiene ilustran los tiempos de ejecución a través del programa para una computadora determinada. Parece que quiere hacer las comparaciones entre computadoras para un programa determinado. Si este es el caso, entonces desea que las estadísticas para el programa a en la computadora x estén en la misma gráfica que las estadísticas para el programa a en la computadora y. Pondría las 8 cajas en sus dos diagramas de caja en la misma figura, ordenado ax, ay, bx, por, ... para facilitar la comparación que realmente está haciendo.
Lo mismo ocurre con la trama 2, pero encuentro esta trama extraña. Básicamente, está mostrando cada punto de datos que tiene: un cuadro para cada ejecución y una ejecución solo tiene 4 observaciones. ¿Por qué no solo darme un diagrama de caja de los tiempos de ejecución totales para la computadora x y uno para la computadora y?
La misma crítica de "demasiados datos" se aplica también a su último argumento. La gráfica 3 no agrega ninguna información nueva a la gráfica 2. Puedo obtener el tiempo total si simplemente multiplico el tiempo medio por 4 en la gráfica 2. Aquí, también, podría trazar una caja para la computadora x e y, pero estas literalmente serán múltiplos de la trama que propuse para reemplazar la trama 2.
Estoy de acuerdo con @Andy W en que la computadora no es tan interesante y tal vez quieras decirlo y excluirlo de las parcelas por brevedad (aunque creo que las sugerencias que hice pueden ayudarte a recortar estas parcelas). Sin embargo, no creo que las mesas sean muy buenas.
fuente
Sus gráficas me parecen bien, y si tiene restricciones de espacio, podría colocarlas todas en una gráfica en lugar de tres (por ejemplo, usarlas
par(mfrow=c(3,2))
y luego simplemente enviarlas al mismo dispositivo).Sin embargo
Machine Y
, no hay mucho que informar , literalmente no tiene variación, excepto para el programab
. Creo que los gráficos son informativos para ver no solo cuánto duran los tiempos de ejecuciónMachine X
sino también cuánto varían los tiempos de ejecución.Sin embargo, si este es realmente su caso de uso, es tan simple que colocar todos los datos en una tabla sería suficiente para demostrar la diferencia entre las máquinas (aunque creo que los gráficos siguen siendo útiles si puede permitirse espacio para colocarlos en la tabla). documento también).
fuente