Tengo un pequeño conjunto de datos de 14 veces separadas para completar una tarea. Sin embargo, estoy teniendo dificultades para encontrar un gráfico apropiado para usar para graficar los datos. Si la muestra fuera más grande, usaría un diagrama de caja o un histograma, pero no estoy seguro de si sería apropiado usarlo en este caso cuando la muestra es tan pequeña.
Actualización: Los tiempos son 5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2
Respuestas:
Creo que el principio fundamental aquí es que puedes y debes mostrar todos los valores individuales. Incluso si el detalle no es obviamente interesante o útil, no hay razón para no mostrarlo, o para obligar al lector a decodificar (digamos) un histograma en el que las barras podrían representar solo uno o dos valores.
Ofrezco aquí un pequeño compuesto. Arriba a la izquierda hay un diagrama de puntos o franjas (se han utilizado al menos otros veinte nombres para la misma idea) presentados horizontalmente y arriba a la derecha la misma idea presentada verticalmente. Las instancias del mismo valor se corresponden por apilamiento.
En la parte inferior hay una gráfica de caja de cuantiles, en el sentido de Parzen, en la que la escala horizontal tácita es la probabilidad acumulativa (posición de la gráfica, en una jerga común) y la caja convencional de mediana y cuartiles se puede dibujar de modo que (en principio) la mitad los valores están dentro del cuadro, como siempre se anuncia, y la mitad de los valores afuera. La línea horizontal adicional aquí representa la media. Algunas personas agregan medios a los diagramas de cajas como un punto extra o símbolo de marcador; Creo que puede chocar con mostrar los datos ellos mismos, y prefiero una línea adicional. Si la línea para la mediana y la línea para la media parecieran coincidir, deberías pensar qué hacer. Casi siempre la media y la mediana son perceptiblemente diferentes.
Podría decirse que es estándar hacer explícitas las unidades de medida en el gráfico, pero no veo cuáles son.
(Deliberadamente, empujé un punto extra aquí, que es que los gráficos pueden ser muy pequeños pero aún informativos. En la práctica, no los haría tan pequeños).
EDITAR:
Referencias cruzadas agregadas a gráficos de caja de cuantiles en sentido amplio en el sentido de Parzen (más referencias en el segundo a continuación; existen otros usos de "gráficos de caja de cuantiles")
¿Cómo puedo medir la diferencia entre datos no paramétricos con muchos ceros?
¿Cómo usar boxplots para encontrar el punto donde los valores tienen más probabilidades de provenir de diferentes condiciones?
¿Cómo visualizar una prueba t de dos muestras independiente?
¿Cómo obtengo qué experimento funciona mejor con la prueba U de Mann-Whitney?
Shera, DM 1991. Algunos usos de las gráficas de cuantiles para mejorar la presentación de datos. Computing Science and Statistics 23: 50-53.
Militký, J. y M. Meloun. 1993. Algunas ayudas gráficas para el análisis de datos exploratorios univariados. Analytica Chimica Acta 277: 215-221.
Meloun, M. y J. Militký. 1994. Tratamiento de datos asistido por computadora en quimiometría analítica. I. Análisis exploratorio de datos univariados. Chemical Papers 48: 151-157.
EDITAR 2:
El punto principal de estos hilos no es solo responder la pregunta inmediata, sino tocar preguntas muy similares que podrían interesar a otros.
Algunos otros diseños de gráficos en otras respuestas aquí muestran identificadores, etiquetados agnósticamente 1 ... 14 en ausencia de otros detalles. Suponiendo que estos y otros identificadores fueran de utilidad en la interpretación, un diseño simple para mostrarlos es un gráfico de puntos (Cleveland). Aquí hay dos posibilidades, en las cuales el orden del identificador se respeta literalmente (izquierda) y en el que los valores se ordenan (derecha). Hay mucho espacio para etiquetas más largas si es necesario.
Una ventaja de este diseño sobre los gráficos de barras es que la respuesta o el eje de resultados pueden comenzar en un valor que no sea cero si parece una mejor opción.
Rotación de los gráficos para que el eje de respuesta sea vertical también se puede imaginar fácilmente.
fuente
@Nick Cox ya ha dado algunos buenos ejemplos, otras dos opciones que uso con cierta frecuencia son el diagrama de caja con puntos superpuestos, o temblando ligeramente,
Con código R
EDITAR: También puede usar una trama de violín si así lo desea
fuente
Su pregunta me recordó la técnica descrita en esta publicación de blog . Se trata de la visualización de eventos discretos.
El truco central es trazar
the time before an event
xthe time after an event
.Esto puede ser por casualidad, pero el área central superior no contiene datos. Entonces hay alguna estructura visible.
El
R
código rápido y sucio .fuente
text
toma argumentos vectoriales,text(x, y, 1:12)
debería funcionar.Otra idea, ya que estás usando el tiempo.
Un trazado de pista de carreras, un diagrama de barras con coordenadas polares, produce el mismo efecto que un cronómetro:
Idealmente, las etiquetas de observación se superpondrían en las barras o al menos en el otro extremo. En este momento, el espectador tiene el esfuerzo adicional de realizar un seguimiento de qué observación es cuál (arriba / abajo) al hacer cualquier comparación.
fuente