Hay una variedad de razones para conectar los puntos en un gráfico. Si solo muestra una categoría de valores (es decir, si hay una línea, solo habrá una), entonces la regla de continuo versus discreto es generalmente buena para cumplirla. Sin embargo, incluso los valores discretos o categóricos se pueden conectar cuando se requieren varias líneas para facilitar el seguimiento de la variación del patrón a través del eje x. El punto es hacer una historia coherente, y si una línea hace que la historia sea más sensible o más fácil de seguir, agréguela. Si le resta valor, retírelo.
En su caso, un gráfico con un punto para cada lote y horas en el eje x estaría muy inclinado a trazar líneas que conectan las horas para cada lote. Y, si bien tiene medias en horas, los valores del eje x son medidos por intervalos y teóricamente continuos (se podría argumentar que todos los continuos son medidos por intervalos), por lo que hay una mayor justificación allí.
En cuanto a bares, como otros carteles mencionados. Casi siempre los evito. Un punto suele ser mejor incluso para los tipos de datos que normalmente se consideran rellenos con barras.
También considere que, a menos que los estacionamientos sean del mismo tamaño, la cantidad de automóviles es engañosa. Un gráfico con área fija y barras típicas implica que cada barra representa el mismo relleno de elementos en el espacio por igual. Solo resuelve parcialmente ese problema con proporciones de automóviles en los lotes. Una alternativa cuando solo hay un período de tiempo sería tener barras vacías que indiquen el tamaño de los lotes y luego llenarlas con la cantidad de autos. Pero esto sería demasiado complejo cuando se demuestren lotes múltiples. Los gráficos de líneas de la proporción de llenado conectado durante horas con una línea para cada lote son la mejor manera de llegar aquí.
En mi humilde opinión, quien omitió por primera vez el momento preciso de los cambios
number of cars
es el primero responsable de los resultados engañosos. Si tuviera esta información (incluso si se midiera con error),time
sería una variable continua adecuada, no una variable continua agrupada (véase Anderson, 1984) necesariamente. Sería libre de agrupar las observaciones enhour
contenedores basados en la base si realmente quisiera, en ese momento asumiría la responsabilidad de obtener resultados engañosos. De lo contrario, al preservar tiempos precisos de llegada, podría graficar sunumber of cars
series de tiemposobre continuo contime
precisión.De todos modos, suponiendo que está pegado con
number of cars
porhour
, Estoy de acuerdo con @John, deberías dibujar una línea que conecte tus observaciones por hora. Si le falta información sobre cuándo ocurrió cada cambio incremental, es bastante difícil decir que está engañando a alguien a menos que no describa los límites de la información graficada. Del mismo modo, si grafica sus datos por hora con un gráfico de barras simple sin una línea que conecte los contenedores, no es realmente culpable de engañar a nadie si no afirma que los cambios entre las observaciones por hora ocurren exactamente como se muestra, en la hora, de repente. Si alguien malinterpreta (como probablemente ocurrirá con cualquier estadística o información suficientemente publicitada), no será el caso que lo haya confundido, especialmente si describe sus datos y el procedimiento de recopilación con suficiente detalle. Esto no debería ser difícil de hacer.Dada la claridad básica y exhaustiva de los datos y las descripciones de los gráficos, no debería haber ninguna desventaja de dibujar una línea para conectar sus contenedores. La ventaja de conectar sus contenedores es, de hecho, lo que parece pensar es la desventaja: dibujar esas líneas imita una ecuación decente a medias para la
number of cars
función de continuotime
, a pesar de que se basa en observaciones discretas por hora. Puede usar una línea recta entre observaciones para representar una suposición bastante razonable de que el cambio se produce linealmente sobre cada unohour
, no todos a la vez. Basado en tal suposición, cualquier lector puede hacer una suposición decente de queminute
después de unahour
medición dada verá el próximo auto llegar o salir por este procedimiento de cuatro pasos de sentido común:number of cars
hour
hour
eje.distance
punto de este punto en elhour
eje desde el punto de la observación anterior.distance
distance between observations
minute
despuéshour
de la llegada del próximo automóvil.Por supuesto, también se puede estimar la llegada del próximo automóvil al segundo preciso, y no se puede evitar que los lectores hagan esto al no proporcionar la línea; dibujar la línea se convierte en el primero de los cinco pasos. Por lo tanto, si alguien realmente quiere saber cuántos autos había allí mientras tanto ... bueno, no pueden, porque la información no está disponible, pero pueden estimar. Si les quitas un paso del proceso, imagino que te lo agradecerán.
Hacer esto para sus lectores con líneas simples y rectas solo implica su comodidad con la suposición de que el cambio se produce linealmente entre observaciones por hora, o más expresamente, su desinterés por cualquier inexactitud en esta suposición. Las imprecisiones no son difíciles de imaginar. Primero, el cambio ocurre necesariamente como una función no lineal de cero inflado de
time
. No es lineal porque el evento de cambio es ternario : un automóvil llega, sale o ninguno de los dos, los automóviles no llegan o salen en incrementos fraccionados. Está inflado a cero porque la mayoría de los momentos en el tiempo no verán un automóvil llegar o salir. Puede evitar esto tratando la línea como si describieraprobability
que los automóviles llegarán o saldrán en cualquier momento para alcanzar el número entero más cercano.Aún queda otra inexactitud de la suposición detrás de las líneas rectas entre las observaciones por hora. Puede esperar que la tasa de cambio (en términos de
probability
lo anterior) cambie más suavemente con el tiempo de lo que implican sus líneas rectas dibujadas por separado entre puntos. En términos más matemáticos, es posible que desee que la derivada de su funciónnumber of cars
(hour
) sea continua a través dehour
s. Es posible que pueda hacer esto ajustando una función polinómica a sus datos, pero si su propósito es predictivo, tenga cuidado consobreajuste.Otra ventaja de las líneas sobre las barras de estilo de histograma (es decir, sin espacio intermedio para valores adyacentes de
hour
... y mucho menos gráficos con barras que no se "tocan" entre sí) surge de sulot
variable politómica . Puede superponer sus series de tiempo separadas para cada lote en el mismo gráfico para facilitar las comparaciones, lo que le ayudará a ver si sulot
variable es interesante. Aquí hay una demostración con algunos datos inventados:Felicitaciones a McCown !
Ni siquiera voy a tratar de descubrir cómo hacerlo coherentemente con barras; Se lo dejo a @ ChristianStade-Schuldt;) Para ser justos, es aún más fácil no conectar estos puntos como sugirió, pero agregar las líneas ayuda a desambiguar los puntos correspondientes a series de tiempo separadas entre sí. Al final, seguirá siendo un poco subjetivo, así que juzga por ti mismo:
Por mi parte, me encuentro dibujando las líneas en mi mente de todos modos. Por cierto, si siente que las líneas en la primera figura restan algo al impacto visual de los puntos exactos, no olvide que siempre puede aumentar el tamaño de los puntos, cambiar su forma o presentar sus valores numéricamente en una tabla separada .
Referencia
Anderson, JA (1984). Regresión y variables categóricas ordenadas. Revista de la Real Sociedad Estadística B, 46 , 1–30.
fuente
Una línea continua indica un continuo. Si se trazan los promedios, consideraría usar un diagrama de barras o un diagrama de escalones. También es posible trazar puntos individuales, y cuando se trata de promedios, probablemente puede agregar información de desviación estándar según sea necesario.
fuente
No conectaría esos puntos porque esos son valores discretos. Dependiendo de la cantidad de puntos de datos, puede usar un gráfico de columna / barra o solo puntos.
fuente