En mi humilde opinión, quien omitió por primera vez el momento preciso de los cambios number of cars
es el primero responsable de los resultados engañosos. Si tuviera esta información (incluso si se midiera con error), time
sería una variable continua adecuada, no una variable continua agrupada (véase Anderson, 1984) necesariamente. Sería libre de agrupar las observaciones en hour
contenedores basados en la base si realmente quisiera, en ese momento asumiría la responsabilidad de obtener resultados engañosos. De lo contrario, al preservar tiempos precisos de llegada, podría graficar su number of cars
series de tiemposobre continuo con time
precisión.
De todos modos, suponiendo que está pegado con number of cars
porhour
, Estoy de acuerdo con @John, deberías dibujar una línea que conecte tus observaciones por hora. Si le falta información sobre cuándo ocurrió cada cambio incremental, es bastante difícil decir que está engañando a alguien a menos que no describa los límites de la información graficada. Del mismo modo, si grafica sus datos por hora con un gráfico de barras simple sin una línea que conecte los contenedores, no es realmente culpable de engañar a nadie si no afirma que los cambios entre las observaciones por hora ocurren exactamente como se muestra, en la hora, de repente. Si alguien malinterpreta (como probablemente ocurrirá con cualquier estadística o información suficientemente publicitada), no será el caso que lo haya confundido, especialmente si describe sus datos y el procedimiento de recopilación con suficiente detalle. Esto no debería ser difícil de hacer.
Dada la claridad básica y exhaustiva de los datos y las descripciones de los gráficos, no debería haber ninguna desventaja de dibujar una línea para conectar sus contenedores. La ventaja de conectar sus contenedores es, de hecho, lo que parece pensar es la desventaja: dibujar esas líneas imita una ecuación decente a medias para la number of cars
función de continuo time
, a pesar de que se basa en observaciones discretas por hora. Puede usar una línea recta entre observaciones para representar una suposición bastante razonable de que el cambio se produce linealmente sobre cada uno hour
, no todos a la vez. Basado en tal suposición, cualquier lector puede hacer una suposición decente de que minute
después de una hour
medición dada verá el próximo auto llegar o salir por este procedimiento de cuatro pasos de sentido común:
- Encuentre el punto en la línea donde la observación anterior
number of cars
=1+hour
- Dibuje una línea recta desde este punto para encontrar dónde se cruza con el
hour
eje.
- Mida el
distance
punto de este punto en el hour
eje desde el punto de la observación anterior.
distance
÷ distance between observations
×60= minute
después hour
de la llegada del próximo automóvil.
Por supuesto, también se puede estimar la llegada del próximo automóvil al segundo preciso, y no se puede evitar que los lectores hagan esto al no proporcionar la línea; dibujar la línea se convierte en el primero de los cinco pasos. Por lo tanto, si alguien realmente quiere saber cuántos autos había allí mientras tanto ... bueno, no pueden, porque la información no está disponible, pero pueden estimar. Si les quitas un paso del proceso, imagino que te lo agradecerán.
Hacer esto para sus lectores con líneas simples y rectas solo implica su comodidad con la suposición de que el cambio se produce linealmente entre observaciones por hora, o más expresamente, su desinterés por cualquier inexactitud en esta suposición. Las imprecisiones no son difíciles de imaginar. Primero, el cambio ocurre necesariamente como una función no lineal de cero inflado de time
. No es lineal porque el evento de cambio es ternario : un automóvil llega, sale o ninguno de los dos, los automóviles no llegan o salen en incrementos fraccionados. Está inflado a cero porque la mayoría de los momentos en el tiempo no verán un automóvil llegar o salir. Puede evitar esto tratando la línea como si describiera probability
que los automóviles llegarán o saldrán en cualquier momento para alcanzar el número entero más cercano.
Aún queda otra inexactitud de la suposición detrás de las líneas rectas entre las observaciones por hora. Puede esperar que la tasa de cambio (en términos de probability
lo anterior) cambie más suavemente con el tiempo de lo que implican sus líneas rectas dibujadas por separado entre puntos. En términos más matemáticos, es posible que desee que la derivada de su función number of cars
( hour
) sea continua a través de hour
s. Es posible que pueda hacer esto ajustando una función polinómica a sus datos, pero si su propósito es predictivo, tenga cuidado consobreajuste.
Otra ventaja de las líneas sobre las barras de estilo de histograma (es decir, sin espacio intermedio para valores adyacentes de hour
... y mucho menos gráficos con barras que no se "tocan" entre sí) surge de su lot
variable politómica . Puede superponer sus series de tiempo separadas para cada lote en el mismo gráfico para facilitar las comparaciones, lo que le ayudará a ver si su lot
variable es interesante. Aquí hay una demostración con algunos datos inventados:
Felicitaciones a McCown !
Ni siquiera voy a tratar de descubrir cómo hacerlo coherentemente con barras; Se lo dejo a @ ChristianStade-Schuldt;) Para ser justos, es aún más fácil no conectar estos puntos como sugirió, pero agregar las líneas ayuda a desambiguar los puntos correspondientes a series de tiempo separadas entre sí. Al final, seguirá siendo un poco subjetivo, así que juzga por ti mismo:

Por mi parte, me encuentro dibujando las líneas en mi mente de todos modos. Por cierto, si siente que las líneas en la primera figura restan algo al impacto visual de los puntos exactos, no olvide que siempre puede aumentar el tamaño de los puntos, cambiar su forma o presentar sus valores numéricamente en una tabla separada .
Referencia
Anderson, JA (1984). Regresión y variables categóricas ordenadas. Revista de la Real Sociedad Estadística B, 46 , 1–30.