Conectando los puntos en un gráfico

8

Dado un gráfico que es el producto de una ecuación, podemos calcular significativamente cualquier punto que resuelva la ecuación y, en consecuencia, también una línea que pase por los puntos. La línea, en cualquiera de sus puntos, es la respuesta.

Pero ¿qué pasa con medidas como "número de automóviles por hora / estacionamiento"? ¿Tiene sentido conectar los puntos de cada medida por hora? ¿No nos llevaría esto a resultados falsos, o al menos a resultados engañosos, ya que no sabemos cuántos automóviles hubo mientras tanto?

data-visualization Quora Feans
fuente

8

Hay una variedad de razones para conectar los puntos en un gráfico. Si solo muestra una categoría de valores (es decir, si hay una línea, solo habrá una), entonces la regla de continuo versus discreto es generalmente buena para cumplirla. Sin embargo, incluso los valores discretos o categóricos se pueden conectar cuando se requieren varias líneas para facilitar el seguimiento de la variación del patrón a través del eje x. El punto es hacer una historia coherente, y si una línea hace que la historia sea más sensible o más fácil de seguir, agréguela. Si le resta valor, retírelo.

En su caso, un gráfico con un punto para cada lote y horas en el eje x estaría muy inclinado a trazar líneas que conectan las horas para cada lote. Y, si bien tiene medias en horas, los valores del eje x son medidos por intervalos y teóricamente continuos (se podría argumentar que todos los continuos son medidos por intervalos), por lo que hay una mayor justificación allí.

En cuanto a bares, como otros carteles mencionados. Casi siempre los evito. Un punto suele ser mejor incluso para los tipos de datos que normalmente se consideran rellenos con barras.

También considere que, a menos que los estacionamientos sean del mismo tamaño, la cantidad de automóviles es engañosa. Un gráfico con área fija y barras típicas implica que cada barra representa el mismo relleno de elementos en el espacio por igual. Solo resuelve parcialmente ese problema con proporciones de automóviles en los lotes. Una alternativa cuando solo hay un período de tiempo sería tener barras vacías que indiquen el tamaño de los lotes y luego llenarlas con la cantidad de autos. Pero esto sería demasiado complejo cuando se demuestren lotes múltiples. Los gráficos de líneas de la proporción de llenado conectado durante horas con una línea para cada lote son la mejor manera de llegar aquí.

Juan
fuente

De acuerdo, especialmente si está tratando de comparar dos o más conjuntos de datos (digamos tres estacionamientos) con el tiempo. Intentar mantener los puntos de color y los intercambios rectos sin líneas es difícil. Por lo general, es bastante claro que si un gráfico de línea es una línea que conecta puntos, los puntos son discretos, y que si solo es una línea, está reflejando datos continuos.

Wayne

Convino en que las líneas ayudan a diferenciar conjuntos separados; He demostrado este punto en mi respuesta.

Nick Stauner

1

En mi humilde opinión, quien omitió por primera vez el momento preciso de los cambios number of carses el primero responsable de los resultados engañosos. Si tuviera esta información (incluso si se midiera con error), timesería una variable continua adecuada, no una variable continua agrupada (véase Anderson, 1984) necesariamente. Sería libre de agrupar las observaciones en hourcontenedores basados en la base si realmente quisiera, en ese momento asumiría la responsabilidad de obtener resultados engañosos. De lo contrario, al preservar tiempos precisos de llegada, podría graficar su number of cars series de tiemposobre continuo con timeprecisión.

De todos modos, suponiendo que está pegado con number of carsporhour, Estoy de acuerdo con @John, deberías dibujar una línea que conecte tus observaciones por hora. Si le falta información sobre cuándo ocurrió cada cambio incremental, es bastante difícil decir que está engañando a alguien a menos que no describa los límites de la información graficada. Del mismo modo, si grafica sus datos por hora con un gráfico de barras simple sin una línea que conecte los contenedores, no es realmente culpable de engañar a nadie si no afirma que los cambios entre las observaciones por hora ocurren exactamente como se muestra, en la hora, de repente. Si alguien malinterpreta (como probablemente ocurrirá con cualquier estadística o información suficientemente publicitada), no será el caso que lo haya confundido, especialmente si describe sus datos y el procedimiento de recopilación con suficiente detalle. Esto no debería ser difícil de hacer.

Dada la claridad básica y exhaustiva de los datos y las descripciones de los gráficos, no debería haber ninguna desventaja de dibujar una línea para conectar sus contenedores. La ventaja de conectar sus contenedores es, de hecho, lo que parece pensar es la desventaja: dibujar esas líneas imita una ecuación decente a medias para la number of carsfunción de continuo time, a pesar de que se basa en observaciones discretas por hora. Puede usar una línea recta entre observaciones para representar una suposición bastante razonable de que el cambio se produce linealmente sobre cada uno hour, no todos a la vez. Basado en tal suposición, cualquier lector puede hacer una suposición decente de que minutedespués de una hourmedición dada verá el próximo auto llegar o salir por este procedimiento de cuatro pasos de sentido común:

Encuentre el punto en la línea donde la observación anteriornumber of cars $=1+$ hour
Dibuje una línea recta desde este punto para encontrar dónde se cruza con el houreje.
Mida el distancepunto de este punto en el houreje desde el punto de la observación anterior.
distance $\div$ distance between observations $\times60=$ minute después hourde la llegada del próximo automóvil.

Por supuesto, también se puede estimar la llegada del próximo automóvil al segundo preciso, y no se puede evitar que los lectores hagan esto al no proporcionar la línea; dibujar la línea se convierte en el primero de los cinco pasos. Por lo tanto, si alguien realmente quiere saber cuántos autos había allí mientras tanto ... bueno, no pueden, porque la información no está disponible, pero pueden estimar. Si les quitas un paso del proceso, imagino que te lo agradecerán.

Hacer esto para sus lectores con líneas simples y rectas solo implica su comodidad con la suposición de que el cambio se produce linealmente entre observaciones por hora, o más expresamente, su desinterés por cualquier inexactitud en esta suposición. Las imprecisiones no son difíciles de imaginar. Primero, el cambio ocurre necesariamente como una función no lineal de cero inflado de time. No es lineal porque el evento de cambio es ternario : un automóvil llega, sale o ninguno de los dos, los automóviles no llegan o salen en incrementos fraccionados. Está inflado a cero porque la mayoría de los momentos en el tiempo no verán un automóvil llegar o salir. Puede evitar esto tratando la línea como si describiera probabilityque los automóviles llegarán o saldrán en cualquier momento para alcanzar el número entero más cercano.

Aún queda otra inexactitud de la suposición detrás de las líneas rectas entre las observaciones por hora. Puede esperar que la tasa de cambio (en términos de probabilitylo anterior) cambie más suavemente con el tiempo de lo que implican sus líneas rectas dibujadas por separado entre puntos. En términos más matemáticos, es posible que desee que la derivada de su función number of cars( hour) sea continua a través de hours. Es posible que pueda hacer esto ajustando una función polinómica a sus datos, pero si su propósito es predictivo, tenga cuidado consobreajuste.

Otra ventaja de las líneas sobre las barras de estilo de histograma (es decir, sin espacio intermedio para valores adyacentes de hour... y mucho menos gráficos con barras que no se "tocan" entre sí) surge de su lotvariable politómica . Puede superponer sus series de tiempo separadas para cada lote en el mismo gráfico para facilitar las comparaciones, lo que le ayudará a ver si su lotvariable es interesante. Aquí hay una demostración con algunos datos inventados:

Felicitaciones a McCown !

Ni siquiera voy a tratar de descubrir cómo hacerlo coherentemente con barras; Se lo dejo a @ ChristianStade-Schuldt;) Para ser justos, es aún más fácil no conectar estos puntos como sugirió, pero agregar las líneas ayuda a desambiguar los puntos correspondientes a series de tiempo separadas entre sí. Al final, seguirá siendo un poco subjetivo, así que juzga por ti mismo:

Por mi parte, me encuentro dibujando las líneas en mi mente de todos modos. Por cierto, si siente que las líneas en la primera figura restan algo al impacto visual de los puntos exactos, no olvide que siempre puede aumentar el tamaño de los puntos, cambiar su forma o presentar sus valores numéricamente en una tabla separada .

^{Referencia

Anderson, JA (1984). Regresión y variables categóricas ordenadas. Revista de la Real Sociedad Estadística B, 46 , 1–30.}

Nick Stauner
fuente

1

Una línea continua indica un continuo. Si se trazan los promedios, consideraría usar un diagrama de barras o un diagrama de escalones. También es posible trazar puntos individuales, y cuando se trata de promedios, probablemente puede agregar información de desviación estándar según sea necesario.

Peter Jansson
fuente

0

No conectaría esos puntos porque esos son valores discretos. Dependiendo de la cantidad de puntos de datos, puede usar un gráfico de columna / barra o solo puntos.

Christian Stade-Schuldt
fuente

Conectando los puntos en un gráfico

Respuestas: