¿Es incorrecto usar gráficos de líneas para datos discretos?

A menudo he visto conjuntos de datos discretos trazados como gráficos de líneas, pero se me ocurre que la línea infiere un valor en un punto entre los intervalos de medición que no tiene sentido para los conjuntos de datos discretos. ¿Es, por lo tanto, el caso de que el uso de gráficos de líneas para datos discretos sea incorrecto?

Como ejemplo, tome dos conjuntos de datos de series de tiempo, uno continuo (mi peso, medido diariamente en la mañana) y uno discreto (la cantidad de donas que como por día). Tiene sentido que el primer conjunto de datos sea un diagrama lineal, ya que es razonable inferir que mi peso en una tarde dada estará relacionado con mi peso las mañanas anteriores y siguientes. Sin embargo, si el número de rosquillas se representa como un gráfico de líneas, las líneas entre los puntos no pueden deducirse de esa línea.

EDITAR

Aquí hay otro ejemplo: el salario mínimo federal por hora desde su inicio en http://mste.illinois.edu/courses/ci330ms/youtsey/lineinfo.html

A menos que me equivoque, los cambios en el salario mínimo son discretos y, por lo tanto, no es posible buscar un tiempo arbitrariamente seleccionado y establecer el salario mínimo en el punto usando la línea que interconecta los puntos.

data-visualization usuario1379351
fuente

(+1) El ejemplo de salario mínimo por hora es excelente. La formulación misma de su pregunta sugiere una buena respuesta: a saber, que los puntos de conexión en un gráfico no son válidos cuando causaría que el lector realice interpolaciones inexactas (o totalmente inválidas). Hacer una distinción entre discreción y discontinuidad ayudaría con un análisis más detallado: el consumo de donas es discreto mientras que el salario mínimo es discontinuo. Cada uno merece una forma diferente de trama.

whuber

Hay trazados donde un diagrama de dispersión con datos discretos es engañoso sobre un diagrama lineal. Para ejemplos de casos en los que es necesaria una secuencia de eventos (histéresis), o se producen oscilaciones entre dos niveles y uno necesita rastrear los cambios de estado y su ubicación. Por lo tanto: no use gráficos de líneas para implicar interpolación, pero utilícelos como guía si es apropiado. No es lo suficientemente simple como para crear una regla de elección simple, pero necesita considerar los datos y el modelo a la mano.

wirrbel

¡Interesante pregunta! Gracias por eso. Estoy tratando con una gran cantidad de datos relacionados con el tiempo que en parte se derivan de modelos discretos y en parte datos medidos. ¿Qué pasa con la opción de usar gráficos de líneas escalonadas para datos discretos (que pueden ser continuos de alguna manera pero aún no tenemos función entre los puntos individuales y no podemos asumir que tienen uno) y los regulares para datos continuos? Esa es la forma en que lo trato ..

Cord Kaldemeyer

@CordKaldemeyer gracias por comentar: no estaba al tanto del tipo de gráfico "diagrama de línea escalonada", pero eso es definitivamente lo que estoy buscando. También encontré este útil tutorial sobre cómo

user1379351

@ user1379351: ¡Me alegro de poder ayudar!

Cord Kaldemeyer

Respuestas:

Los gráficos de líneas conectadas han demostrado ser demasiado útiles para limitarlos a una sola interpretación. Algunos usos destacados:

Valores interpolados . El caso que menciona donde ambas variables son continuas y cada punto interpolado a lo largo de la línea como una interpretación significativa.
Tasa de cambio . Incluso cuando los valores intermedios no son significativos, la pendiente de cada segmento de línea es una buena representación de la tasa de cambio. Tenga en cuenta que para esta interpretación, los valores X e Y deben espaciarse adecuadamente, lo cual no es el caso en el diagrama salarial que cita.
Comparación de perfiles . Al comparar múltiplos pequeños o medidas superpuestas, las líneas pueden ser útiles incluso para factores categóricos. En este caso, las líneas sirven para conectar grupos de respuestas para el reconocimiento limitado de patrones. Aquí hay un ejemplo de peltiertech.com con el factor en el eje Y (en lugar del X) para la legibilidad de la etiqueta:

ingrese la descripción de la imagen aquí

xan
fuente

Es cierto, pero los gráficos segundo y tercero son estrictamente menos potentes que el primero, ya que uno no puede usar cálculo en absoluto.

Milind R

Bueno, las donas pueden estar relacionadas con el peso :-)

Si bien veo su punto, creo que este ejemplo no es tan malo porque el tiempo (en el eje horizontal, al que se refieren las líneas) es continuo. Para mí, el significado de la línea no es tanto que, en cada momento del día, comiste una cierta cantidad de donas, sino que la cantidad de donas por día cambia de alguna manera regular. Por lo tanto, podríamos agregar algo como un loess más suave a la línea, y tendría sentido. Es al menos razonable pensar en donas que se comen a cada hora, o incluso a cada minuto (aunque esto sería más sensato con una variable en la que el recuento por día fuera mayor)

Lo que es más preocupante es cuando el eje horizontal es discreto (y especialmente cuando es nominal) pero se dibujan líneas. Esto realmente no tiene sentido. Por ejemplo, si está mirando (digamos) el% de votos para Obama entre (digamos) residentes de diferentes regiones de los EE. UU., No tiene sentido trazar una línea divisoria entre el noreste y el medio oeste; especialmente porque el orden de las regiones es arbitrario, pero cambiar el orden cambiaría las líneas. Sin embargo, he visto gráficos como este.

Peter Flom - Restablece a Monica
fuente

Absolutamente de acuerdo en que hay abusos mucho peores de los gráficos de líneas por ahí. Me gusta el enfoque más suave, ya que no conecta los puntos y, por lo tanto, no implica datos que no están allí. Pero sirve para resaltar la preocupante tendencia en el consumo de donas. ¡Gracias!

user1379351

Parece que está proponiendo reemplazar una variable, el consumo de donas, por otra; a saber, una densidad de consumo de donas (donas por unidad de tiempo). Aunque esto se hace con frecuencia, especialmente en análisis bidimensionales (como mapas de densidad de población) y puede ser muy efectivo, sería bueno que los lectores sepan que hay una distinción y consideren cómo esa distinción podría ser revelado gráficamente.

whuber

@whuber Ese es un punto justo; la línea parece hacer ese reemplazo. Un gráfico que no haga ese reemplazo podría ser solo puntos, sin conexión, pero que parece dar al menos una pista de que el consumo de donas se encuentra en un punto en particular. Por lo tanto, podríamos hacer que el tiempo sea continuo y poner un punto en el momento en que se consumió una dona.

Peter Flom - Restablece a Monica