Tengo una discusión con mi asesor sobre la visualización de datos. Afirma que cuando se representan resultados experimentales, los valores deben trazarse únicamente con " marcadores ", tal como se presenta en la imagen siguiente. Mientras que las curvas solo deben representar un " modelo "
Por otro lado, creo que una curva es innecesaria en muchos casos para facilitar la legibilidad, como se muestra en la segunda imagen a continuación:
¿Estoy equivocado o mi profesor? Si el último es el caso, ¿cómo hago para explicarle esto?
data-visualization
communication
Ivan P.
fuente
fuente
Respuestas:
Me gusta esta regla de oro:
Los humanos son extremadamente buenos para reconocer patrones (estamos más del lado de ver tendencias que no existen que perder una tendencia existente). Si no podemos obtener la tendencia sin línea, podemos estar bastante seguros de que ninguna tendencia puede mostrarse de manera concluyente en el conjunto de datos.
Hablando del segundo gráfico, la única indicación de la incertidumbre de sus puntos de medición son los dos cuadrados rojos de C: O 1.2 a 700 ° C. La difusión de estos dos significa que no aceptaría, por ejemplo
sin muy buenas razones dadas. Eso, sin embargo, volvería a ser un modelo.
editar: responder al comentario de Ivan:
Soy químico y diría que no hay medición sin error; lo que sea aceptable dependerá del experimento y del instrumento.
Esta respuesta no está en contra de mostrar un error experimental, sino de mostrarlo y tenerlo en cuenta.
La idea detrás de mi razonamiento es que el gráfico muestra exactamente una medición repetida, por lo que cuando la discusión es qué tan complejo debe ser un modelo (es decir, línea horizontal, línea recta, cuadrática, ...) esto puede darnos una idea de la medición error. En su caso, esto significa que no sería capaz de ajustar un cuadrático significativo (spline), incluso si tuviera un modelo duro (por ejemplo, ecuación termodinámica o cinética) que sugiera que debería ser cuadrático, simplemente no tiene suficientes datos .
Para ilustrar esto:
Aquí hay un ajuste lineal junto con su intervalo de confianza del 95% para cada una de las relaciones C: O:
Tenga en cuenta que para las relaciones C: O más altas, el intervalo de confianza varía mucho por debajo de 0. Esto significa que las suposiciones implícitas del modelo lineal son incorrectas. Sin embargo, puede concluir que los modelos lineales para los contenidos superiores de C: O ya están sobreajustados.
Entonces, retrocediendo y ajustando solo un valor constante (es decir, sin dependencia de T):
El complemento es modelar sin dependencia de C: O:
Aún así, el intervalo de confianza cubriría una línea horizontal o incluso ligeramente ascendente.
Puede continuar e intentar, por ejemplo, permitir diferentes compensaciones para las tres relaciones C: O, pero utilizando pendientes iguales.
Sin embargo, ya pocas mediciones más mejorarían drásticamente la situación: tenga en cuenta cuánto más estrechos son los intervalos de confianza para C: O = 1: 1, donde tiene 4 mediciones en lugar de solo 3.
Conclusión: si comparas mis puntos de qué conclusiones sería escéptico, ¡estaban leyendo demasiado en los pocos puntos disponibles!
fuente
Como dice JeffE: los puntos son los datos . En general, es bueno evitar agregar curvas tanto como sea posible. Una razón para agregar curva es que hace que el gráfico sea más agradable a la vista, al hacer que los puntos y la tendencia entre los puntos sean más legibles. Esto es particularmente cierto si tiene pocos puntos de datos.
Sin embargo, hay otras formas de mostrar datos dispersos , que pueden ser mejores que un diagrama de dispersión. Una posibilidad es un gráfico de barras, donde las diferentes barras son mucho más visibles que sus puntos individuales. Un código de color (similar al que ya tiene en su figura) ayudará a ver las tendencias en cada serie de datos (o la serie de datos podría dividirse y presentarse una al lado de la otra en gráficos de barras individuales más pequeños).
Finalmente, si realmente desea agregar algún tipo de línea entre sus símbolos, hay dos casos:
Si espera que cierto modelo sea válido para sus datos (lineal, armónico, lo que sea), debe ajustar sus datos en el modelo, explicar el modelo en el texto y comentar el acuerdo entre los datos y el modelo.
Si no tiene ningún modelo razonable para los datos, no debe incluir suposiciones adicionales en su gráfico. En particular, esto significa que no debe incluir ningún tipo de líneas entre sus puntos, excepto las líneas estrechas. Las agradables interpolaciones de "ajuste de spline" que Excel (y otro software) pueden dibujar son una mentira . No hay una razón válida para que sus datos sigan ese modelo matemático en particular, por lo que debe atenerse a los segmentos de línea recta.
Además, en ese caso, puede ser bueno agregar un descargo de responsabilidad en algún lugar de la leyenda de la figura, como "las líneas son solo guías para el ojo".
fuente
1-Tu profesor está haciendo un punto válido.
2-Su trama definitivamente no aumenta la legibilidad en mi humilde opinión.
3-Según tengo entendido, este no es el foro adecuado para hacer este tipo de preguntas realmente y debería hacerlo con validación cruzada.
fuente
A veces, unir puntos tiene sentido, especialmente si son muy densos.
Y entonces puede tener sentido interpolar (por ejemplo, con una spline ). Sin embargo, si es algo más avanzado que la spline de orden uno (para lo cual es visiblemente obvio que solo se trata de unir puntos), debe mencionarlo.
Sin embargo, para el caso de algunos puntos, o una docena de puntos, no es el caso. Simplemente deje los puntos como están, con marcadores. Si desea ajustar una línea (u otra curva), es un modelo. Puede agregarlo, pero sea explícito, por ejemplo, "la línea representa el ajuste de regresión lineal".
fuente
Creo que hay casos en los que uno no propone un modelo explícito, pero necesita algún tipo de guía visual. Mi regla es evitar curvas como la peste y mantener líneas rectas por partes entre los puntos sucesivos de una serie.
Por un lado, esta suposición es más obvia para los lectores. Además, el punto es bueno para mantener a los lectores alejados de asumir tendencias no respaldadas por datos. En todo caso, esto solo resalta el ruido y los valores atípicos.
Lo que desconfío es el uso superficial (no riguroso, no explícito) de splines, cuadráticos, regresión, etc. Muy a menudo esto hace que parezca que hay tendencias donde no las hay. Un buen ejemplo de abuso son las curvas dibujadas por @Ivan. Con 3 puntos de datos, no creo que ningún máximo o mínimo en el modelo subyacente sea obvio.
fuente