Representando datos experimentales

9

Tengo una discusión con mi asesor sobre la visualización de datos. Afirma que cuando se representan resultados experimentales, los valores deben trazarse únicamente con " marcadores ", tal como se presenta en la imagen siguiente. Mientras que las curvas solo deben representar un " modelo "

Marcadores.png

Por otro lado, creo que una curva es innecesaria en muchos casos para facilitar la legibilidad, como se muestra en la segunda imagen a continuación:

Lines.png

¿Estoy equivocado o mi profesor? Si el último es el caso, ¿cómo hago para explicarle esto?

Ivan P.
fuente
55
Los puntos son los datos. Las curvas que ajusta a los puntos no son los datos. Entonces, si su intención es mostrar los datos ...
3
Como dice JeffE. Para ser aún más explícito: las curvas que trazó son un modelo, porque asumió una forma particular al dibujarlas, y tenía algún razonamiento para esta forma. Este razonamiento se basa en un modelo particular.
gerrit
1
He enviado una solicitud de migración; esto realmente pertenece en crossvalidated, no aquí.
2
Creo que podría estar en el tema en CrossValidated, pero definitivamente también está en el tema aquí . La migración solo debe considerarse si está fuera de tema aquí (hay preguntas que estarían sobre el tema en dos sitios, está bien). Es una pregunta real con respuestas válidas, definitivamente es relevante para muchos académicos.
2
Tu segunda carta es dudosa. Si unió los puntos con líneas rectas, (quizás) tenga un argumento para la claridad visual. Pero usando una curva, usted afirma que el pico de la línea azul está a 740 °, y el mínimo de la línea púrpura está a 840 °, a pesar de que no tiene datos experimentales a esas temperaturas. Introducir min / max fuera de los datos medidos es una bandera roja.
Darren Cook

Respuestas:

10

Me gusta esta regla de oro:

Si necesita la línea para guiar el ojo (es decir, muestran una tendencia que sin la línea no sería visible la mayor claridad), debería no poner la línea.

Los humanos son extremadamente buenos para reconocer patrones (estamos más del lado de ver tendencias que no existen que perder una tendencia existente). Si no podemos obtener la tendencia sin línea, podemos estar bastante seguros de que ninguna tendencia puede mostrarse de manera concluyente en el conjunto de datos.

Hablando del segundo gráfico, la única indicación de la incertidumbre de sus puntos de medición son los dos cuadrados rojos de C: O 1.2 a 700 ° C. La difusión de estos dos significa que no aceptaría, por ejemplo

  • que hay una tendencia para C: O 1.2
  • que hay una diferencia entre 2.0 y 3.6
  • y seguramente los modelos curvos están sobreajustando los datos.

sin muy buenas razones dadas. Eso, sin embargo, volvería a ser un modelo.


editar: responder al comentario de Ivan:

Soy químico y diría que no hay medición sin error; lo que sea aceptable dependerá del experimento y del instrumento.

Esta respuesta no está en contra de mostrar un error experimental, sino de mostrarlo y tenerlo en cuenta.

La idea detrás de mi razonamiento es que el gráfico muestra exactamente una medición repetida, por lo que cuando la discusión es qué tan complejo debe ser un modelo (es decir, línea horizontal, línea recta, cuadrática, ...) esto puede darnos una idea de la medición error. En su caso, esto significa que no sería capaz de ajustar un cuadrático significativo (spline), incluso si tuviera un modelo duro (por ejemplo, ecuación termodinámica o cinética) que sugiera que debería ser cuadrático, simplemente no tiene suficientes datos .

Para ilustrar esto:

df <-data.frame (T      =         c ( 700,  700,  800, 900,  700, 800, 900, 700, 800, 900), 
                 C.to.O = factor (c ( 1.2,  1.2,  1.2, 1.2,  2  , 2  , 2  , 3.6, 3.6, 3.6)),
                 tar    =         c (21.5, 18.5, 19.5, 19,  15.5, 15 , 6  , 16.5, 9, 9))

Aquí hay un ajuste lineal junto con su intervalo de confianza del 95% para cada una de las relaciones C: O:

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm") + 
    facet_wrap (~C.to.O)

Modelo lineal

Tenga en cuenta que para las relaciones C: O más altas, el intervalo de confianza varía mucho por debajo de 0. Esto significa que las suposiciones implícitas del modelo lineal son incorrectas. Sin embargo, puede concluir que los modelos lineales para los contenidos superiores de C: O ya están sobreajustados.

Entonces, retrocediendo y ajustando solo un valor constante (es decir, sin dependencia de T):

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm", formula = y ~ 1) + 
    facet_wrap (~C.to.O) 

sin dependencia de T

El complemento es modelar sin dependencia de C: O:

ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) + 
    stat_smooth (method = "lm", formula = y ~ x) 

no C: O dependencia

Aún así, el intervalo de confianza cubriría una línea horizontal o incluso ligeramente ascendente.

Puede continuar e intentar, por ejemplo, permitir diferentes compensaciones para las tres relaciones C: O, pero utilizando pendientes iguales.

Sin embargo, ya pocas mediciones más mejorarían drásticamente la situación: tenga en cuenta cuánto más estrechos son los intervalos de confianza para C: O = 1: 1, donde tiene 4 mediciones en lugar de solo 3.

Conclusión: si comparas mis puntos de qué conclusiones sería escéptico, ¡estaban leyendo demasiado en los pocos puntos disponibles!

cbeleites descontentos con SX
fuente
haces muy buen punto. Sin embargo, en ingeniería, el error experimental (incertidumbre) es muy común y se supone que un error relativo de 3 ~ 5% es aceptable. Aún así, debo mostrar los resultados MAX, MIN y AVG. Entonces, en mi caso, los marcadores son las extremidades y la línea es el promedio.
Ivan P.
ejemplo muy bueno y extremadamente útil (me interesó en R). Entonces, por supuesto, lo correcto es obtener más puntos de datos.
Ivan P.
12

Como dice JeffE: los puntos son los datos . En general, es bueno evitar agregar curvas tanto como sea posible. Una razón para agregar curva es que hace que el gráfico sea más agradable a la vista, al hacer que los puntos y la tendencia entre los puntos sean más legibles. Esto es particularmente cierto si tiene pocos puntos de datos.

Sin embargo, hay otras formas de mostrar datos dispersos , que pueden ser mejores que un diagrama de dispersión. Una posibilidad es un gráfico de barras, donde las diferentes barras son mucho más visibles que sus puntos individuales. Un código de color (similar al que ya tiene en su figura) ayudará a ver las tendencias en cada serie de datos (o la serie de datos podría dividirse y presentarse una al lado de la otra en gráficos de barras individuales más pequeños).

Finalmente, si realmente desea agregar algún tipo de línea entre sus símbolos, hay dos casos:

  1. Si espera que cierto modelo sea válido para sus datos (lineal, armónico, lo que sea), debe ajustar sus datos en el modelo, explicar el modelo en el texto y comentar el acuerdo entre los datos y el modelo.

  2. Si no tiene ningún modelo razonable para los datos, no debe incluir suposiciones adicionales en su gráfico. En particular, esto significa que no debe incluir ningún tipo de líneas entre sus puntos, excepto las líneas estrechas. Las agradables interpolaciones de "ajuste de spline" que Excel (y otro software) pueden dibujar son una mentira . No hay una razón válida para que sus datos sigan ese modelo matemático en particular, por lo que debe atenerse a los segmentos de línea recta.

    Además, en ese caso, puede ser bueno agregar un descargo de responsabilidad en algún lugar de la leyenda de la figura, como "las líneas son solo guías para el ojo".

F'x
fuente
2
Este es un excelente consejo menos el comentario sobre las barras más apropiadas. Para una discusión similar relacionado con que ver gráficos alternativos para parcelas “manillar” . Imagine el gráfico listado por el OP como un gráfico de barras agrupadas, sería muy difícil visualizar la tendencia en los rangos de temperatura. Una forma de hacer que los puntos sean más fácilmente visibles es sacudirlos a lo largo del eje x, y el trabajo de Cleveland sugiere que deberíamos preferir los puntos a las barras de todos modos.
Andy W
@ Andy W, ¿qué quieres decir con "jitter a lo largo del eje x"?
Ivan P.
1
@IvanP., Quiero decir que en lugar de fijar los puntos a ese valor particular en la abscisa para moverlos ligeramente hacia la derecha o hacia la izquierda para que los puntos no se cubran entre sí. Debe quedar claro del resto del gráfico que realmente se refieren a valores exactos para los grupos en el eje x, y la ligera fluctuación no debería tener ningún efecto en la visualización de la tendencia entre los valores.
Andy W
6

1-Tu profesor está haciendo un punto válido.

2-Su trama definitivamente no aumenta la legibilidad en mi humilde opinión.

3-Según tengo entendido, este no es el foro adecuado para hacer este tipo de preguntas realmente y debería hacerlo con validación cruzada.

Blackace
fuente
Estoy interesado en saber dónde está el problema de la legibilidad y cualquier sugerencia de mejora es muy bienvenida
Ivan P.
1

A veces, unir puntos tiene sentido, especialmente si son muy densos.

Y entonces puede tener sentido interpolar (por ejemplo, con una spline ). Sin embargo, si es algo más avanzado que la spline de orden uno (para lo cual es visiblemente obvio que solo se trata de unir puntos), debe mencionarlo.

Sin embargo, para el caso de algunos puntos, o una docena de puntos, no es el caso. Simplemente deje los puntos como están, con marcadores. Si desea ajustar una línea (u otra curva), es un modelo. Puede agregarlo, pero sea explícito, por ejemplo, "la línea representa el ajuste de regresión lineal".

Piotr Migdal
fuente
0

Creo que hay casos en los que uno no propone un modelo explícito, pero necesita algún tipo de guía visual. Mi regla es evitar curvas como la peste y mantener líneas rectas por partes entre los puntos sucesivos de una serie.

Por un lado, esta suposición es más obvia para los lectores. Además, el punto es bueno para mantener a los lectores alejados de asumir tendencias no respaldadas por datos. En todo caso, esto solo resalta el ruido y los valores atípicos.

Lo que desconfío es el uso superficial (no riguroso, no explícito) de splines, cuadráticos, regresión, etc. Muy a menudo esto hace que parezca que hay tendencias donde no las hay. Un buen ejemplo de abuso son las curvas dibujadas por @Ivan. Con 3 puntos de datos, no creo que ningún máximo o mínimo en el modelo subyacente sea obvio.

curioso_cat
fuente