Escalar datos que están en diferentes órdenes de magnitud para trazar

9

Mirando el siguiente conjunto de datos:

 Date        Visits   Carts      carts       Orders
                      Created   converted    Created
2011-11-11    12277     161        9          36  
2011-11-12    11871     93         5          19    
2011-11-13    13072     107        8          8     
2011-11-14    13594     112        4          34    
2011-11-15    12741     129        8          43    
2011-11-16    15491     261        16         57 
2011-11-17    13418     186        17         42    

Me han pedido que trace esto en un gráfico, usando la Fecha tiene el Eje X y el resto de los datos en el Eje Y. El problema es que la escala de los datos es dramáticamente diferente. donde las visitas están en los miles y las órdenes creadas están en las decenas bajas, los datos no se trazan bien en un gráfico.

Me preguntaba qué haría un estadístico en este escenario, podría dividir las Visitas por 1000 y luego poner la descripción (Visitas (K)), pero luego empiezo a tener el mismo problema con Carts Created, ya que son en los cientos y todo lo demás está en las decenas bajas.

¿Qué tipo de cosas se hacen en este escenario?

Miguel
fuente

Respuestas:

14

Al principio no es irrazonable trazar los gráficos de líneas como una serie de pequeños múltiplos, con diferentes escalas para el eje Y pero con el eje X (fechas) alineado. ingrese la descripción de la imagen aquí

Creo que este es un buen comienzo, ya que permite examinar los datos en bruto y permite comparar tendencias entre diferentes gráficos de líneas. En mi opinión, primero debe mirar los datos en bruto, luego pensar en las conversiones o formas de normalizar los gráficos para que sean comparables después de examinar los datos en bruto.

Como King ya ha mencionado, parece que sus variables tienen un orden natural basado en los nombres y números, y suponiendo que sea apropiado, creé tres nuevas variables basadas en el porcentaje convertido en cada estado. Las nuevas variables son;

% Carts Created = Carts_Created/Visits
% Orders Created = Orders_Created/Carts_Created
% Carts Converted = Carts_Converted/Orders_Created

Hacer porcentajes es una manera de acercar la serie a una escala común, pero aun así, colocar todas las líneas en un gráfico (como a continuación) sigue siendo difícil visualizar la serie de manera efectiva. El nivel y la variación de los pedidos creados y los carros convertidos en serie enanan el de las otras series. No puede ver ninguna variación en la serie de carros creados en esta escala (y sospecho que es la que más le interesa). ingrese la descripción de la imagen aquí

Entonces, nuevamente, en mi opinión, una mejor manera de examinar esto es usar diferentes escalas. A continuación se muestra el gráfico de porcentajes con diferentes escalas.

ingrese la descripción de la imagen aquí

Con estos gráficos, no parece haber una correlación significativa entre las series, pero sí hay muchas variaciones interesantes dentro de cada serie (especialmente la proporción convertida). ¿Qué pasa con 2011-11-13? Tuviste una proporción mucho menor de pedidos creados, pero cada uno de los pedidos creados fue un carrito convertido. ¿Tuviste alguna otra intervención que pudiera explicar las tendencias en las visitas al sitio o en los carritos de proporción o porcentaje creados?

Todo esto es solo un análisis de datos exploratorio, y para tomar más medidas necesitaría más información sobre los datos (aunque espero que este sea un buen comienzo). Podría normalizar los gráficos de líneas de otras maneras para poder trazarlos en una escala comparable, pero esa es una tarea difícil, y creo que se puede hacer como elegir efectivamente escalas arbitrarias basadas en lo informativo dados los datos en lugar de elegir algunos esquemas de normalización predeterminados. Otra aplicación interesante de ver muchos gráficos de líneas simultáneamente son los gráficos de horizonte , pero es más para ver muchos gráficos de líneas diferentes a la vez.

Andy W
fuente
Gracias por el detalle en su respuesta, originalmente tenía varios cuadros. Mi jefe ha decidido que les gustaría todas las series en el gráfico (creo que probablemente sean demasiadas series, pero no soy yo quien lo examinará :)) Creo que voy a considerar buscar normalizar los datos, tal vez en 0 - 1. Solo quieren usar el gráfico para ver tendencias, los datos de la tabla generalmente se muestran debajo del gráfico.
Mike
@ Mike, es una solicitud razonable. La normalización de la serie no debería cambiar la tendencia (solo el nivel y la variación de cada serie). Esperemos que obtenga respuestas más perspicaces sobre cómo normalizar la serie de maneras efectivas, pero aún significativas. Sin embargo, solo una advertencia: por lo general, solo desea trazar 3-5 líneas en un gráfico, es mucho más difícil hacer todas esas comparaciones (sin embargo, los pequeños múltiplos son una solución para este problema).
Andy W
1
@Mike Sí, en este caso (solo visualizando datos sin números), simplemente puede expresar sus datos en una escala mínima / máxima, como se hace en pantallas paralelas . Mostrar números debajo de la tabla también es una buena idea.
chl
1
Solo una nota adicional sobre la normalización a una escala mínima / máxima, como sugirió @chl. Es bueno ver primero los datos sin procesar, si tiene un valor atípico grande, puede considerar no incluir ese valor en el proceso de normalización (aunque debería ser evidente si lo hace en el gráfico normalizado, por ejemplo, si tiene un gráfico lineal con un valor alto / bajo y el resto es plano). Creo que Michael Friendly estaría de acuerdo con incluir también la tabla debajo del gráfico.
Andy W
2

Puede tener 2 ejes y separados, Visitas (k) y Carros creados en uno, los otros 2 en otro (o de cualquier manera que se ajuste a su propósito).

Definitivamente, este no es un método elegante, pero recuerdo haberlo hecho hace años cuando solo quería comparar tendencias a lo largo del tiempo.

O

Simplemente puede trazar el cambio porcentual a lo largo del tiempo si se adapta a su propósito.

Rey
fuente
Pensé en la ruta que mencionaste con los 2 ejes Y diferentes, pero lo que no me gustó fue que si se introdujera una nueva serie que no encajaría en uno de los dos ejes Y, probablemente estaría atascado. gracias por la sugerencia, y tal vez en otra ocasión consideraría esto más :)
Mike
¿Qué pasa con la segunda sugerencia sobre el uso del porcentaje? es decir, indexar todo a 100 en la fecha de inicio (o la fecha que haga que su gráfico sea bonito). ¡Puedes agregar tantas series nuevas como quieras!
Rey
Esa es una opción, actualmente estoy en Excel intentando descubrir cómo normalizar estos datos y si funcionan. en su defecto aquel que da la idea de un ir porcentaje :)
Mike
2

Al final decidí normalizar los datos dividiendo cada valor por el valor máximo y luego multiplicándolo por 100.

  1. Encuentra el valor máximo:

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    12277     161        9          36  
    2011-11-12    11871     93         5          19    
    2011-11-13    13072     107        8          8     
    2011-11-14    13594     112        4          34    
    2011-11-15    12741     129        8          43    
    2011-11-16    15491     261        16         57 
    2011-11-17    13418     186        17         42    
    
    maximum       15491     261        17         57
    
  2. Divide cada número entre el máximo y luego multiplica por 100:

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    79.25     61.68      52.94      63.15  
    2011-11-12    76.63     35.63      29.41      33.33    
    2011-11-13    84.38     40.99      47.05      14.03      
    2011-11-14    87.75     42.91      23.52      59.64    
    2011-11-15    82.24     49.42      47.05      75.43    
    2011-11-16    100       100        94.11      100
    2011-11-17    86.61     71.26      100        73.68    
    
  3. Luego tracé esto en el gráfico, obviamente esto solo demuestra la tendencia y el usuario tiene la tabla de datos en la parte inferior de la página.

Miguel
fuente
0

Ese sería mi enfoque también: ajustar las diferentes dimensiones a la misma escala dividiendo por X, pero usaría el valor promedio, no el valor máximo o mínimo. La razón es que, a medida que agrega datos a lo largo del tiempo, es probable que su máximo o mínimo cambie, y luego lo que era 100% en el último gráfico es algo más esta vez: el gráfico no es tan fácil de conciliar con gráficos anteriores, si usa avg, entonces los cambios no son tan drásticos.

bjf
fuente