¿Cuándo son apropiadas las escalas de registro?

57

He leído que usar escalas de registro cuando los gráficos / gráficos son apropiados en ciertas circunstancias, como el eje y en un gráfico de series de tiempo. Sin embargo, no he podido encontrar una explicación definitiva de por qué ese es el caso, o cuándo sería apropiado. Tenga en cuenta que no soy un estadístico, por lo que podría estar perdiendo el punto por completo y, si ese es el caso, agradecería la dirección de los recursos correctivos.

dav
fuente
10
Esta no es una respuesta formal, pero cuando una variable abarca varios órdenes de magnitud, a menudo es más fácil para los ojos (y más informativo) visualizarla en la escala logarítmica.
Macro
Macro-que hace buen sentido (sobre todo cuando se tiene un público que puede entenderlo!)
DAV
1
Puede encontrar este hilo de uso estrechamente relacionado mientras espera respuestas específicas: stats.stackexchange.com/questions/298 . En términos de gráficos, puede interpretar fructíferamente "variable dependiente" como "eje y". Luego, eche un vistazo a las muchas preguntas estrechamente relacionadas que han aparecido aquí.
whuber
3
También para su información, Naomi Robbins tiene un artículo muy sencillo sobre el tema que también debería ser de interés, ¿Cuándo debo usar las escalas logarítmicas en mis cuadros y gráficos? .
Andy W
Whuber, gracias por señalar los enlaces adicionales. Había visto algunos de esos, pero no todos, y ahora estoy trabajando en ellos.
DAV

Respuestas:

51

Esta es una pregunta muy interesante y en la que muy poca gente piensa. Hay varias formas diferentes en que una escala logarítmica puede ser apropiada. El primero y más conocido es el mencionado por Macro en su comentario: las escalas logarítmicas permiten que se muestre un rango grande sin que los valores pequeños se compriman en la parte inferior del gráfico.

Una razón diferente para preferir una escala de registro es en circunstancias en las que los datos se expresan más geométricamente de forma natural. Un ejemplo es cuando los datos representan la concentración de un mediador biológico. Las concentraciones no pueden ser negativas y la variabilidad casi invariablemente aumenta con la media (es decir, hay una variación heterocedástica). Usando una escala logarítmica o, de manera equivalente, usando la concentración logarítmica como primaria, la medida 'arregla' la variabilidad desigual y proporciona una escala que no tiene límites en ambos extremos. Las concentraciones probablemente se distribuyen normalmente en forma logarítmica, por lo que una escala logarítmica nos da un resultado muy conveniente que podría decirse que es 'natural'. En farmacología utilizamos una escala logarítmica para las concentraciones de fármacos con mucha frecuencia,

Otra buena razón para una escala logarítmica, probablemente la que le interesa para los datos de series temporales, proviene de la capacidad de una escala logarítmica para hacer que los cambios fraccionales sean equivalentes. Imagine una muestra del desempeño a largo plazo de sus inversiones de jubilación. (Debería) estar creciendo aproximadamente exponencialmente porque el interés de mañana depende de la inversión de hoy (más o menos). Por lo tanto, incluso si el rendimiento en términos porcentuales ha sido bastante constante, un gráfico de los fondos parecerá haber crecido más rápidamente en el extremo derecho. Con una escala logarítmica, un cambio porcentual constante se ve como una distancia vertical constante, por lo que una tasa de crecimiento constante se ve como una línea recta. Eso es a menudo una ventaja sustancial.

Otra razón un poco más esotérica para elegir una escala logarítmica se produce en circunstancias en las que los valores se pueden expresar razonablemente como x o 1 / x. Un ejemplo de mi propia investigación es la resistencia vascular que también se puede expresar de manera sensata como la conductancia vascular recíproca. (También es razonable en algunas circunstancias pensar en el diámetro de los vasos sanguíneos que se escalan como un poder de resistencia o conductancia). Ninguna de esas medidas tiene más realidad que la otra y ambas se pueden encontrar en trabajos de investigación. Si se escalan logarítmicamente, entonces son simplemente negativos entre sí y la elección de uno u otro no hace una diferencia sustancial. (El diámetro vascular diferirá de la resistencia y la conductancia por un multiplicador constante cuando todos estén escalados).

Michael Lew
fuente
¡Gracias por la gran respuesta! Sin embargo, ¿puede explicar "los valores pueden expresarse razonablemente como x"?
ktdrv
44
@ktdrv Algunas cosas tienen sentido en ambos sentidos. Digamos que quieres documentar la habilidad de un pescador. Puede contar la cantidad de peces capturados por día o puede medir el intervalo entre capturas sucesivas. Cualquiera de las medidas tiene sentido, pero están relacionadas no linealmente entre sí. Son recíprocos escalados entre sí y, por lo tanto, pueden convertirse uno a uno en el otro. El registro del intervalo y el registro del número por día están relacionados linealmente entre sí y difieren en un factor constante (negativo).
Michael Lew
1
Michael, gracias por la gran respuesta. Tengo que admitir que me tomó un tiempo examinar todos sus puntos (y tuve que buscar en Google algunos términos, como "variación heterocedástica"). Todavía estoy reconstruyendo exactamente lo que el impacto real de la respuesta significará para mi trabajo, pero estoy agradecido por una dirección general y algunas pautas que me indiquen en el camino.
DAV
Re el último párrafo: dos razones principales para volver a expresar los valores son estabilizar las variaciones y linealizar las relaciones con otras variables. Casi siempre ocurre que cuando funciona, será horrible, y viceversa . Por lo tanto, usar porque crea una relación lineal entre y no parece defendible: si funciona, eso significa que ni ni es una expresión efectiva de los valores y de lo contrario no lo hace funciona y debe determinar cuál de o (o alguna otra reexpresión) es apropiada.xlog ( x ) x 1 / x x 1 / x x 1 / x1/xlog(x)x1/x x1/xx1/x
whuber
"En farmacología usamos una escala logarítmica para las concentraciones de fármacos con mucha frecuencia": permítanme enfatizar eso al agregar que las variables en realidad ya están definidas de esa manera, por ejemplo, . El ser expresado de esa manera más naturalmente significa que muchas relaciones se vuelven expresiones mucho más fáciles (lineales) con el registro allí. pH=log[H+]
cbeleites apoya a Monica el
29

Algunos ejemplos de la vida real que tuve que entregar como una adición a la muy buena respuesta de @Michael Lew.

Primero, las dos gráficas de series de tiempo a continuación muestran las llegadas mensuales de visitantes a Nueva Zelanda, disponibles en Statistics New Zealand . Ambas gráficas tienen su propósito, pero encuentro que la que tiene el eje vertical en una escala logarítmica es espectacularmente útil para muchos más propósitos que la primera. Por ejemplo, puede ver que la estacionalidad en las llegadas se mantiene aproximadamente proporcional a la escala de las llegadas; y puede ver los cambios significativos en la tasa de crecimiento (por ejemplo, durante la segunda guerra mundial) que son invisibles en la escala original.

ingrese la descripción de la imagen aquí

En segundo lugar, las siguientes gráficas muestran el gasto total relacionado con el viaje de los turistas a Nueva Zelanda, en comparación con el gasto mientras están en Nueva Zelanda. La fuente es la Encuesta internacional de visitantes del Ministerio de Desarrollo Económico. La diferencia es el gasto previo al viaje, por ejemplo, hoteles o paquetes pagados por adelantado. El primer gráfico, en la escala original, se puede utilizar para algunos fines distintos de una impresión muy cruda (pero importante) de los datos que se agrupan en la esquina inferior izquierda. La segunda trama sacrifica algo de interpretación inmediata, particularmente para los no estadísticos (debido a esto, normalmente ahora usaría una escala logarítmica en los ejes, en lugar de transformar los datos y tener la escala que muestra el valor logarítmico), pero da mucho Más diferenciación visual.

Por ejemplo, puede detectar claramente los pocos valores atípicos (que resultaron ser errores de edición de datos) donde el gasto total fue menor que el gasto en Nueva Zelanda. Quizás lo más importante es que podría usar este gráfico con diferentes colores o facetas para mostrar cómo los diferentes países del mercado o el propósito de la visita (por ejemplo, vacaciones vs. visitar amigos y familiares) ocupan diferentes partes del "espacio" de gastos, algo que simplemente sería invisible en los ejes originales.

Convertir esta trama en algo útil implicaría de alguna manera tratar con los datos de alta densidad (por ejemplo, agregando algo de transparencia a los puntos o reemplazando puntos con contenedores hexagonales coloreados de acuerdo con la densidad), pero cualquier solución visual útil seguramente involucrará ejes logarítmicos.

ingrese la descripción de la imagen aquí

editar / adición

Otra trama para ilustrar lo que quise decir con los contenedores hexagonales, usando el color para representar la densidad cuando hay un gran conjunto de datos (en este caso, alrededor de 12000 encuestados sobre una encuesta sobre experiencias de la Copa Mundial de Rugby en Nueva Zelanda). Tenga en cuenta nuevamente que este es otro ejemplo en el que he usado una escala logarítmica para gastos.

ingrese la descripción de la imagen aquí

Peter Ellis
fuente
Peter, gracias por la información adicional: los gráficos realmente ayudan a comprender tus puntos. Una pregunta de seguimiento (si está tan inclinado), ¿por qué reemplazaría los puntos con contenedores "hexagonales"? ¿Es esa la misma idea que "Sunflower Plots"? No he escuchado ese término antes.
DAV
No, diferente a las parcelas de girasol. El punto es dividir el área de trazado en contenedores hexagonales y luego colorearlos (por ejemplo, de claro a oscuro) de acuerdo con cuántos puntos hay en cada contenedor. Puede ser una buena manera de evitar trazar grandes conjuntos de datos que, de lo contrario, tienden a convertirse en una masa de negro.
Peter Ellis
@DavidVandenbos - He agregado un ejemplo
Peter Ellis
(el resto del comentario) @PeterEllis Gracias por la aclaración. Esa es una excelente manera de visualizar los datos, es muy similar a los mapas de calor geográficos que uso. ¿Creaste eso en R?
DAV
Sí, R, usando el paquete ggplot2, muy bueno para este propósito y bastante sencillo una vez que tienes los conceptos básicos.
Peter Ellis
9

Otra cosa ingeniosa sobre las escalas logarítmicas es que hacen que las relaciones parezcan simétricas. Por ejemplo, así: ingrese la descripción de la imagen aquí

miura
fuente
10
Sería bueno ver la misma trama en una escala lineal, en comparación
nico