¿Es la visualización suficiente justificación para transformar los datos?
13
Problema
Me gustaría trazar la varianza explicada por cada uno de los 30 parámetros, por ejemplo, como un diagrama de barras con una barra diferente para cada parámetro, y la varianza en el eje y:
Sin embargo, las variaciones están fuertemente sesgadas hacia valores pequeños, incluido 0, como se puede ver en el histograma a continuación:
Algunos lo han llamado " logaritmo iniciado " ( por ejemplo , John Tukey). (Para algunos ejemplos, Google John Tukey "inició el registro" ).
Está perfectamente bien usarlo. De hecho, puede esperar tener que usar un valor inicial distinto de cero para tener en cuenta el redondeo de la variable dependiente. Por ejemplo, al redondear la variable dependiente al entero más cercano se separa 1/12 de su varianza real, lo que sugiere que un valor de inicio razonable debería ser al menos 1/12. (Ese valor no hace un mal trabajo con estos datos. El uso de otros valores por encima de 1 realmente no cambia mucho la imagen; solo aumenta todos los valores en la gráfica inferior derecha casi de manera uniforme).
Existen razones más profundas para usar el logaritmo (o registro iniciado) para evaluar la varianza: por ejemplo, la pendiente de un gráfico de varianza contra el valor estimado en una escala de log-log estima un parámetro de Box-Cox para estabilizar la varianza . Tales ajustes de la ley de poder de variación a alguna variable relacionada a menudo se observan. (Esta es una declaración empírica, no teórica).
Si su propósito es presentar las variaciones, proceda con cuidado. Muchas audiencias (aparte de las científicas) no pueden entender un logaritmo, mucho menos uno iniciado. Usar un valor inicial de 1 al menos tiene el mérito de ser un poco más simple de explicar e interpretar que algún otro valor inicial. Algo a considerar es trazar sus raíces, que son las desviaciones estándar, por supuesto. Se vería algo así:
De todos modos, si su propósito es explorar los datos, aprender de ellos, ajustar un modelo o evaluar un modelo, entonces no permita que nada se interponga en el camino para encontrar representaciones gráficas razonables de sus datos y valores derivados de datos tales como estas variaciones.
Gracias por la explicación y la terminología / referencia adecuada. El público es lector de una revista científica y el tema es la descomposición de la varianza; entender el concepto de una transformación logarítmica es un requisito previo, pero aún no estaba seguro de si esta presentación requería más justificación; las raíces son una buena alternativa. Gracias.
David LeBauer
3
Puede ser razonable. La mejor pregunta es si 1 es el número apropiado para agregar. ¿Cuál fue tu mínimo? Si para empezar era 1, está imponiendo un intervalo particular entre los elementos con valor cero y aquellos con valor 1. Dependiendo del dominio de estudio, puede tener más sentido elegir 0.5 o 1 / e como compensación. La implicación de transformarse en una escala logarítmica es que ahora tiene una escala de razón.
Pero me molestan las tramas. Me gustaría preguntar si un modelo que tiene la mayor parte de la varianza explicada en la cola de una distribución sesgada se considera que tiene propiedades estadísticas deseables. Yo creo que no.
No estoy seguro de si está claro, pero los histogramas son de los 30 valores de varianza, y las gráficas de barras son los valores brutos de la varianza, es decir var <- c(0,0,1,3,10,100,150), hist(var), barplot(var), interpreto esto como algunos parámetros explican la mayor parte de la varianza, no la mayoría de la varianza explicada está en la cola. ¿Eso tiene más sentido? Lo siento si no estaba claro.
Puede ser razonable. La mejor pregunta es si 1 es el número apropiado para agregar. ¿Cuál fue tu mínimo? Si para empezar era 1, está imponiendo un intervalo particular entre los elementos con valor cero y aquellos con valor 1. Dependiendo del dominio de estudio, puede tener más sentido elegir 0.5 o 1 / e como compensación. La implicación de transformarse en una escala logarítmica es que ahora tiene una escala de razón.
Pero me molestan las tramas. Me gustaría preguntar si un modelo que tiene la mayor parte de la varianza explicada en la cola de una distribución sesgada se considera que tiene propiedades estadísticas deseables. Yo creo que no.
fuente
var <- c(0,0,1,3,10,100,150), hist(var), barplot(var)
, interpreto esto como algunos parámetros explican la mayor parte de la varianza, no la mayoría de la varianza explicada está en la cola. ¿Eso tiene más sentido? Lo siento si no estaba claro.