¿Por qué el coeficiente de variación no es válido cuando se usan datos con valores positivos y negativos?

10

Parece que no puedo encontrar una respuesta definitiva a mi pregunta.

Mis datos consisten en varias parcelas con medias medidas que varían de 0.27 a 0.57. En mi caso, todos los valores de datos son positivos, pero la medición en sí misma se basa en una relación de valores de reflectancia que puede variar de -1 a +1. Las parcelas representan valores del NDVI , un indicador derivado de forma remota de la "productividad" de la vegetación.

Mi intención era comparar la variabilidad de los valores en cada gráfico, pero como cada gráfico tiene una media diferente, opté por usar el CV para medir la dispersión relativa de los valores de NDVI por gráfico.

Por lo que entiendo, tomar el CV de estos gráficos no es kosher porque cada gráfico puede tener valores positivos y negativos. ¿Por qué no es apropiado usar el CV en tales casos? ¿Cuáles serían algunas alternativas viables (es decir, una prueba similar de dispersión relativa, transformaciones de datos, etc.)?

Profeta 60091
fuente
1
¿Cuál es el propósito de comparar la variabilidad? ¿Por qué no solo compara las medidas de variabilidad real, como SD, MAD, rango o lo que sea, en lugar de una medida relativa como el CV (que no tiene sentido aquí)?
whuber
Estoy usando CV para tener en cuenta las diferencias en las medias entre parcelas. ¿No tiene sentido porque los valores oscilan entre -1 y +1 en todas las parcelas? es decir, la "variabilidad real" sería más indicativa de las diferencias entre las parcelas?
Profeta 60091
2
CV es una medida relativa de variación, por definición. Da resultados sin sentido para cualquier media negativa (no se puede interpretar una cantidad negativa de dispersión o propagación). Para los medios positivos, hace que una cantidad dada de propagación parezca mucho más grande cuando la media es pequeña. Cuando se quiere esto, lo que está haciendo es efectivamente equivalente a comparar sus datos en una escala logarítmica, y eso no tiene sentido siempre que alguno de los datos pueda ser cero o negativo. Es posible que sus datos necesiten algún tipo de reexpresión para permitir buenas comparaciones de variabilidad; depende de cómo se generen.
whuber
+1 para explicación. Si bien las medias de mis gráficos son todas positivas, podría haber valores negativos dentro de cada gráfico. Basado en lo anterior, y la respuesta de Peter a continuación, parece que usar el CV no está garantizado. Analizaré la posibilidad de reescalar los valores y / o usar medidas de variabilidad real.
Prophet60091
1
Si puede reescalar sensiblemente sus datos agregando una constante, eso también significaría que CV no es una buena idea. Esto se debe a que agregar una constante cambiará el CV pero no cambiará la variación.
Peter Flom - Restablece a Monica

Respuestas:

11

Piensa en qué es CV: relación entre la desviación estándar y la media. Pero si la variable puede tener valores positivos y negativos, la media podría estar muy cerca de 0; por lo tanto, CV ya no hace lo que se supone que debe hacer: es decir, dar una idea de qué tan grande es el SD, en comparación con la media.

EDITAR: En un comentario, dije que si pudieras agregar sensiblemente una constante a la variable, el CV no era bueno. Aquí hay un ejemplo:

set.seed(239920)
x <- rnorm(100, 10, 2)
min(x)#To check that none are negative
(CVX <- sd(x)/mean(x))
x2 <- x + 10
(CVX2 <- sd(x2)/mean(x2))

x2 es simplemente x + 10. Creo que es intuitivamente claro que son igualmente variables; Pero el CV es diferente.

Un ejemplo real de esto sería si x fuera la temperatura en grados C y x2 fuera la temperatura en grados K ​​(aunque podría argumentarse que K es la escala adecuada, ya que tiene un 0 definido).

Peter Flom - Restablece a Monica
fuente
¡Gracias! Entonces, la preocupación es más acerca de tener una media cercana a cero, y no necesariamente tener valores positivos y negativos en sus datos. Si es así, ¿qué tan cerca de una media de cero se considera "muy cerca"? En mi caso, diría que estoy lejos de tener mis medios cerca de cero. ¿Hay una manera definitiva de determinar esto?
Profeta 60091
No, la preocupación es que el CV ya no hace lo que se supone que debe hacer, incluso si solo hay un valor negativo. Si tiene valores negativos, no use CV. Además, si sus valores están en una escala arbitraria, no use CV.
Peter Flom - Restablece a Monica
Para completar, ¿podría darnos un poco más de explicación sobre por qué el uso de una escala arbitraria invalida el uso del CV? ¡Gracias!
Profeta 60091
Para ser justos, creo que @whuber no estaba abogando por la comparación de los datos transformados frente a los no transformados, pero su punto sigue siendo claro: la escala afectará el CV, cuando uno podría pensar que los resultados deberían seguir siendo los mismos. +1 para el código de juguete R!
Profeta 60091
No tengo discusión con los comentarios de @whuber en este hilo.
Peter Flom - Restablece a Monica
0

Pienso en estos como diferentes modelos de variación. Hay modelos estadísticos donde el CV es constante. Donde esos trabajan uno puede reportar un CV. Hay modelos donde la desviación estándar es una función de potencia de la media. Hay modelos donde la desviación estándar es constante. Como regla general, un modelo de CV constante es una mejor suposición inicial que un modelo SD constante, para las variables de escala de razón. Puede especular sobre por qué eso sería cierto, quizás basado en la prevalencia de interacciones multiplicativas en lugar de aditivas.

El modelado de CV constante a menudo se asocia con la transformación logarítmica. (Una excepción importante es una respuesta no negativa que a veces es cero). Hay un par de maneras de ver eso. Primero, si el CV es constante, los registros son la transformación convencional de estabilización de varianza. Alternativamente, si su modelo de error es lognormal con SD constante en la escala logarítmica, entonces el CV es una simple transformación de esa SD. El CV es casi igual al SD de escala logarítmica cuando ambos son pequeños.

Dos formas de aplicar métodos de estadísticas 101, como una desviación estándar, son los datos de la forma en que los obtuvo o (especialmente si se trata de una escala de relación) a sus registros. Primero adivina lo mejor que puede saber que la naturaleza podría ser bastante más complicada y que es necesario seguir estudiando. Tenga en cuenta lo que la gente ha encontrado productivo con su tipo de datos.

Aquí hay un caso donde estas cosas son importantes. Las concentraciones químicas a veces se resumen con CV o se modelan en una escala logarítmica. Sin embargo, el pH es una concentración logarítmica.

hotgas
fuente
3
¡Gracias por su contribución y bienvenido a nuestro sitio! ¿Podría aclarar cómo su respuesta aborda la pregunta sobre la validez de usar un CV para caracterizar datos que pueden tener valores negativos? Esa situación parece no estar cubierta por ninguno de sus comentarios.
whuber