Parece que no puedo encontrar una respuesta definitiva a mi pregunta.
Mis datos consisten en varias parcelas con medias medidas que varían de 0.27 a 0.57. En mi caso, todos los valores de datos son positivos, pero la medición en sí misma se basa en una relación de valores de reflectancia que puede variar de -1 a +1. Las parcelas representan valores del NDVI , un indicador derivado de forma remota de la "productividad" de la vegetación.
Mi intención era comparar la variabilidad de los valores en cada gráfico, pero como cada gráfico tiene una media diferente, opté por usar el CV para medir la dispersión relativa de los valores de NDVI por gráfico.
Por lo que entiendo, tomar el CV de estos gráficos no es kosher porque cada gráfico puede tener valores positivos y negativos. ¿Por qué no es apropiado usar el CV en tales casos? ¿Cuáles serían algunas alternativas viables (es decir, una prueba similar de dispersión relativa, transformaciones de datos, etc.)?
fuente
Respuestas:
Piensa en qué es CV: relación entre la desviación estándar y la media. Pero si la variable puede tener valores positivos y negativos, la media podría estar muy cerca de 0; por lo tanto, CV ya no hace lo que se supone que debe hacer: es decir, dar una idea de qué tan grande es el SD, en comparación con la media.
EDITAR: En un comentario, dije que si pudieras agregar sensiblemente una constante a la variable, el CV no era bueno. Aquí hay un ejemplo:
x2 es simplemente x + 10. Creo que es intuitivamente claro que son igualmente variables; Pero el CV es diferente.
Un ejemplo real de esto sería si x fuera la temperatura en grados C y x2 fuera la temperatura en grados K (aunque podría argumentarse que K es la escala adecuada, ya que tiene un 0 definido).
fuente
Pienso en estos como diferentes modelos de variación. Hay modelos estadísticos donde el CV es constante. Donde esos trabajan uno puede reportar un CV. Hay modelos donde la desviación estándar es una función de potencia de la media. Hay modelos donde la desviación estándar es constante. Como regla general, un modelo de CV constante es una mejor suposición inicial que un modelo SD constante, para las variables de escala de razón. Puede especular sobre por qué eso sería cierto, quizás basado en la prevalencia de interacciones multiplicativas en lugar de aditivas.
El modelado de CV constante a menudo se asocia con la transformación logarítmica. (Una excepción importante es una respuesta no negativa que a veces es cero). Hay un par de maneras de ver eso. Primero, si el CV es constante, los registros son la transformación convencional de estabilización de varianza. Alternativamente, si su modelo de error es lognormal con SD constante en la escala logarítmica, entonces el CV es una simple transformación de esa SD. El CV es casi igual al SD de escala logarítmica cuando ambos son pequeños.
Dos formas de aplicar métodos de estadísticas 101, como una desviación estándar, son los datos de la forma en que los obtuvo o (especialmente si se trata de una escala de relación) a sus registros. Primero adivina lo mejor que puede saber que la naturaleza podría ser bastante más complicada y que es necesario seguir estudiando. Tenga en cuenta lo que la gente ha encontrado productivo con su tipo de datos.
Aquí hay un caso donde estas cosas son importantes. Las concentraciones químicas a veces se resumen con CV o se modelan en una escala logarítmica. Sin embargo, el pH es una concentración logarítmica.
fuente