Para un conjunto dado de datos, la dispersión a menudo se calcula como la desviación estándar o como el IQR (rango intercuartil).
Mientras que a standard deviation
está normalizado (puntajes z, etc.) y, por lo tanto, puede usarse para comparar la propagación de dos poblaciones diferentes, este no es el caso con el IQR ya que las muestras de dos poblaciones diferentes podrían tener valores en dos escalas bastante diferentes,
e.g.
Pop A: 100, 67, 89, 75, 120, ...
Pop B: 19, 22, 43, 8, 12, ...
Lo que busco es una medida robusta (no paramétrica) que puedo usar para comparar la variación dentro de diferentes poblaciones.
Opción 1:
IQR / Median
esto sería por analogía con el coeficiente de variación , es decir, con .
Elección 2:
Range / IQR
Pregunta: ¿Cuál es la medida más significativa para comparar la variación entre poblaciones? Y si es la Opción 1, ¿es la Opción 2 útil para algo / significativo, o es una medida fundamentalmente defectuosa?
Respuestas:
La pregunta implica que la desviación estándar (DE) de alguna manera está normalizada, por lo que puede usarse para comparar la variabilidad de dos poblaciones diferentes. No tan. Como dijeron Peter y John, esta normalización se realiza como cuando se calcula el coeficiente de variación (CV), que es igual a SD / media. El SD está en las mismas unidades que los datos originales. En contraste, el CV es una relación sin unidades.
Su elección 1 (IQR / mediana) es análoga a la CV. Al igual que el CV, solo tendría sentido cuando los datos son datos de relación. Esto significa que cero es realmente cero. Un peso de cero no es peso. Una longitud de cero no es longitud. Como contraejemplo, no tendría sentido para la temperatura en C o F, ya que la temperatura de cero grados (C o F) no significa que no haya temperatura. Simplemente cambiar entre el uso de la escala C o F le daría un valor diferente para el CV o para la relación IQR / Median, lo que hace que ambas relaciones no tengan sentido.
Estoy de acuerdo con Peter y John en que su segunda idea (Range / IQR) no sería muy sólida para los valores atípicos, por lo que probablemente no sería útil.
fuente
z-scores
estandarizar valores y normalizar su posición dentro de una distribución en términos de la media y la desviación estándar, con este problema, que se trata de poder clasificar grupos de productos en orden de variabilidad. Eligió su respuesta como la correcta porque, si bien Peter y John fueron muy útiles, la suya me alertó sobre la confusión conceptual. Un buen punto sobre la Elección 1 es de uso limitado cerca de la mediana 0. Afortunadamente, en mi problema, no tengo que preocuparme por esto.Es importante darse cuenta de que el mínimo y el máximo a menudo no son estadísticas muy buenas para usar (es decir, pueden fluctuar mucho de una muestra a otra, y no siguen una distribución normal ya que, por ejemplo, la media podría deberse al Teorema del límite central) . Como resultado, el rango rara vez es una buena opción para otra cosa que no sea establecer el rango de esta muestra exacta . Para que una estadística simple, no paramétrica, represente la variabilidad, el rango intercuartil es mucho mejor. Sin embargo, aunque veo la analogía entre IQR / mediana y el coeficiente de variación, no creo que esta sea la mejor opción.
fuente
MADM/median
, esencialmente la diferencia media del valor medio. Llamemos a esta opción 3. De acuerdo con su evaluación de la opción 1, así que está fuera, gracias. Cuando sugiere "mejor", ¿qué atributos se pueden usar para comparar la Opción 2 con la Opción 3 para ver cuál es mejor?MADM/median
intentarlo al ladoIQR/median
. La comparación lado a lado puede ser interesante. (+1 por la sugerencia interesante)"Elección 1" es lo que desea si está utilizando no paramétricos con el propósito común de reducir el efecto de los valores atípicos. Incluso si lo está usando debido a una inclinación que también tiene el efecto secundario de tener valores extremos en la cola, eso podría ser atípico. Su "Elección 2" podría verse dramáticamente afectada por valores atípicos o cualquier valor extremo, mientras que los componentes de su primera ecuación son relativamente robustos contra ellos.
[Esto dependerá un poco del tipo de IQR que seleccione (consulte la ayuda de R sobre cuantiles).]
fuente
quartile( )
, y luego tomoIQR := Q3 - Q1
. Mis números provienen de una serie temporal de mediciones semanales durante un año. Las mediciones son medidas de rendimiento industrial y, por lo tanto, de una distribución continua. Las diferentes poblaciones son diferentes grupos de productos. En esta situación, ¿no creo que las diferentes definiciones serían muy diferentes en la práctica?Prefiero no calcular medidas como CV porque casi siempre tengo un origen arbitrario para la variable aleatoria. Con respecto a la elección de una medida de dispersión robusta, es difícil superar la diferencia de medias de Gini, que es la media de todos los valores absolutos posibles de las diferencias entre dos observaciones. Para un cálculo eficiente, consulte, por ejemplo, la función del
rms
paquete R.GiniMd
En condiciones normales, la diferencia media de Gini es 0,98 tan eficiente como la DE para estimar la dispersión.fuente
Como @John, nunca he oído hablar de esa definición de coeficiente de variación. No lo llamaría así si lo usara, confundiría a la gente.
"¿Cuál es más útil?" dependerá de para qué lo quieras usar. Ciertamente, la opción 1 es más robusta para los valores atípicos, si está seguro de que eso es lo que desea. Pero, ¿cuál es el propósito de comparar las dos distribuciones? ¿Que estás tratando de hacer?
Una alternativa es estandarizar ambas medidas y luego mirar los resúmenes.
Otro es un diagrama QQ.
Hay muchos otros también.
fuente
Este artículo presenta dos buenas alternativas robustas para el coeficiente de variación. Uno es el rango intercuartil dividido por la mediana, es decir:
IQR / mediana = (Q3-Q1) / mediana
La otra es la desviación absoluta media dividida por la mediana, es decir:
MAD / mediana
Los comparan y concluyen que, en general, el segundo es un poco menos variable y probablemente mejor para la mayoría de las aplicaciones.
fuente