En la discusión que siguió a una pregunta reciente sobre si la desviación estándar puede exceder la media, se planteó una pregunta brevemente pero nunca se respondió por completo. Entonces lo estoy preguntando aquí.
Considere un conjunto de números no negativos donde para . No es necesario que sea distinto, es decir, el conjunto podría ser un conjunto múltiple. La media y la varianza del conjunto se definen como y la desviación estándar es . Tenga en cuenta que el conjunto de números no es
¿Cuál es el valor máximo de , el coeficiente de variación, sobre todas las opciones de las 's en el intervalo ?
El valor máximo que puedo encontrar para es que se logra cuando de tiene el valor y el resto (atípico) tiene valor , dando
¿Algunas ideas? Estoy seguro de que esta pregunta se ha estudiado anteriormente en la literatura estadística, por lo que las referencias, si no los resultados reales, serían muy apreciadas.
fuente
Respuestas:
La geometría proporciona información y las desigualdades clásicas permiten un fácil acceso al rigor.
Solución geométrica
Sabemos, por la geometría de los mínimos cuadrados , que es la proyección ortogonal del vector de datos x = ( x 1 , x 2 , ... , x n ) sobre El subespacio lineal generado por el vector constante ( 1 , 1 , ... , 1 ) y que σ xx¯=(x¯,x¯,…,x¯) x=(x1,x2,…,xn) (1,1,…,1) σx es directamente proporcional a la distancia (euclidiana) entre y ˉ x . Las restricciones de no negatividad son lineales y la distancia es una función convexa, por lo que los extremos de la distancia deben alcanzarse en los bordes del cono determinados por las restricciones. Este cono es el orante positivo en R n y sus bordes son los ejes de coordenadas, de donde se deduce inmediatamente que todos menos uno de los x i deben ser cero en las distancias máximas. Para tal conjunto de datos, un cálculo directo (simple) muestra σ x / ˉ x = √x x¯. Rn xi σx/x¯=n−−√.
Solución que explota las desigualdades clásicas
se optimiza simultáneamente con cualquier transformación monotónica de los mismos. A la luz de esto, maximicemosσx/x¯
(La fórmula para puede parecer misteriosa hasta que se dé cuenta de que solo registra los pasos que se tomarían al manipular algebraicamente σ x / ˉ x para obtener una forma de aspecto simple, que es el lado izquierdo).f σx/x¯
Una manera fácil comienza con la desigualdad de Holder ,
(Esto no necesita una prueba especial en este contexto simple: simplemente reemplace un factor de cada término por el componente máximo max ( { x i } ) : obviamente la suma de los cuadrados no disminuirá. el término común max ( { x i } ) produce el lado derecho de la desigualdad).x2i=xi×xi max({xi}) max({xi})
Debido a que no son todos 0 (eso dejaría σ x / ˉ x indefinido), la división por el cuadrado de su suma es válida y da la desigualdad equivalentexi 0 σx/x¯
Debido a que el denominador no puede ser menor que el numerador (que en sí mismo es solo uno de los términos en el denominador), el lado derecho está dominado por el valor , que se logra solo cuando todos menos uno de x i son iguales a 0 . De dónde1 xi 0
Enfoque alternativo
Dado que no es negativo y no puede sumar 0 , los valores p ( i ) = x i / ( x 1 + x 2 + … + x n ) determinan una distribución de probabilidad F en { 1 , 2 , … , n } . Escribiendo s para la suma de x i , reconocemosxi 0 p(i)=xi/(x1+x2+…+xn) F {1,2,…,n} s xi
El hecho axiomático de que ninguna probabilidad puede exceder implica que esta expectativa tampoco puede exceder 1 , pero es fácil hacerlo igual a 1 estableciendo que todos menos uno de los p i sean iguales a 0 y, por lo tanto, exactamente uno de los x i no es cero. Calcule el coeficiente de variación como en la última línea de la solución geométrica anterior.1 1 1 pi 0 xi
fuente
Algunas referencias, como pequeñas velas en los pasteles de otros:
Katsnelson y Kotz (1957) demostraron que mientras todos , entonces el coeficiente de variación no puede exceder √xi≥0 . Este resultado fue mencionado anteriormente por Longley (1952). Cramér (1946, p.357) demostró un resultado menos agudo, y Kirby (1974) demostró un resultado menos general.n−1−−−−−√
Cramér, H. 1946. Métodos matemáticos de estadística . Princeton, NJ: Princeton University Press.
Katsnelson, J. y S. Kotz. 1957. En los límites superiores de algunas medidas de variabilidad. Archiv für Meteorologie, Geophysik und Bioklimatologie , Serie B 8: 103-107.
Kirby, W. 1974. Límite algebraico de estadísticas de muestra. Water Resources Research 10: 220–222.
Longley, RW 1952. Medidas de la variabilidad de la precipitación. Monthly Weather Review 80: 111–117.
Encontré estos papeles trabajando en
Cox, NJ 2010. Los límites de la asimetría de la muestra y la curtosis. Stata Journal 10: 482-495.
que analiza límites ampliamente similares en asimetría y curtosis basadas en momentos.
fuente
With two numbersxi≥xj , some δ>0 and any μ :
Applying this ton non-negative datapoints, this means that unless all but one of the n numbers are zero and so cannot be reduced further, it is possible to increase the variance and standard deviation by widening the gap between any pair of the data points while retaining the same mean, thus increasing the coefficient of variation. So the maximum coefficient of variation for the data set is as you suggest: n−1−−−−−√ .
fuente