Esta puede ser una pregunta simple para muchos, pero aquí está:
¿Por qué no se define la varianza como la diferencia entre cada valor que se sigue entre sí en lugar de la diferencia con el promedio de los valores?
Esta sería la opción más lógica para mí, supongo que obviamente estoy supervisando algunas desventajas. Gracias
EDITAR:
Permítanme reformular lo más claramente posible. Esto es lo que quiero decir:
- Suponga que tiene un rango de números, ordenados: 1,2,3,4,5
- Calcule y resuma las diferencias (absolutas) (continuamente, entre cada valor siguiente, no en pares) entre valores (sin usar el promedio).
- Divide por número de diferencias
- (Seguimiento: la respuesta sería diferente si los números no estuvieran ordenados)
-> ¿Cuáles son las desventajas de este enfoque en comparación con la fórmula estándar para la varianza?
Respuestas:
La razón más obvia es que a menudo no hay una secuencia de tiempo en los valores. Entonces, si mezcla los datos, no hay diferencia en la información transmitida por los datos. Si seguimos su método, cada vez que mezcle los datos obtendrá una variación de muestra diferente.
La respuesta más teórica es que la varianza muestral estima la varianza verdadera de una variable aleatoria. La verdadera varianza de una variable aleatoria es E [ ( X - E X ) 2 ] .X
Aquí representa la expectativa o "valor promedio". Entonces, la definición de la varianza es la distancia cuadrática promedio entre la variable y su valor promedio. Cuando observa esta definición, no hay "orden de tiempo" aquí ya que no hay datos. Es solo un atributo de la variable aleatoria.E
Cuando recopila datos iid de esta distribución, tiene realizaciones . La mejor manera de estimar la expectativa es tomar los promedios de muestra. La clave aquí es que obtuvimos los datos de iid y, por lo tanto, no hay pedidos para los datos. La muestra x 1 , x 2 , ... , x n es la misma que la muestra x 2 , x 5 , x 1 , x n . .x1,x2,…,xn x1,x2,…,xn x2,x5,x1,xn. .
EDITAR
La varianza de la muestra mide un tipo específico de dispersión para la muestra, el que mide la distancia promedio desde la media. Existen otros tipos de dispersión, como el rango de datos y el rango intercuartil.
Incluso si ordena sus valores en orden ascendente, eso no cambia las características de la muestra. La muestra (datos) que obtiene son realizaciones de una variable. Calcular la varianza de la muestra es similar a comprender cuánta dispersión hay en la variable. Entonces, por ejemplo, si muestreas 20 personas y calculas su altura, entonces esas son 20 "realizaciones" de la variable aleatoria altura de las personas. Ahora se supone que la varianza muestral mide la variabilidad en la altura de los individuos en general. Si solicita los datos 100 , 110 , 123 , 124 , ... ,X=
eso no cambia la información en la muestra.
Veamos un ejemplo más. digamos que usted tiene 100 observaciones de una variable aleatoria ordenado de esta manera Luego, la distancia subsiguiente promedio es de 1 unidades, por lo que según su método, la varianza será 1.
La forma de interpretar "varianza" o "dispersión" es entender qué rango de valores es probable para los datos. En este caso, obtendrá un rango de .99 unidades, que por supuesto no representa bien la variación.
Si en lugar de tomar el promedio simplemente suma las diferencias subsiguientes, entonces su varianza será 99. Por supuesto, eso no representa la variabilidad en la muestra, porque 99 le da el rango de los datos, no una sensación de variabilidad.
fuente
Que se define de esa manera!
Aquí está el álgebra. Deje que los valores sean . Denotamos por F la función de distribución empírica de estos valores (que significa que cada x i contribuye con una masa de probabilidad de 1 / n en el valor x i ) y dejar que X y Y variables aleatorias independientes con distribución F . En virtud de las propiedades básicas de la varianza (es decir, es una forma cuadrática), así como la definición de F y el hechox=(x1,x2,…,xn) F xi 1/n xi X Y F F e Y tienen la misma media,X Y
Esta fórmula no depende de la forma en que se ordena : utiliza todos los pares de componentes posibles, comparándolos con la mitad de sus diferencias al cuadrado. Sin embargo, puede estar relacionado con un promedio sobre todos los ordenamientos posibles (el grupo S ( n ) de todas las n ! Permutaciones de los índices 1 , 2 , ... , n ). A saber,x S(n) n! 1,2,…,n
Esa suma interna toma los valores reordenados y suma las diferencias (medias) al cuadrado entre todos los pares sucesivos n - 1 . La división por n promedia esencialmente estas sucesivas diferencias al cuadrado . Calcula lo que se conoce como la semivariancia lag-1 . La suma externa hace esto para todos los ordenamientos posibles .xσ(1),xσ(2),…,xσ(n) n−1 n
Estas dos vistas algebraicas equivalentes de la fórmula de varianza estándar dan una nueva perspectiva de lo que significa la varianza. La semivariancia es una medida inversa de la covarianza en serie de una secuencia: la covarianza es alta (y los números están positivamente correlacionados) cuando la semivariancia es baja, y viceversa. La varianza de un conjunto de datos desordenado , entonces, es una especie de promedio de todas las semivariaciones posibles obtenibles bajo reordenamientos arbitrarios.
fuente
Just a complement to the other answers, variance can be computed as the squared difference between terms:
I think this is the closest to the OP proposition. Remember the variance is a measure of dispersion of every observation at once, not only between "neighboring" numbers in the set.
UPDATE
Using your example:X=1,2,3,4,5 . We know the variance is Var(X)=2 .
With your proposed methodVar(X)=1 , so we know beforehand taking the differences between neighbors as variance doesn't add up. What I meant was taking every possible difference squared then summed:
fuente
Others have answered about the usefulness of variance defined as usual. Anyway, we just have two legitimate definitions of different things: the usual definition of variance, and your definition.
Then, the main question is why the first one is called variance and not yours. That is just a matter of convention. Until 1918 you could have invented anything you want and called it "variance", but in 1918 Fisher used that name to what is still called variance, and if you want to define anything else you will need to find another name to name it.
The other question is if the thing you defined might be useful for anything. Others have pointed its problems to be used as a measure of dispersion, but it's up to you to find applications for it. Maybe you find so useful applications that in a century your thing is more famous than variance.
fuente
La respuesta de @GreenParker es más completa, pero un ejemplo intuitivo podría ser útil para ilustrar el inconveniente de su enfoque.
En su pregunta, parece suponer que el orden en que aparecen las realizaciones de una variable aleatoria es importante. Sin embargo, es fácil pensar en ejemplos en los que no lo hace.
Considere el ejemplo de la altura de los individuos en una población. El orden en que se miden los individuos es irrelevante tanto para la altura media en la población como para la varianza (cómo se distribuyen esos valores alrededor de la media).
Su método parecería extraño aplicado a tal caso.
fuente
Although there are many good answers to this question I believe some important points where left behind and since this question came up with a really interesting point I would like to provide yet another point of view.
The first thing to have in mind is that the variance is a particular kind of parameter, and not a certain type of calculation. There is a rigorous mathematical definition of what a parameter is but for the time been we can think of then as mathematical operations on the distribution of a random variable. For example ifX is a random variable with distribution function FX then its mean μx , which is also a parameter, is:
and the variance ofX , σ2X , is:
The role of estimation in statistics is to provide, from a set of realizations of a r.v., a good approximation for the parameters of interest.
What I wanted to show is that there is a big difference in the concepts of a parameters (the variance for this particular question) and the statistic we use to estimate it.
So we want to estimate the variance of a random variableX from a set of independent realizations of it, lets say x={x1,…,xn} . The way you propose doing it is by computing the absolute value of successive differences, summing and taking the mean:
and the usual statistic is:
wherex¯ is the sample mean.
When comparing two estimator of a parameter the usual criterion for the best one is that which has minimal mean square error (MSE), and a important property of MSE is that it can be decomposed in two components:
MSE = estimator bias + estimator variance.
Using this criterion the usual statistic,S2 , has some advantages over the one you suggests.
First it is a unbiased estimator of the variance but your statistic is not unbiased.
One other important thing is that if we are working with the normal distribution thenS2 is the best unbiased estimator of σ2 in the sense that it has the smallest variance among all unbiased estimators and thus minimizes the MSE.
When normality is assumed, as is the case in many applications,S2 is the natural choice when you want to estimate the variance.
fuente
The time-stepped difference is indeed used in one form, the Allan Variance. http://www.allanstime.com/AllanVariance/
fuente
Lots of good answers here, but I'll add a few.
Nonetheless, as @Pere said, your metric might prove itself very useful in the future.
fuente