La fórmula para calcular la varianza tiene en el denominador:
Siempre me he preguntado por qué. Sin embargo, leer y ver algunos buenos videos sobre "por qué" es, al parecer, es un buen estimador imparcial de la varianza de la población. Mientras que subestima y sobreestima la varianza de la población.
Lo que tengo curiosidad por saber es que, en la era de las computadoras, ¿cómo se hizo exactamente esta elección? ¿Existe una prueba matemática real que pruebe esto o fue esto puramente empírico y los estadísticos hicieron MUCHOS cálculos a mano para llegar a la "mejor explicación" en ese momento?
¿Cómo se les ocurrió a los estadísticos esta fórmula a principios del siglo XIX con la ayuda de las computadoras? Manual o hay más de lo que parece?
variance
unbiased-estimator
proof
history
Doctor
fuente
fuente
Respuestas:
La corrección se llama corrección de Bessel y tiene una prueba matemática. Personalmente, me enseñaron de la manera más fácil: usar es cómo corregir el sesgo de (ver aquí ).n−1 E[1n∑n1(xi−x¯)2]
También puede explicar la corrección basada en el concepto de grados de libertad, la simulación no es estrictamente necesaria.
fuente
La mayoría de las pruebas que he visto son lo suficientemente simples como para que a Gauss (como lo hizo) probablemente le resulte bastante fácil de probar.
He estado buscando una derivación en CV a la que podría vincularlo (hay varios enlaces a pruebas fuera del sitio, incluido al menos uno en las respuestas aquí), pero no he encontrado uno aquí en CV en un Un par de búsquedas, por lo que para completar, daré una simple. Dada su simplicidad, es fácil ver cómo las personas comenzarían a usar lo que generalmente se llama la corrección de Bessel .
Esto toma como conocimiento asumido, y supone que se conocen las primeras propiedades básicas de varianza .E(X2)=Var(X)+E(X)2
fuente
Según el World of Mathematics de Weisstein, Gauss lo probó por primera vez en 1823. La referencia es el volumen 4 de Gauss 'Werke, que se puede leer en https://archive.org/details/werkecarlf04gausrich . Las páginas relevantes parecen ser 47-49. Parece que Gauss investigó la pregunta y se le ocurrió una prueba. No leo latín, pero hay un resumen en alemán en el texto. Las páginas 103-104 explican lo que hizo (Editar: agregué una traducción aproximada):
de lo cual parecería que era bien sabido que la varianza de la muestra es una estimación sesgada de la varianza de la población. El artículo continúa diciendo que la diferencia entre los dos generalmente se ignora porque no es importante si el tamaño de la muestra es lo suficientemente grande. Entonces dice:
Entonces, si esta es la primera vez que se encuentra la corrección, entonces parece que Gauss la encontró mediante un cálculo inteligente, pero la gente ya sabía que se requería alguna corrección, por lo que tal vez alguien más podría haberla encontrado empíricamente antes de esto . O posiblemente los autores anteriores no quisieron obtener la respuesta precisa porque de todos modos estaban trabajando con conjuntos de datos bastante grandes.
Resumen: manual, pero la gente ya sabía que en el denominador no era del todo correcto.n
fuente
Para mí, una intuición es que
Es decir,
De hecho, probar la ecuación anterior requiere un poco de álgebra (este álgebra es muy similar a la respuesta de @ Glen_b anterior). Pero suponiendo que sea cierto, podemos reorganizar para obtener:
Para mí, otra parte de la intuición es que usar lugar de introduce un sesgo. Y este sesgo es exactamente igual a .X¯ μ E[(X¯−μ)2]=σ2n
fuente
La mayoría de las respuestas ya lo han explicado detalladamente, pero aparte de esas, hay una ilustración simple que uno podría encontrar útil:
Suponga que se le da que y los primeros tres números son:n=4
Ahora el cuarto número puede ser cualquier cosa ya que no hay restricciones. Ahora considere la situación cuando se le da que y , entonces si los primeros tres números son: entonces el cuarto número debe ser .n=4 x¯=6 8,4,6 6
Esto quiere decir que si conoce valores y , entonces el valor no tiene libertad. Por lo tanto, nos da un estimador imparcial.n−1 x¯ nth n−1
fuente