No entendí por qué las hay N
y N-1
al calcular la varianza de la población. ¿Cuándo usamos N
y cuándo usamos N-1
?
Haga clic aquí para una versión más grande.
Dice que cuando la población es muy grande no hay diferencia entre N y N-1, pero no dice por qué hay N-1 al principio.
Editar: no confunda con n
y n-1
cuáles se usan en la estimación.
Edit2: no estoy hablando de la estimación de la población.
variance
population
ilhan
fuente
fuente
Respuestas:
fuente
En lugar de entrar en matemáticas, trataré de ponerlo en palabras simples. Si tiene toda la población a su disposición, entonces su varianza ( varianza de población ) se calcula con el denominador
N
. Del mismo modo, si solo tiene una muestra y desea calcular la varianza de esta muestra , utilice el denominadorN
(n de la muestra, en este caso). En ambos casos, tenga en cuenta que no estima nada: la media que midió es la media real y la varianza que calculó a partir de esa media es la varianza verdadera.Ahora, solo tiene una muestra y desea inferir sobre la media y la varianza desconocidas en la población. En otras palabras, quieres estimaciones . Usted toma la media de su muestra para la estimación de la media de la población (porque su muestra es representativa), OK. Para obtener una estimación de la varianza de la población, debe pretender que esa media es realmente la media de la población y, por lo tanto, ya no depende de su muestra desde que la calculó. Para "mostrar" que ahora lo toma como fijo, reserva una (cualquier) observación de su muestra para "apoyar" el valor de la media: sea lo que sea que haya sucedido su muestra, una observación reservada siempre podría llevar la media al valor que usted ' que tengo y que creo es insensible a las contingencias de muestreo. Una observación reservada es "-1"
N-1
en cálculo de la varianza estimada.Imagine que de alguna manera conoce la media real de la población, pero desea estimar la varianza de la muestra. Luego sustituirá esa media verdadera en la fórmula para la varianza y aplicará el denominador
N
: aquí no se necesita "-1" ya que conoce la media verdadera, no la estimó a partir de esta misma muestra.fuente
N
N y n.N
es un tamaño de una totalidad a la mano, ya sea población o muestra. Para calcular la varianza de la población , debe tener la población a su disposición. Si solo tiene una muestra, puede calcular la varianza de esta muestra o calcular la varianza de estimación de población . No hay otra forma.En general, cuando uno tiene solo una fracción de la población, es decir, una muestra, debe dividir por n-1. Hay una buena razón para hacerlo, sabemos que la varianza de la muestra, que multiplica la desviación cuadrática media de la media de la muestra por (n − 1) / n, es un estimador imparcial de la varianza de la población.
Puede encontrar una prueba de que el estimador de la varianza de la muestra es imparcial aquí: https://economictheoryblog.com/2012/06/28/latexlatexs2/
Además, si se aplicara el estimador de la varianza de la población, es decir, la versión del estimador de la varianza que se divide por n, en una muestra de en lugar de la población, la estimación obtenida estaría sesgada.
fuente
En el pasado ha habido un argumento de que debería usar N para una varianza no inferencial, pero ya no lo recomendaría. Siempre debes usar N-1. A medida que disminuye el tamaño de la muestra, N-1 es una corrección bastante buena por el hecho de que la varianza de la muestra disminuye (es más probable que muestree cerca del pico de la distribución --- vea la figura). Si el tamaño de la muestra es realmente grande, entonces no importa ninguna cantidad significativa.
Una explicación alternativa es que la población es una construcción teórica que es imposible de lograr. Por lo tanto, siempre use N-1 porque, sea lo que sea que esté haciendo, en el mejor de los casos, está estimando la varianza de la población.
Además, verás N-1 para estimar las variaciones a partir de ahora. Es probable que nunca encuentres este problema ... excepto en una prueba en la que tu maestro podría pedirte que distingas entre una inferencia y medida de varianza no inferencial. En ese caso, no use la respuesta de whuber ni la mía, consulte la respuesta de ttnphns.
Tenga en cuenta que en esta figura la varianza debe ser cercana a 1. Mire cuánto varía con el tamaño de la muestra cuando usa N para estimar la varianza. (este es el "sesgo" al que se hace referencia en otra parte)
fuente
La varianza de la población es la suma de las desviaciones al cuadrado de todos los valores en la población dividida por el número de valores en la población. Sin embargo, cuando estimamos la varianza de una población de una muestra, encontramos el problema de que las desviaciones de los valores de la muestra de la media de la muestra son, en promedio, un poco menos que las desviaciones de esos valores de la muestra de ( desconocido) media poblacional verdadera. Eso da como resultado una variación calculada a partir de la muestra que es un poco menor que la variación real de la población. El uso de un divisor n-1 en lugar de n corrige esa subestimación.
fuente