¿Cuál es la diferencia entre N y N-1 en el cálculo de la varianza de la población?

50

No entendí por qué las hay Ny N-1al calcular la varianza de la población. ¿Cuándo usamos Ny cuándo usamos N-1?

ingrese la descripción de la imagen aquí
Haga clic aquí para una versión más grande.

Dice que cuando la población es muy grande no hay diferencia entre N y N-1, pero no dice por qué hay N-1 al principio.

Editar: no confunda con ny n-1cuáles se usan en la estimación.

Edit2: no estoy hablando de la estimación de la población.

ilhan
fuente
55
Puede encontrar una respuesta allí: stats.stackexchange.com/questions/16008/… . Básicamente, debe usar N-1 cuando estima una varianza y N cuando la calcula exactamente.
ocram
@ocram, hasta donde yo sé cuando estimamos una varianza, usamos n o n-1.
ilhan
Si desea que su estimador sea imparcial, entonces debe usar n-1. Tenga en cuenta que cuando n es grande, esto no es un problema.
ocram
2
N1N11/Ny
StasK
2
Esto realmente no se suma a las otras respuestas. Que diferentes divisores dan diferentes respuestas, o incluso que la diferencia disminuye con N, no está en cuestión. La pregunta es cuándo y por qué usar cualquiera de los divisores.
Nick Cox

Respuestas:

26

Nn(N1)/N=1(1/N)12/N117/Nexp(1/N)

(n1)/nn11/N

NN

NN1NNn

whuber
fuente
24

En lugar de entrar en matemáticas, trataré de ponerlo en palabras simples. Si tiene toda la población a su disposición, entonces su varianza ( varianza de población ) se calcula con el denominador N. Del mismo modo, si solo tiene una muestra y desea calcular la varianza de esta muestra , utilice el denominador N(n de la muestra, en este caso). En ambos casos, tenga en cuenta que no estima nada: la media que midió es la media real y la varianza que calculó a partir de esa media es la varianza verdadera.

Ahora, solo tiene una muestra y desea inferir sobre la media y la varianza desconocidas en la población. En otras palabras, quieres estimaciones . Usted toma la media de su muestra para la estimación de la media de la población (porque su muestra es representativa), OK. Para obtener una estimación de la varianza de la población, debe pretender que esa media es realmente la media de la población y, por lo tanto, ya no depende de su muestra desde que la calculó. Para "mostrar" que ahora lo toma como fijo, reserva una (cualquier) observación de su muestra para "apoyar" el valor de la media: sea lo que sea que haya sucedido su muestra, una observación reservada siempre podría llevar la media al valor que usted ' que tengo y que creo es insensible a las contingencias de muestreo. Una observación reservada es "-1"N-1 en cálculo de la varianza estimada.

Imagine que de alguna manera conoce la media real de la población, pero desea estimar la varianza de la muestra. Luego sustituirá esa media verdadera en la fórmula para la varianza y aplicará el denominador N: aquí no se necesita "-1" ya que conoce la media verdadera, no la estimó a partir de esta misma muestra.

ttnphns
fuente
Pero mi pregunta no tiene nada que ver con la estimación. Se trata de calcular la varianza de la población; con N y N-1. No estoy hablando de n y n-1.
ilhan
1
@ilhan, en mi respuesta, solía usar NN y n. Nes un tamaño de una totalidad a la mano, ya sea población o muestra. Para calcular la varianza de la población , debe tener la población a su disposición. Si solo tiene una muestra, puede calcular la varianza de esta muestra o calcular la varianza de estimación de población . No hay otra forma.
ttnphns
Tengo una información completa sobre mi población; Todos los valores son conocidos. No estoy interesado en la estimación.
ilhan
1
Si tiene su población, entonces use N. N-1 sería ilógico de usar.
ttnphns
1
@ilhan: no se pudo comentar directamente su comentario en la publicación de ttnphns, pero aquí hay una explicación de lo que ve en el libro y cómo debe inferirlo. El símbolo 'S' cuando se usa para implicar varianza siempre se refiere a la varianza de la muestra. La letra griega sigma se usa para referirse a la varianza de la población. Esa es la razón por la que ves que el libro menciona S = N * sigma / (N - 1)
Arvind
9

En general, cuando uno tiene solo una fracción de la población, es decir, una muestra, debe dividir por n-1. Hay una buena razón para hacerlo, sabemos que la varianza de la muestra, que multiplica la desviación cuadrática media de la media de la muestra por (n − 1) / n, es un estimador imparcial de la varianza de la población.

Puede encontrar una prueba de que el estimador de la varianza de la muestra es imparcial aquí: https://economictheoryblog.com/2012/06/28/latexlatexs2/

Además, si se aplicara el estimador de la varianza de la población, es decir, la versión del estimador de la varianza que se divide por n, en una muestra de en lugar de la población, la estimación obtenida estaría sesgada.

Frank Kelly
fuente
Esto parece responder a una pregunta diferente con respecto a la estimación de la varianza de la población. Parece circular: ¿no se basa esta respuesta en asumir una convención específica para definir la varianza de la población en primer lugar?
whuber
7

En el pasado ha habido un argumento de que debería usar N para una varianza no inferencial, pero ya no lo recomendaría. Siempre debes usar N-1. A medida que disminuye el tamaño de la muestra, N-1 es una corrección bastante buena por el hecho de que la varianza de la muestra disminuye (es más probable que muestree cerca del pico de la distribución --- vea la figura). Si el tamaño de la muestra es realmente grande, entonces no importa ninguna cantidad significativa.

Una explicación alternativa es que la población es una construcción teórica que es imposible de lograr. Por lo tanto, siempre use N-1 porque, sea lo que sea que esté haciendo, en el mejor de los casos, está estimando la varianza de la población.

Además, verás N-1 para estimar las variaciones a partir de ahora. Es probable que nunca encuentres este problema ... excepto en una prueba en la que tu maestro podría pedirte que distingas entre una inferencia y medida de varianza no inferencial. En ese caso, no use la respuesta de whuber ni la mía, consulte la respuesta de ttnphns.

Figura 1

Tenga en cuenta que en esta figura la varianza debe ser cercana a 1. Mire cuánto varía con el tamaño de la muestra cuando usa N para estimar la varianza. (este es el "sesgo" al que se hace referencia en otra parte)

John
fuente
1
Por favor, dime por qué N "ya no se recomienda" con la población real a la mano. La población no siempre es una construcción teórica. A veces su muestra es una población de buena fe para usted.
ttnphns
1
ilhan, N puede usarse para su muestra, o puede usarse para el tamaño de la población, si existe. En la mayoría de los casos, la distinción entre N grande y n pequeña depende del tema. Por ejemplo, n podría ser el número de casos en cada condición en un experimento, mientras que N podría ser el número del experimento. Ambas son muestras. No hay una regla global.
John
1
ttnphns, depende de lo que quieres decir con población. Yo diría que si toda su población es tan pequeña que N-1 es importante, entonces es cuestionable si el cálculo de una desviación cuadrática media es remotamente útil. Muestra todos los valores, su forma y rango. Además, el viejo argumento de que en realidad tienes N grados de libertad si no estás haciendo una inferencia es cuestionable. Perdió uno cuando calculó la media, que necesitaba calcular la varianza.
John
1
@John, si calcula la media dentro de la población, simplemente indica el hecho sobre el parámetro, por lo que no gasta ningún grado de libertad. Si lo calcula en una muestra y quiere inferir sobre la población, entonces gasta uno. Además, puedo tener población con N = 1. Con el denominador N-1, parece que dicho parámetro como varianza no existe para él. Esto no tiene sentido.
ttnphns
3
@ilhan Por favor, considere actualizar su pregunta (como lo hizo) y apunte a la versión actualizada en lugar de dejar comentarios no constructivos. Todo es discutible, especialmente cuando la pregunta en sí carece de algún contexto. Aquí parece que el problema radica en definir qué es realmente una población.
chl
4

La varianza de la población es la suma de las desviaciones al cuadrado de todos los valores en la población dividida por el número de valores en la población. Sin embargo, cuando estimamos la varianza de una población de una muestra, encontramos el problema de que las desviaciones de los valores de la muestra de la media de la muestra son, en promedio, un poco menos que las desviaciones de esos valores de la muestra de ( desconocido) media poblacional verdadera. Eso da como resultado una variación calculada a partir de la muestra que es un poco menor que la variación real de la población. El uso de un divisor n-1 en lugar de n corrige esa subestimación.

Michael Lew
fuente
@ Bunnenburg, si tienes respuesta a tu pregunta. Por favor aclarame ahora, ¿qué tienes? También es una gran confusión para mí.
Bilal Para
para compensar esa pequeña variación que obtenemos, ¿por qué no se puede usar n-2, n-3, etc.? ¿Por qué n-1 en particular? ¿Por qué no una constante ... ???
Saravanabalagi Ramachandran
@SaravanabalagiRamachandran La discrepancia varía con el tamaño de la muestra y, por lo tanto, una constante no servirá. La corrección usando n-1 está más cerca y funciona mejor que las otras que mencionas.
Michael Lew