Tengo un conjunto de datos de observaciones de muestra, almacenadas como recuentos dentro de intervalos. p.ej:
min/max count
40/44 1
45/49 2
50/54 3
55/59 4
70/74 1
Ahora, encontrar una estimación del promedio de esto es bastante sencillo. Simplemente use la media (o mediana) de cada intervalo de rango como observación y el recuento como un peso y encuentre el promedio ponderado:
Para mi caso de prueba, esto me da 53.82.
Mi pregunta ahora es, ¿cuál es el método correcto para encontrar la desviación estándar (o varianza)?
A través de mi búsqueda, encontré varias respuestas, pero no estoy seguro de cuál, si alguna, es realmente apropiado para mi conjunto de datos. Pude encontrar la siguiente fórmula tanto en otra pregunta aquí como en un documento NIST aleatorio .
Lo que da una desviación estándar de 8.35 para mi caso de prueba. Sin embargo, el artículo de Wikipedia sobre medios ponderados ofrece la fórmula:
y
Que dan desviaciones estándar de 8.66 y 7.83, respectivamente, para mi caso de prueba.
Actualizar
Gracias a @whuber que sugirió investigar las correcciones de Sheppard y sus útiles comentarios relacionados con ellas. Desafortunadamente, me está costando entender los recursos que puedo encontrar al respecto (y no puedo encontrar ningún buen ejemplo). Sin embargo, para resumir, entiendo que lo siguiente es una estimación sesgada de la varianza:
También entiendo que la mayoría de las correcciones estándar para el sesgo son para muestras aleatorias directas de una distribución normal. Por lo tanto, veo dos problemas potenciales para mí:
- Estas son muestras aleatorias agrupadas (que, estoy bastante seguro, es donde entran las correcciones de Sheppard).
- No se sabe si los datos son o no para una distribución normal (por lo tanto, supongo que no, lo que, estoy bastante seguro, invalida las correcciones de Sheppard).
Entonces, mi pregunta actualizada es; ¿Cuál es el método apropiado para manejar el sesgo impuesto por la fórmula de desviación / varianza estándar ponderada "simple" en una distribución no normal? Más específicamente con respecto a los datos agrupados.
Nota: estoy usando los siguientes términos:
- es la varianza ponderada
- es el número de observaciones. (es decir, el número de contenedores)
- es el número de pesos distintos de cero. (es decir, el número de contenedores con recuentos)
- son los pesos (es decir, los recuentos)
- son las observaciones. (es decir, el bin significa)
- es la media ponderada.
Respuestas:
Esta respuesta presenta dos soluciones: las correcciones de Sheppard y una estimación de máxima verosimilitud. Ambos coinciden estrechamente en una estimación de la desviación estándar: para el primero y 7,69 para el segundo (cuando se ajusta para ser comparable al estimador "imparcial" habitual).7,70 7.69
Correcciones de Sheppard
Las "correcciones de Sheppard" son fórmulas que ajustan los momentos calculados a partir de datos agrupados (como estos) donde
se supone que los datos se rigen por una distribución compatible con un intervalo finito[ a , b ]
ese intervalo se divide secuencialmente en contenedores iguales de ancho común que es relativamente pequeño (ningún contenedor contiene una gran proporción de todos los datos)h
La distribución tiene una función de densidad continua.
Se derivan de la fórmula de suma de Euler-Maclaurin, que se aproxima a integrales en términos de combinaciones lineales de valores del integrando en puntos regularmente espaciados, y por lo tanto generalmente aplicable (y no solo a distribuciones normales).
Aunque estrictamente hablando, una distribución Normal no se admite en un intervalo finito, sí lo es en una aproximación extremadamente cercana. Esencialmente, toda su probabilidad está contenida dentro de siete desviaciones estándar de la media. Por lo tanto, las correcciones de Sheppard son aplicables a los datos que se supone provienen de una distribución Normal.
Las dos primeras correcciones de Sheppard son
Utilice la media de los datos agrupados para la media de los datos (es decir, no se necesita corrección para la media).
Hagamos los cálculos. Solía
R
ilustrarlos, comenzando especificando los recuentos y los contenedores:La fórmula adecuada para usar para los recuentos proviene de la replicación de los anchos de la papelera por las cantidades dadas por los recuentos; es decir, los datos agrupados son equivalentes a
mu
sigma2
Estimaciones de máxima verosimilitud
(Ver MLE / Probabilidad de intervalo lognormalmente distribuido ).
R
Verificando los supuestos
Para visualizar estos resultados, podemos trazar la densidad normal ajustada sobre un histograma:
R
La salida es
fuente