Entonces, tengo un conjunto de porcentajes de datos como este:
100 / 10000 = 1% (0.01)
2 / 5 = 40% (0.4)
4 / 3 = 133% (1.3)
1000 / 2000 = 50% (0.5)
Quiero encontrar la desviación estándar de los porcentajes, pero ponderada por su volumen de datos. es decir, el primer y último punto de datos deben dominar el cálculo.
¿Cómo puedo hacer eso? ¿Y hay una manera simple de hacerlo en Excel?
Respuestas:
La fórmula para la desviación estándar ponderada es:
dónde
es el número de observaciones.N
es el número de pesos distintos de cero.M
soy los pesoswi
son las observaciones.xi
es la media ponderada.x¯∗
Recuerde que la fórmula para la media ponderada es:
Use los pesos apropiados para obtener el resultado deseado. En su caso, sugeriría usar .Number of cases in segmentTotal number of cases
Para hacer esto en Excel, primero debe calcular la media ponderada. Luego calcule el en una columna separada. El resto debe ser muy fácil.(xi−x¯∗)2
fuente
Las fórmulas están disponibles en varios lugares, incluida Wikipedia .
La clave es notar que depende de lo que significan los pesos . En particular, obtendrá diferentes respuestas si los pesos son frecuencias (es decir, solo está tratando de evitar sumar la suma total), si los pesos son en realidad la varianza de cada medición, o si son solo algunos valores externos imponer en sus datos.
En su caso, parece que superficialmente los pesos son frecuencias pero no lo son . Usted genera sus datos a partir de frecuencias, pero no se trata simplemente de tener 45 registros de 3 y 15 registros de 4 en su conjunto de datos. En cambio, debe usar el último método. (En realidad, todo esto es basura, ¡ realmente necesita usar un modelo más sofisticado del proceso que genera estos números! Aparentemente no tiene algo que escupe números distribuidos normalmente, por lo que caracteriza el sistema con la desviación estándar no es lo correcto).
En cualquier caso, la fórmula para la varianza (a partir de la cual se calcula la desviación estándar de la manera normal) con pesos de "confiabilidad" es
No tiene una estimación de los pesos, lo que supongo que quiere tomar para ser proporcional a la fiabilidad. Tomar porcentajes de la forma en que va a hacer que el análisis sea complicado incluso si son generados por un proceso de Bernoulli, porque si obtiene una puntuación de 20 y 0, tiene un porcentaje infinito. La ponderación por el inverso del SEM es algo común y, a veces, óptimo. Tal vez debería usar una estimación bayesiana o un intervalo de puntaje de Wilson .
fuente
La columna
G
son pesos, la columnaH
son valoresfuente
If we treat weights like probabilities, then we build them as follows:
Next, obviously the weighted mean is
fuente
fuente