¿Cómo puedo calcular la media truncada o recortada? Digamos truncado en un 10%?
Puedo imaginar cómo hacerlo si tienes 10 entradas más o menos, pero ¿cómo puedo hacerlo para muchas entradas?
mean
robust
truncation
trimmed-mean
Queops
fuente
fuente
Respuestas:
La media recortada implica recortar las observaciones de porcentaje de desde ambos extremos.P
Por ejemplo: si se le pide que calcule una media recortada del 10%, .P=10
Dado un montón de observaciones, :Xi
Si es un entero, use y recorte observaciones en ambos extremos.np k=np k
Media recortada =(1/R)(Xk+1+Xk+2+…+Xn−k).
Ejemplo : encontrar el 10% de la media recortada de
2, 4, 6, 7, 11, 21, 81, 90, 105, 121
Aquí, que es un número entero, por lo tanto, recorte exactamente una observación en cada extremo, ya que . Por lo tanto, recorte 2 y 121. Nos quedan observaciones.n=10,p=0.10,k=np=1 k=1 R=n−2k=10−2=8
Media recortada del 10% = (1/8) * (4 + 6 + 7 + 11 + 21 + 81 + 90 + 105) = 40.625
Si tiene una parte fraccional presente, la media recortada es un poco más complicada. En el ejemplo anterior, si quisiéramos una media recortada del 15%, . Esto tiene la parte entera 1 y la parte fraccionaria 0.5 está presente. . Así, observaciones son retenidas.np P=15,p=0.15,n=10,k=np=1.5 R=n−2k=10−2∗1.5=10−3=7 R=7
Anexo al comentario de @ whuber: Para seguir siendo imparcial (después de eliminar 2 y 121), parece que debemos eliminar la mitad de las 4 y la mitad de las 105 para obtener una media recortada de(4/2+6+7+11+21+81+90+105/2)/7=38.64
Fuente: Apuntes de clase sobre el porcentaje de P recortado
fuente
$X_i$
Además de la respuesta anterior, si hay muchas entradas (digamos n), primero ordenarlas lleva tiempo O (n log n). Sin embargo, hay una solución de tiempo lineal.
Calcule el cuartil P L y (1-P) -quantile U. Hay un algoritmo simple (de clasificación rápida) para esto que se ejecuta en el tiempo lineal esperado. También hay un algoritmo más complicado que se ejecuta en el peor de los casos en tiempo lineal. Ambos se pueden encontrar, por ejemplo, en: Cormen, Leiserson, Rivest, Stein: Introducción a los Algortitmos.
Escanee todos los valores y agregue aquellos entre L y U. Obviamente, esto toma tiempo lineal.
Si hay vínculos y los cuantiles calculados existen varias veces entre los valores, es posible que hayamos agregado demasiados o muy pocos valores y es posible que tengamos que corregirlos adecuadamente. Como sabemos cuántos números agregamos en el paso 2, y también cuántas veces hemos visto L y U, esto se puede hacer en tiempo constante.
Divide la suma total por el número de sumandos.
Tenga en cuenta que la receta anterior solo vale la pena si n es realmente grande y ordenarlos todos sería un éxito en el rendimiento, tal vez unos pocos millones.
fuente