¿Cómo calcular la media truncada o recortada?

8

¿Cómo puedo calcular la media truncada o recortada? Digamos truncado en un 10%?

Puedo imaginar cómo hacerlo si tienes 10 entradas más o menos, pero ¿cómo puedo hacerlo para muchas entradas?

Queops
fuente
1
¿Debería etiquetarse esto recortado en lugar de truncado?
Yo diría que en.wikipedia.org/wiki/Truncated_mean servirá.
Queops

Respuestas:

19

La media recortada implica recortar las observaciones de porcentaje de desde ambos extremos.P

Por ejemplo: si se le pide que calcule una media recortada del 10%, .P=10

Dado un montón de observaciones, :Xi

  1. Primero encuentre = número de observaciones.n
  2. Reordenarlos como "estadísticas de pedido" del más pequeño al más grande. Xi
  3. Encuentre minúsculas = proporción recortada.p=P/100
  4. Calcular .np

Si es un entero, use y recorte observaciones en ambos extremos. npk=npk

R = observaciones restantes = .n2k

Media recortada =(1/R)(Xk+1+Xk+2++Xnk).

Ejemplo : encontrar el 10% de la media recortada de

2, 4, 6, 7, 11, 21, 81, 90, 105, 121

Aquí, que es un número entero, por lo tanto, recorte exactamente una observación en cada extremo, ya que . Por lo tanto, recorte 2 y 121. Nos quedan observaciones.n=10,p=0.10,k=np=1k=1R=n2k=102=8

Media recortada del 10% = (1/8) * (4 + 6 + 7 + 11 + 21 + 81 + 90 + 105) = 40.625

Si tiene una parte fraccional presente, la media recortada es un poco más complicada. En el ejemplo anterior, si quisiéramos una media recortada del 15%, . Esto tiene la parte entera 1 y la parte fraccionaria 0.5 está presente. . Así, observaciones son retenidas.npP=15,p=0.15,n=10,k=np=1.5R=n2k=1021.5=103=7R=7

Anexo al comentario de @ whuber: Para seguir siendo imparcial (después de eliminar 2 y 121), parece que debemos eliminar la mitad de las 4 y la mitad de las 105 para obtener una media recortada de(4/2+6+7+11+21+81+90+105/2)/7=38.64

Fuente: Apuntes de clase sobre el porcentaje de P recortado

Mehper C. Palavuzlar
fuente
@Mehper En el último ejemplo, ¿qué tres observaciones eliminarías? Obviamente el 2 y el 121, pero ¿qué más? Para permanecer imparcial, parece que debe eliminar la mitad de los 4 y la mitad de los 105 para obtener una media recortada de (4/2 + 6 + 7 + 11 + 21 + 81 + 90 + 105/2) / 7 = 34.64
whuber
@Mehper: solo para tu información, puedes formatear las matemáticas escribiendo expresiones TeX entre $ signos. Por ejemplo$X_i$
nico
@whuber: Gracias por tu comentario, agregué tu comentario a la respuesta; @nico: Gracias por informarme sobre el formato TeX. Traté de actualizar la respuesta usando el formato TeX pero no pude manejarlo bien. ¿Podría por favor darme un enlace que explique cómo usar el estilo TeX en las publicaciones? No tengo experiencia en TeX.
Mehper C. Palavuzlar
1
@Mehper: Google "TeX Manual" y elija. Me gusta la "introducción suave" porque contiene tablas útiles y legibles: tex.ac.uk/tex-archive/info/gentle/gentle.pdf
whuber
1
@Mepher: claro, ¡aquí tienes! mathjax.org/help/user (tenga en cuenta que si hace clic derecho en cualquier fórmula matemática, tendrá un menú contextual que se vincula a esa página). También puedes usar MathML en lugar de TeX (si eres muy valiente: P).
nico
5

Además de la respuesta anterior, si hay muchas entradas (digamos n), primero ordenarlas lleva tiempo O (n log n). Sin embargo, hay una solución de tiempo lineal.

  1. Calcule el cuartil P L y (1-P) -quantile U. Hay un algoritmo simple (de clasificación rápida) para esto que se ejecuta en el tiempo lineal esperado. También hay un algoritmo más complicado que se ejecuta en el peor de los casos en tiempo lineal. Ambos se pueden encontrar, por ejemplo, en: Cormen, Leiserson, Rivest, Stein: Introducción a los Algortitmos.

  2. Escanee todos los valores y agregue aquellos entre L y U. Obviamente, esto toma tiempo lineal.

  3. Si hay vínculos y los cuantiles calculados existen varias veces entre los valores, es posible que hayamos agregado demasiados o muy pocos valores y es posible que tengamos que corregirlos adecuadamente. Como sabemos cuántos números agregamos en el paso 2, y también cuántas veces hemos visto L y U, esto se puede hacer en tiempo constante.

  4. Divide la suma total por el número de sumandos.

Tenga en cuenta que la receta anterior solo vale la pena si n es realmente grande y ordenarlos todos sería un éxito en el rendimiento, tal vez unos pocos millones.


fuente