Media recortada vs mediana

9

Tengo un conjunto de datos con todas las llamadas realizadas a un servicio de emergencia y los tiempos de respuesta del departamento de ambulancias. Admitieron que hay algunos errores con los tiempos de respuesta, ya que hay casos en los que no comenzaron a grabar (por lo que el valor es 0) o donde no pararon el reloj (por lo que el valor puede ser extremadamente alto).

Quiero descubrir la tendencia central y me preguntaba si es mejor usar la mediana o la media recortada para deshacernos de los valores atípicos.

Duarte_RV
fuente
1
En primer lugar, eliminaría todos los datos no válidos (valor = 0). Luego visualizaría los datos con un histograma o diagrama de caja para ver dónde estoy parado. Porque no se puede recortar a ciegas los datos en un 5% si usted tiene el 10% de los malos datos ...
alesc
Sí, o trama el CDF. En R, haga esto: times = times [times> 0]; trama (ecdf (veces))
Paul

Respuestas:

12

Considere lo que significa una media recortada: en el caso prototípico, primero ordena los datos en orden creciente. Luego cuenta hasta el porcentaje de recorte desde la parte inferior y descarta esos valores. Por ejemplo, una media recortada del 10% es común; en ese caso, cuenta desde el valor más bajo hasta que haya pasado el 10% de todos los datos de su conjunto. Los valores debajo de esa marca se reservan. Del mismo modo, cuenta hacia atrás desde el valor más alto hasta que haya pasado su porcentaje de recorte, y establece todos los valores mayores que eso a un lado. Ahora te queda el 80% medio. Tomas la media de eso, y esa es tu media recortada del 10%. (Tenga en cuenta que puede recortar proporciones desiguales de las dos colas, o solo recortar una cola, pero estos enfoques son menos comunes y no parecen ser aplicables a su situación).

Ahora piense en lo que sucedería si calculara una media recortada del 50%. La mitad inferior se reservaría, al igual que la mitad superior. Te quedaría solo con el valor único en el medio (ordinalmente). Tomaría la media de eso (es decir, simplemente tomaría ese valor) como su media recortada. Sin embargo, tenga en cuenta que ese valor es la mediana. En otras palabras, la mediana es una media recortada (es una media recortada del 50%). Es solo una muy agresiva. Se supone, en esencia, que el 99% de sus datos están contaminados. Esto le brinda la máxima protección contra los valores atípicos a expensas de la máxima pérdida de potencia / eficiencia .

Supongo que una media / 50% de recorte medio es mucho más agresivo de lo que es necesario para sus datos, y desperdicia demasiado la información disponible para usted. Si tiene alguna idea de la proporción de valores atípicos que existen, usaría esa información para establecer el porcentaje de recorte y utilizar la media recortada adecuada. Si no tiene ninguna base para elegir el porcentaje de recorte, puede seleccionar uno por validación cruzada o utilizar un análisis de regresión robusto con solo una intercepción.

gung - Restablece a Monica
fuente
1
Estoy de acuerdo con el espíritu de esto, pero podría malinterpretarse porque implica que los medios recortados necesariamente se basan en recortar fracciones iguales en cada cola. Ese es solo un procedimiento común, y el procedimiento más frecuentemente discutido para un caso de referencia de distribuciones aproximadamente simétricas pero posiblemente de cola gruesa, pero en ningún sentido es obligatorio. Existe una literatura sobre el recorte en una sola cola, lo que tiene sentido cuando todos los valores dudosos pueden estar en la cola.
Nick Cox
@ NickCox, buen punto. He agregado un pequeño texto para aclarar eso. Avísame si crees que necesita más.
gung - Restablece a Monica
Se ve bien. Recortar naturalmente en una cola es solo ese caso especial de proporciones desiguales donde una proporción es cero.
Nick Cox
@NickCox, claro, pero pensé que sería mejor ser explícito.
gung - Restablece a Monica
-1

En primer lugar, elimine los datos no válidos.

En segundo lugar, no es necesario eliminar los valores atípicos, ya que son valores observados. En algunos casos, es útil (como en la regresión lineal) pero en su caso no veo el punto.

Finalmente, prefiera usar la mediana ya que es más preciso encontrar el centro de sus datos. Como dijiste, la media puede ser sensible a los valores atípicos (el uso de la media recortada puede estar sesgado).

Philippe Remy
fuente
3
Dado que la estimación de la ubicación es un caso particular de regresión, me gustaría saber cómo puede ser útil eliminar los valores atípicos en este último pero no en el primer caso.
user603