Tengo un conjunto de datos con todas las llamadas realizadas a un servicio de emergencia y los tiempos de respuesta del departamento de ambulancias. Admitieron que hay algunos errores con los tiempos de respuesta, ya que hay casos en los que no comenzaron a grabar (por lo que el valor es 0) o donde no pararon el reloj (por lo que el valor puede ser extremadamente alto).
Quiero descubrir la tendencia central y me preguntaba si es mejor usar la mediana o la media recortada para deshacernos de los valores atípicos.
mean
outliers
median
trimmed-mean
Duarte_RV
fuente
fuente
Respuestas:
Considere lo que significa una media recortada: en el caso prototípico, primero ordena los datos en orden creciente. Luego cuenta hasta el porcentaje de recorte desde la parte inferior y descarta esos valores. Por ejemplo, una media recortada del 10% es común; en ese caso, cuenta desde el valor más bajo hasta que haya pasado el 10% de todos los datos de su conjunto. Los valores debajo de esa marca se reservan. Del mismo modo, cuenta hacia atrás desde el valor más alto hasta que haya pasado su porcentaje de recorte, y establece todos los valores mayores que eso a un lado. Ahora te queda el 80% medio. Tomas la media de eso, y esa es tu media recortada del 10%. (Tenga en cuenta que puede recortar proporciones desiguales de las dos colas, o solo recortar una cola, pero estos enfoques son menos comunes y no parecen ser aplicables a su situación).
Ahora piense en lo que sucedería si calculara una media recortada del 50%. La mitad inferior se reservaría, al igual que la mitad superior. Te quedaría solo con el valor único en el medio (ordinalmente). Tomaría la media de eso (es decir, simplemente tomaría ese valor) como su media recortada. Sin embargo, tenga en cuenta que ese valor es la mediana. En otras palabras, la mediana es una media recortada (es una media recortada del 50%). Es solo una muy agresiva. Se supone, en esencia, que el 99% de sus datos están contaminados. Esto le brinda la máxima protección contra los valores atípicos a expensas de la máxima pérdida de potencia / eficiencia .
Supongo que una media / 50% de recorte medio es mucho más agresivo de lo que es necesario para sus datos, y desperdicia demasiado la información disponible para usted. Si tiene alguna idea de la proporción de valores atípicos que existen, usaría esa información para establecer el porcentaje de recorte y utilizar la media recortada adecuada. Si no tiene ninguna base para elegir el porcentaje de recorte, puede seleccionar uno por validación cruzada o utilizar un análisis de regresión robusto con solo una intercepción.
fuente
En primer lugar, elimine los datos no válidos.
En segundo lugar, no es necesario eliminar los valores atípicos, ya que son valores observados. En algunos casos, es útil (como en la regresión lineal) pero en su caso no veo el punto.
Finalmente, prefiera usar la mediana ya que es más preciso encontrar el centro de sus datos. Como dijiste, la media puede ser sensible a los valores atípicos (el uso de la media recortada puede estar sesgado).
fuente