Estoy escribiendo un script que analiza los tiempos de ejecución de los procesos. No estoy seguro de su distribución, pero quiero saber si un proceso se ejecuta "demasiado tiempo". Hasta ahora he estado usando 3 desviaciones estándar de los últimos tiempos de ejecución (n> 30), pero me dijeron que esto no proporciona nada útil si los datos no son normales (lo que no parece ser). Encontré otra prueba atípica que dice:
Encuentre el rango intercuartil, que es IQR = Q3 - Q1, donde Q3 es el tercer cuartil y Q1 es el primer cuartil. Luego encuentra estos dos números:
a) Q1 - 1.5 * IQR b) Q3 + 1.5 * IQR
El punto es un valor atípico si <a o> b
Mis datos tienden a ser cosas como 2 segundos, 3 segundos, 2 segundos, 5 segundos, 300 segundos, 4 segundos, ... donde 300 segundos es obviamente un valor atípico.
¿Qué método es mejor? ¿El método IQR o el método de desviación estándar?
fuente
Respuestas:
Realmente hay libros enteros sobre valores atípicos.
La respuesta específica habitual es que la desviación estándar es extraída por valores atípicos, por lo que cualquier regla basada en la SD puede tener un rendimiento deficiente.
Las reglas de Tukey sobre cuartiles +/- 1.5 IQR que cita surgieron del trabajo manual con conjuntos de datos de tamaño pequeño y moderado en la década de 1970, y fueron diseñadas para indicar valores en los que tal vez quiera pensar individualmente. No está claro que se transfieran a conjuntos de datos mucho más grandes, ni que se apliquen cuando se espera un sesgo considerable.
Una respuesta más general es que una regla atípica es buena si siempre toma las decisiones correctas, pero ¿cómo puede saberlo?
Este es un territorio polémico, pero esperaría que un valor atípico sobresaliera en un gráfico por ser muy diferente de los demás. Pero a menudo es (¿generalmente?) Una decisión difícil decir la diferencia entre lo que espera en una distribución de cola pesada y lo que es demasiado salvaje como para considerarlo como algo fuera de lo común. A veces, la transformación hace que un valor atípico parezca mucho más común.
Además, si utiliza métodos sólidos, es posible que se preocupe un poco menos sobre qué valores merecen llamarse valores atípicos, sino que se preocupe más por los valores atípicos en general.
fuente
Dice que no está seguro de la distribución, pero que los procesos en curso son fáciles de recopilar y evaluar para su distribución. Solo ahorre un montón de veces y analícelas. Dadas las veces que publicaste, podrías obtener mucho en unas pocas horas.
Su búsqueda de una regla para un valor atípico no tiene por qué ser tan general. Puede ser específico para su tarea. Puede recopilar muchos datos. Recójalo, examínelo y luego decida cuándo un proceso es demasiado largo. Tal vez un enfoque basado en IQR funcionará, pero puede usar su conjunto de datos, o un ajuste paramétrico, para hacer simulaciones y ver si funciona bien. Lo mismo vale para SD. Puede ser que> 50s sea demasiado largo y eso es todo lo que necesitas.
fuente