Tengo una aplicación basada en servlet en la que mido el tiempo necesario para completar cada solicitud a ese servlet. Ya calculo estadísticas simples como la media y la máxima; Sin embargo, me gustaría producir un análisis más sofisticado, y para hacerlo creo que necesito modelar adecuadamente estos tiempos de respuesta.
Seguramente, digo, los tiempos de respuesta siguen una distribución bien conocida, y hay buenas razones para creer que la distribución es el modelo correcto. Sin embargo, no sé cuál debería ser esta distribución.
Log-normal y Gamma vienen a la mente, y usted puede hacer que un tipo de datos de tiempo de respuesta real se ajuste. ¿Alguien tiene una opinión sobre qué distribución deben seguir los tiempos de respuesta?
fuente
Mi investigación muestra que el mejor modelo está determinado por algunas cosas: 1) ¿Le preocupa el cuerpo, la cola o ambos? Si no es "ambos", modelar un conjunto de datos filtrado puede ser más útil. 2) ¿Quieres una muy simple o muy precisa? es decir, ¿cuántos parámetros?
Si la respuesta a 1 fue "ambos" y 2 fue "simple", Pareto parece funcionar mejor. De lo contrario, si 1 era "cuerpo" y 2 era "simple", elija un modelo de erlang filtrado. Si 1 era "ambos" y 2 era "exacto", probablemente desee un modelo de mezcla gaussiana en sus datos en el dominio de registro, efectivamente un ajuste lognormal.
He estado investigando esto últimamente, y no encontré que el tema se cubriera lo suficientemente bien en Internet público, así que escribí una publicación de blog que detalla mi investigación sobre este tema.
fuente