Calcular cuantiles aproximados para una secuencia de enteros usando momentos?

20

migrado de math.stackexchange .

Estoy procesando un largo flujo de enteros y estoy considerando rastrear algunos momentos para poder calcular aproximadamente varios percentiles para el flujo sin almacenar muchos datos. ¿Cuál es la forma más sencilla de calcular percentiles desde unos momentos? ¿Existe un mejor enfoque que implique solo almacenar una pequeña cantidad de datos?

jonderry
fuente
2
¿Sabes algo específico sobre las propiedades de distribución de tu flujo? Por ejemplo, ¿son, por ejemplo, positivos? ¿Encerrado? Cualquier otro detalle que pueda proporcionar será útil. Los momentos son bastante fáciles de calcular y almacenar para una secuencia. También hay preguntas anteriores aquí sobre la estimación directa de cuantiles de una secuencia, que suena como lo que realmente está tratando de hacer. Puede buscar y mirar a través de ellos.
Cardenal
Representan tiempos de procesamiento, por lo que son positivos y en su mayoría estrechamente agrupados, a menos que haya algún tipo de problema técnico o sobrecarga en el sistema. Buscaré las preguntas cuantiles; pueden ser lo suficientemente buenos Todavía tengo curiosidad por cómo pasar de los momentos a calcular el valor asociado con un percentil arbitrario. Sé que almacenar momentos es fácil, no sé cómo usarlos.
jonderry
¿Viste esta pregunta ?
cardenal

Respuestas:

15

No declaras esto explícitamente, pero a partir de tu descripción del problema, parece probable que buscas un conjunto de cuantiles de alto sesgo (por ejemplo, percentiles 50, 90, 95 y 99).

Si ese es el caso, he tenido mucho éxito con el método descrito en "Cálculo efectivo de cuantiles sesgados sobre flujos de datos" por Cormode et al. Es un algoritmo rápido que requiere poca memoria y que es fácil de implementar.

El método se basa en un algoritmo anterior de Greenwald y Khanna que mantiene una pequeña muestra del flujo de entrada junto con los límites superior e inferior en el rango de los valores de la muestra. Requiere más espacio que una colección de pocos momentos, pero será mucho mejor para describir con precisión la interesante región de cola de la distribución.

NPE
fuente
1
ϵnn