Tengo algunos datos que necesito visualizar y no estoy seguro de cuál es la mejor manera de hacerlo. Tengo un conjunto de elementos básicos con las frecuencias respectivas y los resultados . Ahora necesito trazar qué tan bien mi método "encuentra" (es decir, un resultado 1) los elementos de baja frecuencia. Inicialmente solo tenía un eje x de frecuencia y un eje ay de 0-1 con gráficos de puntos, pero se veía horrible (especialmente cuando se comparan datos de dos métodos). Es decir, cada elemento tiene un resultado (0/1) y está ordenado por su frecuencia.F = { f 1 , ⋯ , f n } O ∈ { 0 , 1 } n q ∈ Q
Aquí hay un ejemplo con los resultados de un solo método:
Mi siguiente idea fue dividir los datos en intervalos y calcular una sensibilidad local sobre los intervalos, pero el problema con esa idea es que la distribución de frecuencia no es necesariamente uniforme. Entonces, ¿cómo debo elegir mejor los intervalos?
¿Alguien sabe de una manera mejor / más útil de visualizar este tipo de datos para representar la efectividad de encontrar elementos raros (es decir, de muy baja frecuencia)?
EDITAR: Para ser más concreto, estoy mostrando la capacidad de algún método para reconstruir secuencias biológicas de una determinada población. Para la validación utilizando datos simulados, necesito mostrar la capacidad de reconstruir variantes independientemente de su abundancia (frecuencia). Entonces, en este caso, visualizo los elementos perdidos y encontrados, ordenados por su frecuencia. Esta parcela no incluirá variantes reconstruidas que no están en .
fuente