Estoy trabajando en un algoritmo que toma un vector del punto de datos más reciente de una serie de flujos de sensores y compara la distancia euclidiana con los vectores anteriores. El problema es que los diferentes flujos de datos provienen de sensores completamente diferentes, por lo que tomar una distancia euclidiana simple enfatizará dramáticamente algunos valores. Claramente, necesito alguna forma de normalizar los datos. Sin embargo, dado que el algoritmo está diseñado para ejecutarse en tiempo real, no puedo usar ninguna información sobre ningún flujo de datos en su totalidad en la normalización. Hasta ahora, he estado haciendo un seguimiento del valor más grande visto para cada sensor en la fase de inicio (los primeros 500 vectores de datos) y luego dividiendo todos los datos futuros de ese sensor por ese valor. Esto funciona sorprendentemente bien, pero se siente muy poco elegante.
No he tenido mucha suerte en encontrar un algoritmo preexistente para esto, pero quizás no estoy buscando en los lugares correctos. ¿Alguien sabe de uno? ¿O tienes alguna idea? Vi una sugerencia para usar una media de ejecución (probablemente calculada por el algoritmo de Wellford), pero que si lo hiciera, entonces varias lecturas del mismo valor no aparecerían como lo mismo, lo que parece un problema bastante grande, a menos que yo Me falta algo. Cualquier idea es apreciada! ¡Gracias!
fuente