Quiero procesar algorítmicamente los datos del medidor de energía . El medidor de energía mide un productor de calor o energía o un consumidor de calor o energía (pero no ambos, por lo que la energía medida siempre tendrá un signo positivo). No se conoce información adicional sobre el sistema de energía (como la carga máxima) ni sobre el tipo de medidor de energía: solo se puede acceder a los datos almacenados en una base de datos. El procesamiento se realizará mediante un algoritmo que analiza los datos durante un intervalo de tiempo determinado (sin procesamiento en vivo).
Por lo general, los datos son débilmente monótonos de la forma
2015-04-01 00:00 20.78 kWh
2015-04-01 00:05 30.80 kWh
2015-04-01 00:10 73,99 kWh
2015-04-01 00:20 82.30 kWh
2015-04-01 00:25 82.30 kWh
2015-04-01 00:30 83.44 kWh
...
La energía producida o consumida durante un período dado es simplemente la diferencia de los recuentos del medidor de energía. Hasta aquí todo bien. Sin embargo, el algoritmo tiene que lidiar con los siguientes tres problemas:
1. Los valores atípicos "anteriores" deben detectarse como datos no válidos.
2015-04-01 00:00 20.78 kWh
2015-04-01 00:05 30.80 kWh
2015-04-01 00:10 500 kWh
2015-04-01 00:20 82.30 kWh
2015-04-01 00:25 82.30 kWh
2015-04-01 00:30 83.44 kWh
....
2. Los valores atípicos "a continuación" deben detectarse como datos no válidos.
2015-04-01 00:00 20.78 kWh
2015-04-01 00:05 30.80 kWh
2015-04-01 00:10 20 kWh
2015-04-01 00:20 82.30 kWh
2015-04-01 00:25 82.30 kWh
2015-04-01 00:30 83.44 kWh
....
En casos poco probables, puede haber varios valores atípicos consecutivos arriba o abajo o una combinación de ambos.
3. Un reinicio del medidor de energía debe detectarse automáticamente.
2015-04-01 00:00 20.78 kWh
2015-04-01 00:05 30.80 kWh
2015-04-01 00:10 3.99 kWh
2015-04-01 00:20 12.30 kWh
2015-04-01 00:25 12.30 kWh
2015-04-01 00:30 13.44 kWh
...
Después de un reinicio, el conteo comienza de nuevo desde otro nivel (un reinicio es simplemente un cambio de nivel). El nivel desde el que comienza el conteo después del reinicio es a menudo cero, pero también puede ser cualquier otro número positivo. Un reinicio puede ocurrir en un punto arbitrario en el tiempo (generalmente no con demasiada frecuencia).
A mis ojos, los problemas 1. - 3. parecen omnipresentes en la ingeniería de medición y ya deben haberse abordado. Sin embargo, no pude encontrar ninguna literatura sobre este tema. ¿Alguien sabe acerca de las soluciones existentes para este problema? Toda ayuda será muy apreciada.
fuente
Respuestas:
Hay dos maneras de hacerlo.
La vieja manera
La forma tradicional es desarrollar un conjunto de reglas algo arbitrarias basadas en los errores que clasifica manualmente. Filtra la no monotonicidad (fácil), identifica los reinicios (fácil) e intenta detectar otros valores incorrectos (más complicados). Eso le da un conjunto de valores para marcar como faltantes, y luego analiza el resto de los datos. Este método no está bien fundamentado en teoría, pero tendrá la defensa (algo insatisfactoria) de que "es cómo lo hacen muchas otras personas".
Mejores prácticas
La mejor forma de hacerlo es escribir la probabilidad de todo lo relevante y luego aplicar el Teorema de Bayes para determinar cuál era la serie en tiempo real más probable, dadas sus observaciones registradas.
Comienza con una distribución previa de la tasa de uso de energía, basada en el trabajo anterior.
Y luego cree distribuciones de probabilidad de las formas en que pueden ocurrir los errores: un reinicio del medidor, un punto decimal caído en la grabación; un dígito caído; Una lectura completamente basura. Agregue una distribución para el error de medición del medidor en sí: generalmente tienen una hoja de datos o un estándar acreditado que tiene un rango de error definido.
Las estadísticas deberían tener en cuenta cosas como un pico de uso real y un reinicio que coincida. Es posible que deba especificar una distribución conjunta si están vinculados: por ejemplo, un corte de energía podría posiblemente provocar un reinicio del medidor y una sobrecarga de energía, ya que cosas como calentadores, refrigeradores y congeladores volverían a funcionar a plena potencia cuando se corta la energía. restaurado
Y luego calcula una distribución posterior para el uso real de energía, que es lo que le interesa.
Pros y contras
El segundo método tiene la ventaja de estar arraigado en la teoría sólida como una roca. Sin embargo, es bastante trabajo configurar las distribuciones; y en casi todos los casos del mundo real, no existe una solución analítica, por lo que debe buscar una solución numérica (por ejemplo, usando markov-chain monte-carlo). Los paquetes de software como el STAN de Andrew Gelman harán esa parte del trabajo por usted.
Antes de comenzar, grafica
De cualquier manera, comience por graficar sus datos sin procesar. El ojo captará patrones informativos.
fuente
Descartar valores atípicos es fácil, simplemente los descarta (o los ignora). La parte difícil es decidir qué es un valor atípico y qué datos son válidos. Esto se reduce a definir lo que es posible y probable.
Una comprobación obvia en su caso es contra la potencia máxima que el sistema puede consumir o producir. Si el delta entre dos lecturas excede eso, entonces algo está mal en alguna parte. Por ejemplo, si el sistema que se está midiendo no puede consumir más de 200 kW, entonces el medidor no puede aumentar en más de 17 kWh en un período de 5 minutos.
Tenga en cuenta que la producción de energía máxima puede ser diferente del consumo de energía máximo. Quizás su sistema puede consumir hasta 200 kW, pero nunca puede producir más de 50 kW. Eso significa que en 5 minutos el rango válido posible es de +16.7 kWh a -4.2 kWh.
Es posible que sepa otras cosas sobre su sistema, que puede usar para detectar lecturas no válidas. Por ejemplo, a pesar de que su consumo de energía está limitado por -50 a +200 kW, tal vez no pueda cambiar más rápido que 10 kW por 5 minutos. O, si la energía está siendo producida por las células solares, entonces obtener energía en la noche debe estar mal. Seguramente hay cosas que sabe que su sistema no puede hacer.
Nuevamente, todo se reduce a definir qué es válido. Por ejemplo, ¿dices que la tercera lectura en el caso 2 es incorrecta? ¿Como sabes eso? Si es posible que el sistema genere 10.8 kWh durante un intervalo de 5 minutos, luego consuma 62.3 kWh durante los próximos 5 minutos, entonces el caso 2 puede ser todas las lecturas correctas después de todo. No ha dicho nada sobre su sistema para decir que este no es el caso.
fuente