Este problema se trata realmente de la detección de incendios, pero es muy análogo a algunos problemas de detección de desintegración radiactiva. El fenómeno que se observa es esporádico y muy variable; así, una serie temporal consistirá en largas cadenas de ceros interrumpidos por valores variables.
El objetivo no es simplemente capturar eventos (rupturas en los ceros), sino caracterización cuantitativa de los eventos mismos. Sin embargo, los sensores son limitados y, por lo tanto, a veces registrarán cero incluso si la "realidad" no es cero. Por esta razón, se deben incluir ceros al comparar sensores.
El sensor B podría ser más sensible que el sensor A, y me gustaría poder describirlo estadísticamente. Para este análisis, no tengo "verdad", pero sí tengo un Sensor C, que es independiente de los Sensores A&B. Por lo tanto, mi expectativa es que un mejor acuerdo entre A / B y C indique un mejor acuerdo con la "verdad". (Esto puede parecer inestable, pero tendrás que confiar en mí, estoy en terreno firme aquí, según lo que se sabe de otros estudios sobre los sensores).
El problema, entonces, es cómo cuantificar "un mejor acuerdo de series de tiempo". La correlación es la opción obvia, pero se verá afectada por todos esos ceros (que no se pueden omitir) y, por supuesto, desproporcionadamente afectada por los valores máximos. RMSE también podría calcularse, pero se consideraría fuertemente en función del comportamiento de los sensores en el caso cercano a cero.
P1: ¿Cuál es la mejor manera de aplicar una escala logarítmica a valores distintos de cero que luego se combinarán con ceros en un análisis de series de tiempo?
P2: ¿Qué "mejores prácticas" puede recomendar para un análisis de series de tiempo de este tipo, donde el comportamiento en valores distintos de cero es el foco, pero los valores cero dominan y no pueden excluirse?
croston()
función en elforecast
paquete en R implementará el método de Croston para pronosticar datos de demanda intermitente.