Tengo una serie temporal de medidas (alturas-series unidimensionales). En el período de observación, el proceso de medición se redujo durante algunos puntos de tiempo. Entonces, los datos resultantes son un vector con NaNs donde había lagunas en los datos. Usando MATLAB, esto me está causando un problema al calcular la autocorrelación ( autocorr
) y aplicar redes neuronales ( nnstart
).
¿Cómo deben tratarse estos vacíos / NaN? ¿Debo eliminarlos del vector? ¿O reemplazar su entrada con un valor interpolado? (si es así, cómo en MATLAB)
Hay algunos algoritmos que son inmunes a los valores perdidos, por lo que la solución preferida es buscarlos (por ejemplo, R
acf
para la autocorrelación).En general, el camino a seguir es simplemente descartar datos con observaciones faltantes (puede ser muy doloroso) o simplemente imputar sus valores; la media de vecinos podría ser suficiente para series suaves y brechas pequeñas, pero por supuesto hay una gran cantidad de otros métodos más potentes, utilizando splines, valores aleatorios / más frecuentes, imputación de modelos, etc.
fuente
Use la detección de intervención para imputar los valles faltantes que explotan la útil estructura de ARIMA y cualquier tendencia de tiempo local y / o cambios de nivel.
fuente
Hay 2 problemas aquí. el primero es proporcionar un marco numérico significativo para su respuesta de autocorrelación en matlab. Para que esto suceda, debe estirar y / o parchar la porción de serie temporal de sus vectores de datos ... este componente de 'integridad de datos' del problema es el más fundamental.
en segundo lugar, debe decidir cómo manejar el componente de 'valor' de su vector ... esto depende en gran medida de la aplicación particular en cuanto a lo que es mejor asumir (por ejemplo, pequeñas marcas de tiempo faltantes y los NaN correspondientes) o los nulos podrían interpolarse de forma segura desde sus vecinos ... en espacios más grandes, establecer el valor en cero es probablemente más seguro ... o imputarlo como se recomienda anteriormente, obviamente para que esto sea significativo, los espacios nuevamente deben ser comparativamente pequeños). .
fuente