¿Cómo puedo transformar datos de series temporales para poder usar técnicas más simples para la predicción de fallas?

Sé que este es principalmente un sitio de estadísticas, por lo que si no estoy en el tema, por favor redirígeme.

Tengo un sistema con bombas que a veces se rompen y necesitan ser reemplazadas. Me gustaría poder predecir las fallas y, por lo tanto, dar una alerta temprana a las personas que reemplazan las bombas. Tengo datos históricos para el proceso de bombeo, como flujo, presión, altura del líquido, etc.

Solo tengo una pequeña experiencia en el uso de técnicas de aprendizaje automático para clasificar datos, básicamente he seguido y realizado los ejercicios del curso de aprendizaje automático de Andrew Ng en Coursera, así como el Statistics One de Andrew Conway, y nunca he usado el aprendizaje automático para clasificar series de tiempo. Estoy pensando en formas en que puedo transformar mi problema para poder usar mi conocimiento existente en él. Con mi conocimiento limitado, no obtendré una predicción muy óptima, pero espero aprender de esto, y para este problema, cualquier pequeña mejora en la predicción es útil, en lugar de esperar a que ocurran las fallas.

Mi enfoque propuesto es convertir la serie temporal en un problema de clasificación normal. La entrada sería un resumen de una ventana de series de tiempo, con valor medio, desviación estándar, valores máximos, etc. para cada tipo de datos en la ventana. Para la salida, no estoy seguro de qué funcionaría mejor. Un enfoque es que la salida sería una clasificación binaria de si la bomba falló dentro de un cierto período de tiempo desde el final de la ventana o no. Otra es que la salida sería el tiempo restante antes de que la bomba falle, por lo que no es una clasificación, sino una regresión (en el sentido de aprendizaje automático).

¿Crees que es probable que este enfoque arroje resultados? ¿Se trata de "depende del dominio y los datos históricos". ¿Hay mejores transformaciones (tanto de entrada como de salida) que no he considerado, o la predicción de fallas basada en datos de series de tiempo es tan diferente de la predicción de fallas más estándar, que mi tiempo estaría mejor leyendo sobre aprendizaje automático con series de tiempo? ?

time-series machine-learning data-transformation Boris
fuente

La medición de la vibración / ruido en tiempo real de las bombas sería una verdadera ventaja aquí.

image_doctor

@image_doctor: podría ser capaz de obtener eso. ¿Quiere decir que sería bueno, porque la vibración / ruido es relevante para el dominio del problema? En ese caso, ¿no podría resumirlo como los otros datos? ¿O se trata inherentemente de que el procesamiento de la información se realiza en tiempo real? Me gustaría poder predecir fallas con mucha anticipación, como un día o (preferiblemente) más. No sé si es factible con el dominio y los datos. Pero esta escala de tiempo no me sugiere que el procesamiento en tiempo real realmente ayude. Si quiere decir que el tiempo real es significativo, ¿he entendido mal algo?

Boris

Es relevante para el dominio del problema. Las bombas a menudo muestran signos de desequilibrio o cambios en los modos vibratorios antes de la falla. El análisis espectral en tiempo real, o al menos algo así como muestras por hora, debería ser una característica muy útil para la predicción de fallas.

image_doctor

Tengo un problema similar y actualmente estoy evaluando el potencial del uso de los modelos de riesgo proporcional de Cox. ¿Pudiste usar esto en tu solución? ¿Podría compartir con nosotros la solución final que tomó para lograr el resultado?

Respuestas:

Es posible que desee ver el análisis de supervivencia, con el que puede estimar la función de supervivencia (la probabilidad de que el tiempo de falla sea mayor que un tiempo específico) y la función de riesgo (la probabilidad instantánea de que una unidad falle, dado que no fracaso experimentado hasta ahora). Con la mayoría de los enfoques de análisis de supervivencia, puede ingresar predictores invariantes y variables en el tiempo.

Hay una variedad de diferentes enfoques de análisis de supervivencia que incluyen el modelo de riesgos proporcionales semi-paramétricos de Cox (también conocido como regresión de Cox) y modelos paramétricos. La regresión de Cox no requiere que especifique la función de riesgo base subyacente, pero es posible que necesite un modelo paramétrico para capturar adecuadamente los patrones de falla en sus datos. A veces, los modelos de tiempo de falla acelerada paramétrica son apropiados, donde la tasa de falla aumenta con el tiempo.

Puede intentar comenzar con la regresión de Cox, ya que es la más simple de usar y verifique qué tan bien puede predecir la falla en un conjunto de prueba de retención. Sospecho que puede obtener mejores resultados con algún tipo de análisis de supervivencia que tenga en cuenta explícitamente el tiempo y la censura (bombas que aún no han fallado) que con tratar de convertir esto en un problema de clasificación no basado en el tiempo.

Anne Z.
fuente

Tengo un problema similar y también estoy tratando de enmarcarlo en un marco de análisis de supervivencia: básicamente tengo la misma planta que sigue fallando y funciona nuevamente después del mantenimiento. Quiero determinar cuándo y si la planta va a fallar. En ese caso, cómo combinar múltiples mediciones en cada intervalo de tiempo porque el análisis de supervivencia tendrá una fila por falla, pero habría recopilado datos durante horas antes de la falla.

discipulus

Basaría mi decisión en la clasificación frente a la regresión en función de la disponibilidad de datos (este último requiere conocer el momento exacto en que ocurrió la falla, el primero no) y si tener estimaciones del tiempo hasta la falla es realmente un requisito para su problema (mi opción predeterminada sería probar la clasificación primero).

Dave
fuente

Gracias. Sí, de alguna manera, estimar el tiempo hasta la falla está tomando una ruta más larga hacia el resultado, pero ahorra el problema de decidir qué período de falla estimar: no sé si los datos apoyan la clasificación de un período de falla de 10 días mejor de un período de 5 días, por lo que con la clasificación, tengo que entrenar a muchos clasificadores y luego intercambiar dando los mejores resultados frente a dar una advertencia oportuna. Estimar el tiempo hasta el fracaso lo evitaría, pero la estimación en sí podría ser más difícil.

Boris