Sé que este es principalmente un sitio de estadísticas, por lo que si no estoy en el tema, por favor redirígeme.
Tengo un sistema con bombas que a veces se rompen y necesitan ser reemplazadas. Me gustaría poder predecir las fallas y, por lo tanto, dar una alerta temprana a las personas que reemplazan las bombas. Tengo datos históricos para el proceso de bombeo, como flujo, presión, altura del líquido, etc.
Solo tengo una pequeña experiencia en el uso de técnicas de aprendizaje automático para clasificar datos, básicamente he seguido y realizado los ejercicios del curso de aprendizaje automático de Andrew Ng en Coursera, así como el Statistics One de Andrew Conway, y nunca he usado el aprendizaje automático para clasificar series de tiempo. Estoy pensando en formas en que puedo transformar mi problema para poder usar mi conocimiento existente en él. Con mi conocimiento limitado, no obtendré una predicción muy óptima, pero espero aprender de esto, y para este problema, cualquier pequeña mejora en la predicción es útil, en lugar de esperar a que ocurran las fallas.
Mi enfoque propuesto es convertir la serie temporal en un problema de clasificación normal. La entrada sería un resumen de una ventana de series de tiempo, con valor medio, desviación estándar, valores máximos, etc. para cada tipo de datos en la ventana. Para la salida, no estoy seguro de qué funcionaría mejor. Un enfoque es que la salida sería una clasificación binaria de si la bomba falló dentro de un cierto período de tiempo desde el final de la ventana o no. Otra es que la salida sería el tiempo restante antes de que la bomba falle, por lo que no es una clasificación, sino una regresión (en el sentido de aprendizaje automático).
¿Crees que es probable que este enfoque arroje resultados? ¿Se trata de "depende del dominio y los datos históricos". ¿Hay mejores transformaciones (tanto de entrada como de salida) que no he considerado, o la predicción de fallas basada en datos de series de tiempo es tan diferente de la predicción de fallas más estándar, que mi tiempo estaría mejor leyendo sobre aprendizaje automático con series de tiempo? ?
Respuestas:
Es posible que desee ver el análisis de supervivencia, con el que puede estimar la función de supervivencia (la probabilidad de que el tiempo de falla sea mayor que un tiempo específico) y la función de riesgo (la probabilidad instantánea de que una unidad falle, dado que no fracaso experimentado hasta ahora). Con la mayoría de los enfoques de análisis de supervivencia, puede ingresar predictores invariantes y variables en el tiempo.
Hay una variedad de diferentes enfoques de análisis de supervivencia que incluyen el modelo de riesgos proporcionales semi-paramétricos de Cox (también conocido como regresión de Cox) y modelos paramétricos. La regresión de Cox no requiere que especifique la función de riesgo base subyacente, pero es posible que necesite un modelo paramétrico para capturar adecuadamente los patrones de falla en sus datos. A veces, los modelos de tiempo de falla acelerada paramétrica son apropiados, donde la tasa de falla aumenta con el tiempo.
Puede intentar comenzar con la regresión de Cox, ya que es la más simple de usar y verifique qué tan bien puede predecir la falla en un conjunto de prueba de retención. Sospecho que puede obtener mejores resultados con algún tipo de análisis de supervivencia que tenga en cuenta explícitamente el tiempo y la censura (bombas que aún no han fallado) que con tratar de convertir esto en un problema de clasificación no basado en el tiempo.
fuente
Basaría mi decisión en la clasificación frente a la regresión en función de la disponibilidad de datos (este último requiere conocer el momento exacto en que ocurrió la falla, el primero no) y si tener estimaciones del tiempo hasta la falla es realmente un requisito para su problema (mi opción predeterminada sería probar la clasificación primero).
fuente