Modelo recurrente (CNN) en datos EEG

10

Me pregunto cómo interpretar una arquitectura recurrente en un contexto EEG. Específicamente, estoy pensando en esto como una CNN recurrente (a diferencia de arquitecturas como LSTM), pero tal vez también se aplique a otros tipos de redes recurrentes

Cuando leo sobre R-CNN, generalmente se explican en contextos de clasificación de imágenes. Normalmente se describen como "aprendizaje en el tiempo" o "incluido el efecto del tiempo-1 en la entrada actual"

Esta interpretación / explicación se vuelve realmente confusa cuando se trabaja con datos EEG. Aquí se puede encontrar un ejemplo de un R-CNN que se usa en datos EEG

Imagina que tengo ejemplos de entrenamiento que consisten en una matriz 1x512. Este conjunto captura una lectura de voltaje para 1 electrodo en 512 puntos de tiempo consecutivos. Si uso esto como entrada para un CNN recurrente (usando convoluciones 1D), la parte recurrente del modelo no está capturando el "tiempo", ¿verdad? (como estaría implícito en las descripciones / explicaciones discutidas anteriormente) Porque en este contexto el tiempo ya está capturado por la segunda dimensión de la matriz

Entonces, con una configuración como esta, ¿qué nos permite en realidad la parte recurrente de la red para modelar que una CNN normal no puede (si no es el tiempo)?

Me parece que recurrente solo significa hacer una convolución, agregar el resultado a la entrada original y volver a convolucionar. Esto se repite para x número de pasos recurrentes. ¿Qué ventaja ofrece realmente este proceso?

Simón
fuente
Creo que mantener la entrada original en cada paso es útil porque aprender la identidad puede ser difícil, es por eso que la red residual o simplemente copiar la entrada para omitir la mayoría de las capas ocultas puede ser útil. Para el caso especial de RCNN aplicado a eeg, puede imaginar que la convolución etiqueta el tiempo t = 50ms porque aparece alguna característica en ese momento. Luego, su red puede ver la entrada original en ese momento en particular para un análisis más detallado.
agemO

Respuestas:

1

La parte recurrente de una red le permite, en términos generales, modelar dependencias a largo y corto plazo. Entonces su modelo puede tener algún sentido de estado.

Esto suele ser ventajoso si está utilizando series de tiempo. Por ejemplo, si tiene datos de un monitor de frecuencia cardíaca y desea clasificar entre reposo, estrés y recuperación. Si su punto de datos dice que su frecuencia cardíaca está en 130, depende de si se está recuperando de altas cargas o de otra cosa.

Editar: Olvidé tu segunda pregunta.

Me parece que recurrente solo significa hacer una convolución, agregar el resultado a la entrada original y volver a convolucionar. Esto se repite para x número de pasos recurrentes. ¿Qué ventaja ofrece realmente este proceso?

Podría pensar en algunas respuestas posibles. Al enredar la parte recurrente, la estás filtrando. Entonces obtienes una señal más limpia y los errores no se acumularán tanto. Vanilla rnn sufre de la explosión de gradientes que desaparecen, por lo que este podría ser su enfoque para superarlo. Además, está incorporando sus características dentro de la rcnn, lo que puede conducir, como él dijo, a más caminos para explotar. Lo que lo hace menos propenso al sobreajuste, por lo tanto, más generalizable.

RyanMcFlames
fuente
0
  • La matriz de entrada 1x512 significa: la red recurrente procesa el voltaje del electrodo 512 veces, en otras palabras, tiene una función única para procesar.
  • CNN con una característica es inútil.
Denizar
fuente
-1

Recuerde que las CNN son detectores de características. La salida de una capa convolucional es una matriz que señala dónde se detectó cierta característica.

Por lo tanto, los CNN recurrentes son redes neuronales recurrentes que aprenden secuencias de características, donde esas características también se aprenden durante el entrenamiento.

ncasas
fuente
2
Esta es una respuesta engañosa, los CNN no son detectores de características, son una transformación de un espacio de características y luego un estimador de funciones que asigna las características transformadas a una salida. Además, no es lo que pidió el OP. Utilice los comentarios en su lugar para comentarios. Esto hace que la pregunta parezca respondida y disuade a otros de hacer clic.
JahKnows
@JahKnows Depende de la interpretación, ambos son ¿no? Echa un vistazo a (yosinski.com/deepvis). Te puede ayudar.
Medios de comunicación
@ncasas, ¿podría proporcionar un enlace para su párrafo?
Medios de comunicación