Así que estoy tratando de hacer un entrenamiento previo en imágenes de humanos usando redes convolucionales. Leí los documentos ( Paper1 y Paper2 ) y este enlace de stackoverflow , pero no estoy seguro de entender la estructura de las redes (no está bien definido en los documentos).
Preguntas:
Puedo tener mi entrada seguida de una capa de ruido seguida de una capa conv, seguida de una capa de agrupación, después de eso, ¿desagrupo antes de dar mi salida (que es la misma que mi imagen de entrada)?
Digamos que tengo varias (135,240) imágenes. Si uso 32, (12,21) núcleos, seguido de (2,2) agrupación, terminaré con 32 (62, 110) mapas de características. ¿Ahora desagrupo para obtener 32 (124, 220) mapas de características y luego los aplanaré? antes de dar mi (135,240) capa de salida?
Si tengo varias capas de conv-pool, ¿debo entrenarlas una por una, como en los autoencoders de ruido sin apilar? O bien, ¿puedo tener algo como input-conv-pool-conv-pool-conv-pool-output (la salida es la misma que la entrada)? En ese caso, ¿cómo se gestiona la agrupación y la descompresión? ¿Debería desagrupar solo en la última capa de agrupación antes de la salida? Y de nuevo, ¿cuál debería ser el factor de cambio de tamaño de ese desagrupamiento? ¿Es la intención de devolver los mapas de características a la forma de la entrada?
¿Debo introducir capas de ruido después de cada capa conv-pool-depool?
Y luego, cuando realice un ajuste fino, ¿se supone que debo eliminar las capas de desagrupación y dejar el resto igual? ¿O debería eliminar tanto las capas de ruido como las capas de desagrupación?
¿Alguien puede señalarme una url / papel que ha detallado la arquitectura de un codificador automático convolucional tan apilado para hacer un entrenamiento previo en las imágenes?
También he estado buscando un modelo completamente explicado de codificadores automáticos convolucionales apilados.
Encontré tres arquitecturas diferentes. Todavía los estoy estudiando y pensé que podrían ayudar a otros que también están comenzando a explorar los CAE. Cualquier otra referencia a documentos o implementaciones sería de gran ayuda.
Las capas de (convolver) __ x_times -> (deconvolve) __ x_times,
y obtener el mismo tamaño que la entrada.
fuente
ASK QUESTION
en la parte superior de la página y pregunte allí, entonces podemos ayudarlo adecuadamente. Como eres nuevo aquí, es posible que quieras hacer nuestro recorrido , que tiene información para nuevos usuarios.No creo que el método de entrenamiento basado en capas sea correcto. Por ejemplo, la arquitectura del codificador automático convolucional es:
input-> conv-> max_poo-> de_max_pool-> de_conv-> output.
Este es un codificador automático, y debe ser entrenado con toda la arquitectura. Además, no existe un criterio estricto sobre si un codificador automático convolucional necesita pool y un_pool. generalmente, un grupo pero sin un_pool. Aquí hay una comparación experimental con la ausencia de pool y un_pool.
https://arxiv.org/pdf/1701.04949.pdf
fuente