¿Hay algún buen documento que cubra algunas formas metódicas de elegir las dimensiones de los filtros, agrupar las unidades y determinar el número de capas convolucionales?
neural-networks
deep-learning
conv-neural-network
mono espacial
fuente
fuente
Respuestas:
Hasta cierto punto, sí, los investigadores de Google publicaron un artículo reciente sobre cómo elegir buenas arquitecturas Inception. Las redes de inicio logran un rendimiento muy alto con un presupuesto de parámetros restringido, por lo que este es un buen lugar para comenzar como cualquier otro, y es reciente. Aquí está el enlace: Repensar la arquitectura de inicio para la visión por computadora .
No ofrecen reglas cuantitativas estrictas, sino directrices que utilizaron y creen que les han ayudado a lograr un buen desempeño en las recientes competencias de ImageNet.
Por ejemplo, algunos de los principios que discuten son:
Use pilas de capas convolucionales de campo receptivo más pequeñas en lugar de usar una sola capa convolucional de campo receptivo grande, es decir, 2 pilas de capas conv de 3x3 frente a una sola capa conv de 7x7. Esta idea no es nueva, también fue discutida en El retorno del diablo en los detalles: profundizando en las redes convolucionales por el equipo de Oxford VGG. Esto está motivado por la necesidad de ser eficiente en los parámetros. También tiene el doble efecto de una mayor capacidad de representación a medida que introducimos más no linealidad con más capas.
Algo que no he visto en la literatura que menciona este artículo es factorizar capas convolucionales en capas profundas. Entonces, en lugar de tener una sola capa conv 7x7, tendríamos una capa conv 1x7 y luego una capa conv 7x1. Agrega más profundidad, creo que también es un parámetro eficiente.
Equilibre la profundidad y el ancho de su red. Usa representaciones de alta dimensión. Este es uno de los principios detrás de sus módulos de inicio, que concatenan múltiples capas convolutinas juntas. Por lo tanto, incluso si tiene un tamaño espacial pequeño en su red de conv, utilizando los módulos Inception podemos usar una representación de alta dimensión a través de concatenación convolucional de múltiples escalas: 1x1, 3x3, 3x3-3x3, conjunto máximo todos juntos. Estos módulos de inicio tienen un "ancho" ya que pueden interpretarse como realizar múltiples operaciones en paralelo. Van aún más lejos con los nuevos módulos Inception que tienen tamaños convolucionales factorizados, 1x3, 3x1, etc.
Utilice capas conv 1x1 (red en estilo de red) para reducir la dimensionalidad. Utilizan muchas técnicas de reducción de dimensionalidad para lograr la eficiencia de los parámetros. Creen que esto es efectivo porque los mapas de características adyacentes tienen salidas altamente correlacionadas. Lo cual tiene sentido ya que se sabe que las imágenes naturales exhiben algunas propiedades estadísticas locales consistentes con esto. Por lo tanto, reducir la dimensionalidad a través de las capas 1x1 NIN no tiene un efecto desastroso en el poder de representación.
Hay más en el artículo. Creo que es un artículo que puede ofrecer una idea de lo que está preguntando. Están hablando de algunos conceptos centrales del diseño arquitectónico de redes de conv.
fuente
No he encontrado ninguna literatura sobre la elección de estos hiperparámetros en función de las especificaciones del problema. Pero, entiendo que la mayoría está adoptando métodos de optimización bayesianos para concentrarse en valores efectivos. Usted especifica un rango razonable y al probar varias combinaciones, aprende un modelo de cómo esos hiperparámetros se relacionan con la precisión del modelo. Me ha funcionado bien. Consulte "Optimización práctica bayesiana de algoritmos de aprendizaje automático" de Snoek, Larochelle y Adams ( http://papers.nips.cc/paper/4522-practical-bayesian-optimization-of-machine-learning-algorithms.pdf ).
fuente