En el artículo de Faster RCNN cuando se habla de anclaje, ¿qué quieren decir con "pirámides de cuadros de referencia" y cómo se hace? ¿Significa esto que en cada uno de los puntos de anclaje W * H * k se genera un cuadro delimitador?
Donde W = ancho, H = altura yk = número de relaciones de aspecto * escalas numéricas
enlace al documento: https://arxiv.org/abs/1506.01497
deep-learning
computer-vision
BadProgrammer
fuente
fuente
Respuestas:
Anclajes explicados
Anclas
Las anclas aparecen realmente en la función de pérdida
Al entrenar el RPN, primero se asigna una etiqueta de clase binaria a cada ancla. A los anclajes con intersección sobre unión ( IoU ) solapados con un cuadro de verdad fundamental, más alto que cierto umbral, se les asigna una etiqueta positiva (del mismo modo, los anclajes con IoUs inferiores a un umbral dado se etiquetarán como negativos). Estas etiquetas se utilizan además para calcular la función de pérdida:
También observe que los anclajes sin etiqueta no están clasificados ni reformados y el RPM simplemente los arroja fuera de los cálculos. Una vez que se hace el trabajo de la RPN y se generan las propuestas, el resto es muy similar a las R-CNN rápidas.
fuente
Leí este periódico ayer y, a primera vista, también me resultó confuso. Después de volver a leer llegué a esta conclusión:
7x7x512 (HxWxD)
.3x3
capa conv. El tamaño de salida es7x7x512
(si se usa relleno).7x7x(2k+4k)
(por ejemplo7x7x54
) capa con una1x1
capa conv para cada uno de losk
cuadros de anclaje.Ahora, según la Figura 1 en el documento, puede tener una pirámide de imágenes de entrada (las mismas imágenes con una escala diferente), una pirámide de filtros (filtros de una escala diferente, en la misma capa) o una pirámide de cuadros de referencia. El último se refiere a los
k
cuadros de anclaje en la última capa de la red de propuestas de la región. En lugar de filtros con diferentes tamaños que se apilan uno encima del otro (el caso del medio), los filtros con un tamaño y una relación de aspecto diferentes se apilan uno encima del otro.En resumen, para cada punto de anclaje (
HxW
p7x7
.k
Ej.9
) Se utiliza una pirámide de cuadros de referencia ( p . Ej. ).fuente
3x3
se traduce una capa conv7x7
? En el prototipo, dice que el relleno es 1 en la última capa VGG16.