Mientras leía los documentos de segmentación semántica, así como sus implementaciones correspondientes, descubrí que algunos enfoques usan softmax, mientras que otros usan sigmoide para el etiquetado a nivel de píxeles.
Por ejemplo, con respecto al papel u-net , la salida es un mapa de características con dos canales.
He visto algunas implementaciones que usan softmax en estas salidas de dos canales. ¿No estoy seguro de si mi siguiente comprensión es correcta o no?
Con fines ilustrativos, la parte enmascarada pertenece a la clase 1 y la otra parte pertenece a la clase 2. Solo asumo dos clases: enmascaradas o no enmascaradas.
Yo uso xy
para representar el mapa de salida con forma (1, image_row, image_col, 2). Luego, xy[1,0,0,0]
representará la probabilidad de que el píxel en (0,0) pertenezca a la clase 1, mientras xy[1,0,0,1]
que representará la probabilidad de que el píxel (0,0) pertenezca a la clase 2. En otras palabras,xy[1,row,col,0]+xy[1,row,col,1]=1
¿Es correcto mi entendimiento?
fuente