Técnicas de segmentación de imágenes modernas más comunes

11

Estaba leyendo algunas técnicas de segmentación de imágenes y me preguntaba acerca de los algoritmos de segmentación modernos y modernos.

¿Qué técnicas de segmentación actuales son de 'lectura obligada', es decir, las que se usan actualmente más comúnmente en la comunidad? ¿Con qué técnicas entró en contacto y le resultó más eficaz y útil (y para qué aplicación)?

GamingX
fuente
¿Dónde has mirado hasta ahora?
Phonon
1
He estado leyendo sobre cortes normalizados, cortes de gráficos, cortes mínimos, además de métodos de configuración de nivel y métodos de marcha rápida.
GamingX
3
Agradable y breve, de noviembre de 2012: Segmentación de imagen: una revisión .
Emre
(edición inspirada en esta pregunta en thresolding, tal vez esta pregunta podría convertirse en una referencia similar a los métodos de segmentación)
Penélope

Respuestas:

7

No conozco muchas técnicas de segmentación, pero he estado tratando con estructuras que ofrecen una "elección" de piezas de segmentación que pueden examinarse más a fondo para producir una segmentación satisfactoria.

Esperemos que alguien más pueda escribir sobre algún método de segmentación de última generación que no conozco mucho.

Una pequeña introducción de por qué es bueno tener opciones o niveles de segmentación para una imagen diferente: la segmentación es un problema mal definido . La verdad fundamental no existe: los resultados deseados siempre dependen de los requisitos y especificaciones del usuario. Una buena cita:

Incluso para una imagen fija, puede haber más de una "mejor" segmentación porque los criterios que definen la calidad de una segmentación dependen de la aplicación. Esto nos motivó a centrar nuestra investigación en técnicas de partición de imágenes que ofrecen "piezas de rompecabezas" que se pueden usar (...) para generar una segmentación que satisfaga los requisitos específicos del usuario

( P. Soille: Conectividad restringida para la partición y simplificación jerárquica de imágenes (2008) )

Hay estructuras jerárquicas , descomposiciones jerárquicas de imágenes que proponen particiones de imágenes con diversas complejidades. Estas estructuras se representan más simplemente como estructuras de árbol, donde cada nodo representa una región en la imagen. La idea con las estructuras:

  • las hojas de la estructura son regiones de una partición fina, o sobre segmentación de una imagen (p. ej. píxeles, zonas planas - regiones conectadas de la misma intensidad, cuenca )
  • los enlaces en el árbol representan la fusión o unión de regiones (vecinas) y forman una región más compleja, y están construidos de la manera más probable para producir regiones correspondientes a objetos (con suerte :))
  • La complejidad de las regiones aumenta a lo largo de cada rama desde los nodos hacia la raíz del árbol.
  • cada nivel del árbol (también, cada corte) es una partición / segmentación de una imagen (más gruesa cuanto más cerca está de la raíz)
  • la raíz del árbol cubre todo el dominio de la imagen

La segmentación consiste en examinar las regiones y sus uniones propuestas, para determinar las regiones en el árbol o el corte del árbol correspondiente a la precisión requerida , o algunas propiedades conocidas sobre el objeto de interés, u otras especificaciones de usuario predefinidas.

Los árboles (es decir, descomposiciones jerárquicas de imágenes) con tales propiedades son:

Además de los enlaces a documentos ya proporcionados, algunos documentos actuales más específicos y menos específicos sobre este tipo de técnicas de segmentación:

(mas practico):

penelope
fuente
1
Para las familias algorítmicas de segmentación "moderna" (y moderna), agregaría superpíxeles. Buscar en Google este término es realmente impresionante.
sansuiso
@sansuiso Bueno, agrégalo como respuesta :) Espero que podamos recopilar varios enfoques de segmentación de vanguardia en esta pregunta
penelope
6

Como una adición a la respuesta de Penélope , dos familias populares (y modernas) de algoritmos.

Superpíxeles

Una familia muy popular de algoritmos llamada Superpixels está muy de moda en este momento (incluso hay algunas sesiones de Superpixel en conferencias de CV). Los superpíxeles se parecen mucho a la segmentación excesiva (como lo que le da la cuenca hidrográfica), por lo que se requiere algo de procesamiento posterior.

Los superpíxeles se pueden ver como pequeñas regiones de imágenes homogéneas . La distancia entre píxeles se evalúa como en el filtrado bilateral, es decir, es una mezcla entre su distancia espacial y su similitud visual que llega a 0 cuando están cerca y son similares y, de lo contrario, a un valor mayor.
Luego, los métodos de superpíxeles prueban varios criterios para formar pequeñas regiones homogéneas con respecto a esta medida. Hay muchos de ellos (basados ​​en gráficos, búsqueda de modo / agrupación basada en ...), así que supongo que es mejor remitirlo a este informe técnico .

(editar :) En caso de que alguien esté buscando un trabajo revisado por pares publicado, este artículo es de los mismos autores y cubre el mismo material que el informe técnico: R. Achanta, A. Shaji, K. Smith, A. Lucchi, P. Fua, S. Susstrunk: Superpíxeles SLIC comparados con los métodos de superpíxeles más modernos

Tenga en cuenta que, cuando escribí la primera versión de la respuesta, visualmente los resultados son muy similares a los que le proporciona la sobre segmentación de la cuenca. Esto lo confirman los autores del informe técnico que incluyen cuencas hidrográficas en la parte de trabajo relacionada. Por lo tanto, también debe hacer el mismo procesamiento posterior: si bien los superpíxeles pueden ser funciones útiles para usar en lugar de píxeles, aún deben agruparse para formar regiones de nivel superior si necesita rastrear / detectar objetos.

Métodos de segmentación basados ​​en gráficos

Otra familia popular de algoritmos proviene del análisis de la relación de píxeles, es decir, cómo los píxeles tienen una apariencia similar. Esto produce una familia de métodos de segmentación basados ​​en la teoría de gráficos, como el corte normalizado (J. Shi, J. Malik: cortes normalizados y segmentación de imagen ) .

Aquí está la intuición para este enfoque: suponga que sus píxeles ahora son puntos (vértices) de un gráfico de alta dimensión.
En el gráfico, dos vértices pueden estar conectados por un borde , cuyo peso es inversamente proporcional a cierta distancia entre los vértices. Típicamente, la función de peso será recíproca de una mezcla entre su distancia espacial y su similitud visual (como en el filtrado bilateral).
Entonces, teniendo en cuenta este gráfico, los algoritmos de segmentación pueden buscar los mejores grupos de vértices, es decir, grupos de vértices que tienen una pequeña intragrupo distancia y un gran extra-grupo distancia.

En el enfoque de corte normalizado, se toman algunas precauciones adicionales para evitar cualquier sesgo introducido por los diferentes tamaños de población de los grupos. Además, la exploración de gráficos puede evitarse calculando la SVD de la matriz de pesos, también conocida como matriz de conectividad en la teoría de gráficos.

sansuiso
fuente
Oye, me tomó un tiempo, gracias por la respuesta, pero ... ¿podrías ampliar al menos un poquito las 2 técnicas que mencionaste? No me refiero a explicarlos en detalle aquí, pero realmente agradecería una o dos oraciones descriptivas sobre cada una de ellas.
Penélope
Extendí la respuesta. Sin embargo, es un poco confuso, lo mejor es referirse al informe técnico que enlace en la respuesta (tengo que admitir que no soy un tipo de superpíxeles y todavía estoy un poco escéptico sobre su interés, aunque lo son realmente de moda).
sansuiso
Para los métodos de segmentación basados ​​en gráficos, creo que este trabajo sugiere uno de los mejores resultados de última generación: research.microsoft.com/pubs/167600/jmiv_bnm_final.pdf Es un documento intuitivo y el código está disponible.
Tolga Birdal
3

Supongo que para una visión global de los algoritmos de vanguardia para la segmentación, uno necesita buscar las últimas encuestas. En el libro de Szeliski se presenta una buena visión global de los desafíos .

ingrese la descripción de la imagen aquí

beedot
fuente