Me han enviado aquí desde esta pregunta en stackoverflow , discúlpeme si la pregunta es demasiado específica y no está en los modales aquí :)
La tarea es encontrar un vaso con un líquido específico. Permíteme mostrarte las imágenes y luego describir lo que estoy tratando de lograr y cómo estaba tratando de lograr hasta ahora en la descripción debajo de las imágenes.
Las imágenes : (parece que necesito al menos 10 reputación para publicar imágenes y enlaces, por lo que los enlaces tendrán que hacer :( de lo contrario, puede consultar la pregunta de desbordamiento de pila)
Una descripción detallada : estaba tratando de implementar un algoritmo que detectara un vidrio de una forma específica en opencv (el vidrio puede ser transformado por un ángulo / distancia de disparo de cámara diferente). Habrá también otras gafas de otras formas. El vaso que estoy buscando también se llenará con un líquido coloreado que lo distinguirá de los vidrios que contienen otros colores.
Hasta ahora, he intentado usar el extractor de funciones SIFT para tratar de encontrar algunas funciones en el cristal y luego combinarlas con otras fotos con el cristal.
Este enfoque funcionó solo en condiciones muy específicas en las que tendría vidrio en una posición muy específica y el fondo sería similar a las imágenes de aprendizaje. El problema también es que el vidrio es un objeto 3D y no sé cómo extraer características de eso (tal vez varias fotos desde diferentes ángulos vinculados, ¿de alguna manera?).
Ahora no sé qué otro enfoque podría usar. He encontrado algunas pistas sobre esto (aquí /programming/10168686/algorithm-improvement-for-coca-cola-can-shape-recognition#answer-10219338 ) pero los enlaces parecen estar rotos.
Otro problema sería detectar diferentes "niveles de vacío" en dicho vidrio, pero ni siquiera he podido encontrar el vidrio correctamente.
¿Cuáles serían sus recomendaciones sobre el enfoque en esta tarea? ¿Sería mejor usar una forma diferente de encontrar la función de objeto 3d local? ¿O sería mejor usar otro enfoque por completo? He oído hablar de algoritmos que "aprenden" el objeto de un conjunto de varias fotos, pero nunca lo he visto en la práctica.
Cualquier consejo sería muy apreciado
fuente
Respuestas:
El artículo al que se hace referencia en su enlace parece ser este.
De particular interés es la Tabla 1 (incluida a continuación). Las tasas de precisión no son excelentes, aunque son mejores que otros enfoques.
fuente
Quizás este documento pueda ayudarlo: http://ai.stanford.edu/~ang/papers/iros09-ScalableLearningObjectDetectionGPU.pdf
Aunque usan el sistema estéreo activo además de imágenes 2D para adquirir imágenes de profundidad, es interesante cómo usan las características basadas en parches, construyendo un diccionario del objeto con muchos fragmentos pequeños y luego entrenando un clasificador. Tal vez pueda agregar estas características para mejorar su tasa de detección.
fuente
Se ha trabajado mucho en esto cuando se trata de software de reconocimiento facial. Por ejemplo, si observa en Facebook al etiquetar fotos, la ubicación de las caras se encuadra y le sugiere.
He visto mucha literatura sobre reconocimiento facial en imágenes usando redes neuronales y una búsqueda rápida en Google sin duda arrojará una gran cantidad de información sobre el tema. Estas redes toman los píxeles de la imagen como entradas. En su caso, la forma en que la opacidad cambia / la luz se refleja en el cristal puede ser una buena característica de identificación que la red aprenderá.
Un problema puede ser la cantidad de fotos que tiene que usar como datos de entrenamiento y el procesamiento previo de estas (es decir, identificar las caras usted mismo). Si no es factible hacer esto para obtener suficientes imágenes para entrenar su red lo suficientemente bien, entonces deberá buscar algunos atajos en la etapa de aprendizaje. Este documento es relevante para lo que desea hacer: http://www.ll.mit.edu/publications/journal/pdf/vol04_no2/4.2.5.neuralnetwork.pdf
Afortunadamente, este es un campo muy activo y gran parte del código necesario para este tipo de problema está disponible en línea.
Una vez que pueda identificar los anteojos en las imágenes, puede realizar un análisis adicional desde allí.
fuente