¿Cuál es el problema de salto de dimensión en el aprendizaje automático (que ocurre en redes neuronales convolucionales y reconocimiento de imágenes)? Lo busqué en Google, pero todo lo que obtengo es información sobre la Física de la deformación de la forma del material. Será más útil para mí si alguien lo explica con un ejemplo relacionado con el aprendizaje automático. ¿Alguien puede ayudarme con esto o señalarme recursos que puedan?
Según tengo entendido, el problema es el siguiente: en el reconocimiento de imágenes, las entradas a su red podrían ser los píxeles (escala de grises o solo 1 y 0 para blanco y negro). Si lo desea, por ejemplo, reconocer números escritos a mano, es muy difícil trabajar solo con dichos valores, ya que nunca se sabe dónde estará exactamente el número (es decir, los valores negros).
¿El píxel 140 es negro o 142 negro? En ambos casos, bien podría ser un tres. En el ejemplo de edad / peso, estas entradas están bien definidas. La característica 2 es el peso. La característica 3 es la edad. Estas "dimensiones" no deberían "saltar" en su conjunto de datos.
Entonces: en su entrenamiento de imagen, los "tres" o "autos" o "casas" deben reconocerse independientemente de su ubicación en la imagen, es decir, los valores de píxeles, es decir, el vector de entrada / característica, es decir, las dimensiones en lugar de las claramente definidas entradas como datos del paciente.
¿Cómo se resuelve esto en el reconocimiento de imágenes? Utiliza trucos adicionales, por ejemplo, convolución.
fuente
Leí las respuestas anteriores, y el comentario de Neil Slater a la publicación de Emre, copiado nuevamente a continuación, da en el clavo. "Salto de dimensiones" es un término creado por el Dr. Hinton de fama pionera del aprendizaje automático en el contexto del punto de vista. Para citar al Dr. Hinton "Entonces, normalmente imagina que las dimensiones de entrada corresponden a píxeles y, si un objeto se mueve en el mundo y no mueve los ojos para seguirlo, la información sobre el objeto se producirá en diferentes píxeles". La edad y el peso son dimensiones de entrada que no se confunden fácilmente. El Dr. Hinton usó obviamente esta situación de salto de dimensión de edad y peso de los pacientes para decir que ciertamente podríamos detectar y corregir cualquier error entre estos tipos de datos (es difícil no notar que la mayoría de los adultos tienen menos de 100 años y más) de 100 libras). El probable problema del salto de dimensiones, que el Dr. Hinton estaba abordando, es que los píxeles podrían desplazarse porque tenemos un punto de vista diferente (por ejemplo, el objeto podría haberse movido o lo estamos mirando desde un ángulo diferente). Las redes neuronales lineales no podrían detectar esto, mientras que las redes neuronales convolucionales por diseño lo harían.
"Se supone que el ejemplo de edad resalta un conjunto de datos que no tiene salto de dimensión. La edad y el peso no" saltan "o intercambian valores aleatoriamente entre ejemplos: no son intercambiables y el ejemplo muestra cuán extraño sería eso (y cómo difícil haría tareas simples como la regresión lineal. Los valores de píxeles en las imágenes (y datos similares en muchas tareas de procesamiento de señales) se intercambian o mueven fácilmente debido a la naturaleza del problema. - Neil Slater 29 de mayo de 16 a 18:01 "
fuente
Explicación directamente del curso de Hinton sobre Redes neuronales para el aprendizaje automático ...
"El salto de dimensión ocurre cuando uno puede tomar la información contenida en las dimensiones de alguna entrada y moverla entre las dimensiones sin cambiar el objetivo . El ejemplo canónico es tomar un imagen de un dígito escrito a mano y traduciéndolo dentro de la imagen. Las dimensiones que contienen "tinta" ahora son diferentes (se han movido a otras dimensiones), sin embargo, la etiqueta que asignamos al dígito no ha cambiado. Tenga en cuenta que esto no es algo eso sucede de manera consistente en todo el conjunto de datos, es decir, podemos tener un conjunto de datos que contiene dos dígitos escritos a mano donde uno es una versión traducida del otro, sin embargo, esto todavía no cambia la etiqueta correspondiente de los dígitos ".
fuente
La esperanza solo se trata de problemas con la parte de la imagen o los píxeles que se mueven dentro de la dimensión (en su mayoría) y en algún momento en otro tenue (campo receptivo diferente) pero la salida sigue siendo la misma.
Este problema se trata con invariancia o equivalencia y parece que el ejemplo de peso y edad es una forma fácil de establecer. Supongamos que si somos conscientes de este salto de peso y edad, fácilmente haríamos cambios en el algoritmo y obtendríamos el resultado correcto. Pero al igual que el salto de datos / información, el salto de imágenes también ocurre, si consideramos que un '4' y un '4' desplazaron varios píxeles a la izquierda para ser diferentes clases que tienen un objetivo diferente.
Con la Invarianza de traducción o una mejor equivalencia a través del filtro, este movimiento o salto no es un gran problema, aunque aumenta la complejidad y a costa de tirar información, como la ubicación.
Por favor, avíseme si necesita más claridad que intentaré.
fuente