¿Por qué las cámaras no capturan el rango dinámico como lo hacen nuestros ojos?

29

Cuando me siento en una habitación sin luces encendidas y miro por la ventana, puedo ver fácilmente el interior de la habitación incluso si me concentro en un árbol afuera.

¿Por qué una cámara no puede capturar una imagen similar a lo que mis ojos pueden ver? Creo que las cámaras más nuevas deberían poder capturar fácilmente este rango dinámico. No creo que la visualización sea un problema si se captura tanto rango dinámico, porque puede normalizarse. En una cámara digital tengo que establecer la exposición, que solo capturará la escena exterior o la escena interior correctamente.

¿Es esto solo un problema con las cámaras digitales o es lo mismo con las cámaras de cine?

Una pregunta similar ya se discute aquí ¿Cómo capturar la escena exactamente como mis ojos pueden ver? . No estoy hablando de resolución, enfoque o detalle. Estoy interesado en la exposición o el rango dinámico similar a cuando fijamos nuestros ojos en una sola escena.

LifeH2O
fuente
2
No entiendo por qué dices "la cámara más nueva debería poder capturar fácilmente este rango dinámico". Se basan en una tecnología completamente diferente de nuestros ojos, por lo que realmente no veo por qué esperas que tengan características similares.
Philip Kendall
Entonces, ¿es todo el rango dinámico el que crea la mayor parte del problema?
LifeH2O
Estoy pensando en un experimento, hacer la escena en un papel con una lente y luego capturarla con la cámara. Debería normalizar el rango dinámico.
LifeH2O
44
Visite jvsc.jst.go.jp/find/mindlab/english/index.html para ver de forma interactiva cómo el cerebro lo engaña;)
Stormenet
1
@Stormenet: ¡Ese es un enlace increíble!
Chinmay Kanchi

Respuestas:

45

La razón por la que puede ver un rango dinámico tan grande no es porque el ojo, como dispositivo óptico, pueda capturar tal rango, sino porque su cerebro puede combinar información de muchas "exposiciones" de los ojos y crea un panorama HDR de la escena frente a ti.

El ojo es bastante pobre desde el punto de vista de la calidad de imagen, pero tiene una "frecuencia de cuadro" muy alta y puede cambiar la sensibilidad, la dirección y el enfoque muy rápidamente.

El cerebro toma todas esas imágenes del ojo y crea la imagen que crees que ves: esto incluye detalles de imágenes con diferente sensibilidad e incluso detalles que están completamente compuestos según lo que esperabas ver. (Esta es una razón por la cual hay ilusiones ópticas: el cerebro puede ser engañado para "ver" cosas que realmente no están allí).

Por lo tanto, puede ver con su cámara al igual que con su ojo, simplemente tome muchas exposiciones con diferentes configuraciones, luego cargue todo en Photoshop, cree un panorama HDR y use el "relleno consciente del contenido" para llenar los vacíos.

Por cierto, ¿por qué las cámaras "deberían" poder capturar ese rango pero los monitores no deberían poder reproducirlo? Si la tecnología que no existe debería existir, entonces los monitores deberían poder reproducir cualquier cosa que podamos ver (y yo debería poder tomar vacaciones en un hotel de baja gravedad en la luna)

Nir
fuente
1
¡me ganaste unos 4 minutos con una respuesta casi idéntica!
Matt Grum
22

Es posible que tenga una ligera ventaja en el rango dinámico del sensor sobre una cámara, pero la mayor parte de lo que hace la diferencia es tener un sofisticado sistema de autoexposición, saccades , procesamiento HDR y un sistema de reconocimiento de escena que persiste en exposiciones múltiples . El cerebro humano es al menos tan importante para el sistema visual como lo es el ojo .

Presentado con una escena que tiene un rango dinámico muy alto, el sistema visual humano tarda un tiempo en adaptarse. Esto no se debe a que tengamos que ajustar una configuración de rango dinámico, sino a que necesitamos analizar las partes muy brillantes y muy oscuras de la escena por separado, y luego pegar las partes importantes de la imagen. Mucho de lo que "vemos" en realidad depende de saber ya lo que hay allí; Podemos usar unas pocas indicaciones de detalles reales para completar los espacios en blanco (y cuando no tenemos suficiente información real, podemos interpolar, pero no siempre correctamente ).

Conseguir que una cámara, cualquier cámara, funcione a ese nivel significará diseñar un sistema que "sepa" lo que está mirando. Ya podemos hacer la versión "tonta" de eso usando varias técnicas de HDR (en su ejemplo específico, generalmente con un simple enmascaramiento donde la puerta se cortaría de la exposición a la oscuridad y una versión de la exposición brillante insertada en su lugar). Los procesos automatizados actuales se basan completamente en el brillo (ya que no pueden analizar el significado o la importancia) y tienden a producir artefactos obvios.. Y si alguna vez has visto una imagen combinada de HDR de 32 bits que aún no ha sido mapeada (que es esencialmente el tipo de cosa que obtendrías únicamente al aumentar el rango dinámico del sensor), probablemente habrás notado que la imagen es muy "plana" y carece de contraste local y global. Es saber cuál es la escena lo que nos permite hacer el mapeo, decidir dónde el contraste es localmente importante. Hasta que la cámara pueda tomar el mismo tipo de decisiones, no podrá producir una imagen que se parezca a lo que ve su cerebro.

Comunidad
fuente
9

Tiene que ver con la forma en que el cerebro interpreta la información proporcionada por los ojos (o, dicho de otro modo, es el software, no el hardware).

Solo vemos colores y detalles dentro de un campo muy estrecho en el centro de nuestra visión. Para construir la imagen colorida y detallada que percibimos, el cerebro mueve este lugar central sin que lo sepamos.

No soy neurobiólogo, pero es lógico pensar que a medida que el cerebro está creando esta imagen más amplia a partir de muchas instantáneas pequeñas, también se normaliza el brillo produciendo una imagen que parece tener el mismo brillo en todas partes, a pesar de que algunas áreas son mucho Más brillante en la realidad. Básicamente, la capacidad de ver cosas oscuras y brillantes al mismo tiempo es una ilusión.

No hay ninguna razón por la cual este comportamiento no pueda ser imitado por las cámaras digitales, ni tampoco por qué no podamos fabricar sensores capaces de un rango dinámico mucho mayor en una sola exposición. De hecho, Fuji fabricó un sensor con fotosites de baja sensibilidad adicional para capturar detalles de resaltado adicionales.

El problema se reduce a la incapacidad de mostrar imágenes de alto rango dinámico. Para mostrar tales imágenes en un monitor estándar de bajo rango dinámico, debe realizar un procesamiento especial llamado mapeo de tonos, que tiene sus propias desventajas. Para la mayoría de los consumidores, las cámaras de alto rango dinámico serían simplemente más complicadas.

Matt Grum
fuente
3

Resumen:

  • Dios hizo nuestros ojos.

  • Hacemos cámaras

  • Aún no hemos alcanzado a Dios.

  • PERO las mejores cámaras disponibles están a la altura del requisito que usted describe.

  • Hay formas de lograr lo que quieres. Simplemente ha decidido definirlos como no lo que quiere. Esa es su elección.

El nivel de luz en una habitación oscura con una ventana abierta a una escena exterior puede ser tan bajo como 0.1 lux (0.1 lumen por metro cuadrado). El nivel de luz de la escena exterior puede ser de 10 a miles de lux en la situación que usted describe.

A 100 lux externos y 0.1 lux internos, la relación es 1000: 1 o un poco menos de 10 bits de rango dinámico. Muchas cámaras modernas podrían diferenciar las diferencias tonales en ambos extremos de este rango está configurado correctamente. Si el nivel de luz del árbol estuviera saturando el sensor, entonces tendría unos 4 bits de nivel disponibles dentro de la habitación = 16 niveles de iluminación. para que pueda ver cierto grado de detalle con el nivel más brillante, EXCEPTO QUE el nivel de luz es tan bajo que los ojos tendrían problemas con él.

Si el nivel de luz del árbol fuera de 1000 lux (= 1% de la luz solar total) necesitaría unos 13 bits de rango dinámico. Las mejores cámaras de fotograma completo de 35 mm disponibles manejarían esto. El ajuste de la cámara debería ser preciso y tendrías aproximadamente cero información tonal dentro de la habitación. Este nivel de iluminación externa es más alto de lo que se obtendría si no fuera por una situación de noche iluminada.

Muchas DSLR modernas de nivel medio a superior tienen un procesamiento HDR incorporado que permite obtener rangos dinámicos mucho mayores al combinar múltiples imágenes. Incluso una foto HDR de 2 imágenes acomodaría fácilmente su escena. Mi Sony A77 ofrece hasta +/- 6 EV 3 cuadros HDR. Eso dará más de 20 bits de rango dinámico, lo que permite variaciones tonales muy adecuadas en los extremos superior e inferior en su ejemplo.

Russell McMahon
fuente
11
Alternativamente, se podría decir que la evolución ha tenido una ventaja de quinientos millones de años en nuestros ingenieros, y no sería razonable esperar que nos
pongamos
44
Eso es un toque teológico ...
Rowland Shaw
2
No creo que esto responda la pregunta, solo dice "porque los ojos son mejores". Bueno. ¿Cómo logran eso?
mattdm
1
@ naught101 - "atrapado" es una medida delicadamente matizada :-). El ojo per se es algo inferior en muchos aspectos a lo mejor que podemos manejar. Pero aún logra algunas proezas prodigiosas. ¡Por ejemplo, el ojo oscuro adaptado puede detectar un solo fotón! Pero, lo que hace la vida terriblemente difícil para los pretendientes es que el ojo no es solo parte de un sistema integrado de múltiples órganos, y el cerebro recibe algunos golpes, hasta ahora.
Russell McMahon
1
@RowlandShaw: solo si deseas que sea así. Otros ofrecieron su propia traducción apropiada de esa visión del mundo. Una declaración como esa puede ser una metáfora de lo que quieras que sea (Cthulu, FSM, Ever-looshin, ...) o no.
Russell McMahon
2

¿Es el problema solo de las cámaras digitales o es el mismo para las cámaras de película?

Ninguna de las respuestas ha tocado esto todavía, al menos directamente ... sí, también es un problema con la película. La famosa película de transparencia de color Fuji Velvia, por ejemplo, tiene un rango dinámico realmente podrido (¡excelente color!) La película de transparencia en general sufre esto. Por otro lado, las películas negativas pueden tener un rango dinámico muy bueno, casi tan bueno como las mejores cámaras digitales actuales. Sin embargo, se maneja de manera un poco diferente: aunque lo digital tiene una respuesta lineal a la luz, la película tiende a tener una marcada curva de contraste "S" incorporada. Los negros y casi negros, y los blancos y casi blancos, están agrupados más que los tonos medios.

Tenga en cuenta que, como las fotos de película generalmente terminarán impresas en tinta sobre un fondo de papel blanco, ¡hay un límite no demasiado generoso en cuanto al rango dinámico que uno quisiera capturar en primer lugar! Capturando, digamos, un rango dinámico de treinta pasos y luego enviándolo a ... ¿cuál es el DR de estadio de una impresión fotográfica de todos modos? Cinco paradas? ¿Seis? ... el medio de salida se vería ... extraño, por decir lo menos. Sospecho que es este factor más que cualquier obstáculo insuperable con la química que tiene un rango dinámico de película fotográfica limitado. No es tanto que no podamos hacerlo, es más que activamente no queremos hacerlo.

Staale S
fuente
2

Suficiente para llenar un libro, pero la simple idea es que los ojos humanos ven el brillo logarítmicamente mientras que las cámaras "ven" el brillo linealmente.

Entonces, si asume una condición en la que el brillo va de 1 a 10000 (número elegido al azar), en la base de registro 10, el ojo humano vería el brillo de 0 a 5 mientras que la cámara, linealmente, lo ve de 1 a 10000. Edificio un sensor que puede cubrir un rango tan grande es difícil ya que tiene un ruido que interfiere con mediciones bajas y una sobrecarga que interfiere con mediciones de brillo más altas. Dicho esto, creo que hay una cámara ROJA que puede grabar 18 paradas de rango dinámico, aunque no estoy seguro si es solo un prototipo o modelo de producción.

Por cierto, la diferencia logarítmica vs. lineal también es la razón por la cual el brillo se duplica o reduce a la mitad por cada diferencia de parada.

Pero esto es suficiente para un tema de investigación, así que esto es solo un breve puntero.

DetlevCM
fuente
Este efecto logarítmico en el ojo humano aplana el rango dinámico y el cerebro hace frente a eso porque solo lo ha estado haciendo así durante toda su vida. Si la cámara también aplanara el rango dinámico, entonces cuando vea el resultado, obtendría un doble aplanamiento, y su cerebro solo está acostumbrado a un aplanamiento simple. Si tuviera que ver el mundo con un dispositivo que hiciera esto, y continuara la vista durante días, se acostumbraría a él de manera normal. Retire el dispositivo después de eso y el mundo se vería duro y demasiado contrastante.
Skaperen
@Skaperen No creo que necesariamente llame a un logaritmo que aplaste el rango dinámico. Si escala el brillo logarítmicamente y linealmente en una comparación lado a lado, el logarítmico puede parecer más plano, PERO la pregunta es ¿cuántos decimales vemos? Técnicamente, ambas imágenes seguirían conteniendo la misma información solo en diferentes escalas, y el escalado no cambia la información contenida siempre que no incurra en errores de redondeo.
DetlevCM
2

El ojo no captura el rango dinámico. Comprime el rango dinámico, y luego el "procesamiento posterior" en el cerebro crea la ilusión de rango dinámico. Un rango dinámico comprimido es la razón por la que puede ver sombras y áreas iluminadas al mismo tiempo. La "ganancia", por así decirlo, se activa automáticamente en las partes de la retina que detecta las sombras, haciéndolas más brillantes, y se reduce donde la retina está viendo áreas iluminadas. El cerebro aún sabe que está mirando hacia una sombra, por lo que crea una sensación de que está oscuro allí. Se está produciendo una especie de expansión sobre los datos comprimidos, por así decirlo, para que no se dé cuenta de que el rango dinámico se ha comprimido.

Los sensores de las cámaras digitales podrían superar fácilmente a la retina en un rango dinámico bruto. El problema es que no controlas la exposición por área. Las cámaras tienen configuraciones de ganancia (generalmente presentadas en terminología de película como configuraciones ISO) que son globales.

Lo que hace el ojo, por así decirlo, es algo así como usar "ISO 100" para un área brillante e "ISO 800" para un área oscura al mismo tiempo.

Si la cámara pudiera ajustar la ganancia para áreas específicas de píxeles en función del brillo, eso sería indudablemente útil, pero sabemos, al aplicar tales efectos de nivelación de ganancia en el procesamiento posterior, que el cerebro no se deja engañar por ellos. No se ve natural. Parece natural solo cuando su propio ojo lo está haciendo en coordinación con su propio cerebro.

Luego
fuente
2

Esta es una pregunta interesante si le da la oportunidad en lugar de mencionar las razones obvias por las que las cámaras ya están hechas de la manera en que están hechas.

Consideremos la opción más cercana. El mapeo de tonos es un método en el que se aplica un filtro de paso bajo en los valores de exponente de la imagen RGBe. Eso juega un papel importante en cómo los ojos ven algo. Pero consideremos que nuestros ojos están tomando largas imágenes. Funcionan mucho más como cámaras de video que como cámaras fotográficas.

El mapeo de tonos podría mejorarse enormemente si se construyera como un sombreador GLSL que funcionara en tiempo real con una cámara de video especializada que pudiera capturar un flujo constante de imágenes HDR.

En un ejemplo mucho más simplificado, las fotos "HDR" del iPhone son compuestos de una imagen de baja y alta exposición impulsada a través de un proceso de mapeo de tonos que funciona bastante bien si no lo ha probado. Muchas otras cámaras de grado de consumidor hacen cosas similares.

También está el fascinante tema de cómo la intuición / intención / libre albedrío influye en cómo se calibran sus ojos a lo largo del tiempo. Si estás mirando una pared oscura y piensas en girar la cabeza hacia una ventana que está brillantemente iluminada, tu cerebro puede decirle a tus ojos que sigan adelante y empiecen a cerrar tus pupilas. Una cámara con exposición automática puede hacer lo mismo, pero solo después de que entra demasiada luz. Las personas que trabajan en el cine dedican mucho tiempo a que el tiempo de configuración de las cámaras de cine fluya sin problemas para que se sientan naturales en una toma complicada. (o iluminar una escena de tal manera que la configuración de las cámaras no tenga que ajustarse) Pero, una vez más, la única razón por la que ese tipo de cosas funcionan es porque el director sabe lo que le va a pasar a la cámara antes de que suceda.

Wray Bowling
fuente
0

El mayor problema sería reproducir la imagen capturada.

No está fuera del ámbito de la tecnología crear un sensor de imagen y una configuración que capturen una gama extremadamente amplia de niveles de brillo en una sola imagen. Al final, es solo una cuestión de conteo de fotones, que es una tecnología que escala a los niveles necesarios. Las cámaras actuales utilizan principalmente la configuración de exposición para modular la cantidad de brillo que ve el sensor, aunque se podría hacer más de este trabajo en el sensor, lo que tal vez resulte en un mayor ruido de error, pero ciertamente podría obtener un rango más amplio de un fotosensor que Lo que está actualmente disponible en el mercado.

Pero el problema es este: una vez que tienes esa imagen, ¿qué haces con ella? Incluso las pantallas de gama alta todavía usan color de 24 bits, lo que significa que solo se permiten 256 sombras por canal de color. Las impresoras actuales son igualmente limitadas, si no más. Así que nada en realidad se podría hacer con una imagen tal sin algún tipo de procesamiento primero para reducir el rango reduce a lo que producen las cámaras existentes.

Probablemente haya visto este problema antes: la mayoría de los formatos RAW actuales ya almacenan un rango más amplio de lo que se puede reproducir, y el rango de color ya debe estar comprimido o recortado antes de que pueda ver la imagen. Agregar aún más rango a la salida RAW sería más de lo mismo. La cámara probablemente sería mucho más costosa, pero las imágenes no serían mucho mejores porque aún debe reducir el rango a un color de 24 bits antes de poder mirarlo.

Aún así, tal vez con el software adecuado y el tipo de usuario adecuado, puede obtener algo maravilloso de él. Probablemente no sería muy diferente de la fotografía HDR actual, pero no tendría que tomar varias imágenes.

tylerl
fuente
2
El problema no son los bits por color, lo que define el número de tonos distintos, pero no dice nada sobre el rango general.
mattdm
@mattdm verdadero; pero el rango general es una función del dispositivo de salida independiente de los datos de la imagen en sí. El brillo y la relación de contraste en mi pantalla son una función de, y solo son conocidos por mi pantalla y no están influenciados por la cámara que usé para tomar la foto. De nuevo, los dispositivos de salida son el factor limitante, no las cámaras. Sin embargo, los bits por color hace influir en el rango en el sentido de que el aumento de su rango sin aumentar el número de niveles dentro del rango simplemente le da una imagen más clara / oscura y sin que le permite ver algo más en su interior.
tylerl