Representación realista: ¿qué procesos del ojo y cerebro humanos debo considerar?

El renderizado fotorrealista tiene el objetivo de renderizar una imagen como una cámara real la capturaría. Si bien este ya es un objetivo ambicioso, para ciertos escenarios es posible que desee llevarlo más lejos: renderice una imagen como lo captaría el ojo humano o incluso como lo percibiría el ser humano . Podría llamarse representación visiorealista o perceptiorealista , pero si alguien pudiera encontrar un término más pegadizo (o decirme que ya existe uno), lo agradecería.

Aquí hay algunos ejemplos para aclarar mi punto. Cuando toma una foto con una cámara con un nivel de iluminación bajo, tiene una buena lente u obtiene una imagen ruidosa. Para un observador humano, la visión escotópica entra en acción y da lugar al efecto Purkinje (los colores se desplazan hacia el azul). Este efecto depende de la información de luminancia HDR, que se pierde cuando visualizo la imagen en una pantalla LDR. Además, el cerebro humano puede usar información de profundidad para 'filtrar' la imagen percibida, información que se pierde en una representación final (no estéreo).

Crear una lista exhaustiva es probablemente un objetivo difícil de alcanzar. ¿Podría sugerirme algunos de los efectos del ojo y el cerebro que debería considerar?

human-vision David Kuri
fuente

Una vez escuché que recibimos el mismo ruido que las cámaras porque el ruido es realmente físico y no solo eléctrico. (es decir, no hay tantos fotones después de todo). Pero el cerebro lo borra, usando el antialiasing temporal, creo. (es decir, vemos con mucho movimiento borroso por la noche).

v.oddou

No entiendo muy bien la idea. Si renderiza una imagen con poca luz y simula un efecto Purkinje, no se verá realista ya que el ojo humano agregará su propio efecto, ¿no?

Yves Daoust

@YvesDaoust Dado que la imagen se muestra en un monitor LDR en condiciones de iluminación desconocidas, probablemente no. En pocas palabras, la imagen que ve en la pantalla será más brillante, por lo que es más fácil de percibir. Si estuviéramos usando un monitor HDR y pudiéramos reproducir los valores de luminancia de una escena nocturna exactamente (y tener una habitación oscura), tiene razón.

David Kuri

No hay nada malo en lo que estás buscando, pero me temo que esto me parece demasiado amplio, ya que hay tantos efectos que debemos tener en cuenta. No pude escribir esto en formato SE, porque de hecho estaría mal. Sin embargo, si ajusta su alcance un poco como "¿Puede sugerirme algunos de los efectos que debería considerar", sería más fácil comenzar?

joojaa

@joojaa Cambié las preguntas como sugeriste, gracias.

David Kuri

Respuestas:

es posible que desee llevarlo más lejos: renderice una imagen como lo captaría el ojo humano o incluso como lo percibiría el ser humano.

Hay dos formas de interpretar esto. Yo haré las dos cosas.

Interpretación 1: renderice una imagen que parezca perceptualmente realista.

Al final del día, su imagen aún debe mostrarse en algún lugar. Aquí está la clave: desea renderizar su imagen de tal manera que cuando * muestre * esa imagen en un dispositivo de visualización en particular, produzca la misma sensación que la imagen radiométrica original habría producido.

Aquí le mostramos cómo desempaquetar esa idea.

En el mundo real, los espectros radiométricos (es decir, distribuciones reales de luz) ingresan al ojo y estimulan aproximadamente ¹ cuatro receptores de luz. Las estimulaciones de los receptores producen las sensaciones de color que asociamos con las imágenes.

Al renderizar, no tenemos control arbitrario sobre los espectros que producimos. Afortunadamente, dado que (generalmente) tenemos solo tres conos, cada uno de los cuales produce solo un valor escalar, la visión del color puede reproducirse utilizando exactamente tres primarios. La conclusión es que puede producir cualquier sensación de color mediante el uso de una combinación lineal de tres longitudes de onda solamente (hasta unos pocos colores que podrían tener que ser negativos, en cuyo caso, solo usa primarios diferentes).

No tienes elección de primarias. Casi todos los dispositivos de visualización en color utilizan el estándar sRGB, que proporciona tres primarios (que en realidad no suelen tener una sola longitud de onda). Eso está bien porque resulta que todo es abstracto y no tienes que preocuparte.

Para aclarar el desorden que es la representación perceptivamente precisa, aquí está el algoritmo:

Renderice su imagen usando los cálculos radiométricos correctos. Trazas longitudes de onda individuales de luz o cubos de longitudes de onda. Lo que sea. Al final, tiene una imagen que tiene una representación del espectro recibido en cada punto.
En cada píxel, toma el espectro que renderizó y lo convierte al espacio de color CIE XYZ . Esto funciona para integrar el producto del espectro con las funciones estándar del observador (ver definición CIE XYZ) .
Esto produce tres valores escalares, que son los colores CIE XYZ.
Use una transformación matricial para convertir esto a RGB lineal, y luego use una transformación lineal / de potencia para convertir RGB lineal a sRGB .
Convierta de punto flotante a uint8 y guarde los valores de sujeción fuera de rango (su monitor no puede representarlos).
Envíe los uint8 píxeles al framebuffer.
La pantalla toma los colores sRGB, hace la transformación inversa para producir tres primarios de intensidades particulares. Cada uno escala la salida del elemento de imagen del que es responsable. Los elementos de la imagen se iluminan, produciendo un espectro. Este espectro será (con suerte) un metamer para el espectro original que renderizó.
Percibes el espectro como habrías percibido el espectro renderizado.

Interpretación 2: Intente simular los datos finales que el ojo humano podría recibir para fines de visualización o compensación para pantallas LDR.

Este tiene un significado menos útil, creo. Esencialmente, estás tratando de producir una imagen que modifique la forma en que el cerebro la percibe por diversión / beneficio.

Por ejemplo, hubo un artículo en SIGGRAPH este año donde simularon imágenes posteriores y reducción de color para hacer que las imágenes parecieran perceptivamente diferentes. Por supuesto, la única razón por la que hacen esto es porque las pantallas con las que estamos trabajando son todas de rango dinámico bajo (LDR). El punto es simular los efectos que alguien podría ver si se exponen a un rango real de alto rango dinámico (HDR) como datos de imagen reales.

En la práctica, esto no funciona muy bien. Para las imágenes posteriores, por ejemplo, vemos imágenes posteriores debido a un estímulo muy brillante que agota las células de color. Si, en cambio, trata de estimular el efecto con una imagen falsa, puede parecer algo similar, pero como es un mecanismo completamente diferente, no es muy convincente.

Este tipo de gráficos en realidad está poco explorado en la literatura si quieres intentarlo. El documento mencionado es un ejemplo de los enfoques más o menos más avanzados que tenemos. Sin embargo, creo que el consenso actual es que realmente no vale la pena intentar simular (al menos en este momento), ya que en el mejor de los casos solo estaría aproximando los efectos de la visión real al sustituir los diferentes, y que esto realmente no trabajo.

¹ Rod + 3 * conos, el caso habitual. Aproximadamente porque los humanos pueden tener tan solo cero receptores de luz funcionales hasta un máximo conjeturado de siete (siendo el más alto observado cinco).

imallett
fuente

Gracias por tu respuesta. Sin embargo, considero que está incompleto. Su afirmación de la Interpretación 1 "Usted percibe el espectro como habría percibido el espectro renderizado" es posiblemente erróneo. Al percibir el espectro real, los efectos se activan cuando no se usa la conversión que describió (por ejemplo, tendría que usar un observador estándar escotópico en condiciones de poca luz, como se menciona en Jameson, Hurvich: Visual Psychophysics). Lo que describiste es la idea del renderizado espectral. Interpretación 2 es sobre lo que quiero aprender más. El artículo será un buen comienzo, gracias por eso.

David Kuri

Cuando se trata de la percepción, también está el problema de lo que estamos casi ciegos (en términos de propiedades o artefactos), y de lo que hemos forzado la percepción.

Por ejemplo, en cuanto al sonido, tiene un contraste o frecuencias que lo hacen menos consciente de otros contenidos (un antiguo documento SIGGRAPH ilustraba cómo la textura puede enmascarar la resolución de la malla), además de todos los aspectos de tiempo (google para "cambiar la ceguera"). Del mismo modo, los detalles de superficie, normales, BRDF pueden verse o no dependiendo de los valores y los valores relativos.

Además, dado que nuestro sistema perceptivo tiende a adaptarse local y globalmente, para valores de baja frecuencia es importante tener máximos y mínimos en los lugares correctos, pero su valor exacto realmente no se notará.

A veces, la cognición puede estar ahí, como permitir muchos errores en las nubes y los árboles, pero seguramente menos en los rostros humanos. (A veces, puede degradar esto a estadísticas de parámetros para una categoría determinada).

Es por eso que prefiero usar la palabra "plausible" en lugar de "fotorrealista".

Por el contrario, somos ultrasensibles a artefactos como píxeles falsos o píxeles parpadeantes, ultrasensibles a correlaciones como frentes de error de solo 1 nivel de gris, patrones no deseados como Moiré, aliasing o mal aleatorio, etc.

Por cierto, es una de las razones por las que las soluciones basadas en la optimización que resumen todo en una energía simple pueden ser una muy mala idea, ya que en todas las situaciones paradójicas esto puede ser propenso a la concentración de errores en líneas o puntos. Por la misma razón, la gente de iluminación global temprana estaba realmente decepcionada de que las soluciones exactas de energía fueran menos aceptadas que las sombras aproximadas anti-alias (y luego vinieron de los métodos adaptativos basados en quad-tree a malla).

Se puede encontrar una visión general (bastante general) sobre la percepción de los gráficos en este curso de SigAsia'11 sobre "Percepción en gráficos, visualización, entornos virtuales y animación"

Fabrice NEYRET
fuente