¿Cómo se puede medir el EQ de un programa de IA?

La respuesta a su pregunta es "En principio, sí": en su forma más general, la prueba de ecualización es solo un caso específico de la prueba de Turing ("¿Cómo se sentiría acerca de ...?").

Para ver por qué las pruebas de ecualización significativas pueden ser difíciles de lograr, considere las siguientes dos pruebas posibles:

En un extremo de complejidad, la película 'Blade Runner' muestra una prueba famosa para distinguir entre humanos y androides sobre la base de respuestas a preguntas cargadas de emociones.

Si trataste de hacer estas preguntas (o incluso muchas más simples) a un chatbot moderno, probablemente concluirías rápidamente que no estabas hablando con una persona.

El problema con la evaluación de EQ es que cuanto más sofisticada emocionalmente sea la prueba, más general tendrá que ser el sistema de inteligencia artificial para convertir la entrada en una representación significativa.

En el otro extremo de lo anterior, suponga que una prueba de ecualización se formuló de una manera extremadamente estructurada, con el aporte estructurado proporcionado por un humano. En tal caso, el éxito en una 'prueba de ecualización' no se basa realmente en el mundo real.

En un ensayo titulado "El efecto irrenunciable de Eliza y sus peligros", Douglas Hofstadter da el siguiente ejemplo, en el que se afirma que el programa ACME (no Hofstadter) "comprende" la analogía.

Aquí la computadora descubre que un tipo llamado Sluggo lleva a su esposa Jane y a su buen amigo Buck a un bar, donde las cosas siguen su curso natural y Jane termina embarazada de Buck. Ella tiene el bebé, pero no lo quiere, y por eso, ayudada por su esposo, la ahoga en un río, "resolviendo perfectamente" el problema "de Bambi".

Esta historia se presenta a ACME de la siguiente forma:

ql: (neglectful-husband (Sluggo))
q2: (lonely-and-sex-starved-wife (Jane-Doe))
q3: (macho-ladykiller (Buck-Stag))
q4: (poor-innocent-little-fetus (Bambi))
q5: (takes-out-to-local-bar (Sluggo Jane-Doe Buck-Stag))
...
q11: (neatly-solves-the-problem-of (Jane-Doe Bambi))
q12: (cause (ql0 q11))

Supongamos que se le preguntara al programa si el comportamiento de Jane Doe era moral. Conceptos emocionales compuestos complejos como 'negligente', 'solitario' e 'inocente' son aquí simplemente predicados, no disponibles para la IA para un examen introspectivo más profundo. Podrían reemplazarse con la misma facilidad por etiquetas como 'bling-blang-blong15657'.

Entonces, en cierto sentido, la ausencia de éxito en una prueba de ecualización con cualquier profundidad es indicativo del problema general que enfrenta actualmente la IA: la incapacidad de definir (o aprender) representaciones significativas de las complejidades sutiles del mundo humano, que es mucho más complejo que poder reconocer videos de gatos.

NietzscheanAI
fuente

¿Cómo se puede medir el EQ de un programa de IA?

Respuestas: