Mesetas estériles en paisajes de entrenamiento de redes neuronales cuánticas

Aquí los autores argumentan que los esfuerzos de crear una red neuronal cuántica escalable usando un conjunto de puertas parametrizadas se considera que fracasan para una gran cantidad de qubits. Esto se debe al hecho de que, debido al Lema de Levy , el gradiente de una función en espacios de alta dimensión es casi cero en todas partes.

Me preguntaba si este argumento también puede aplicarse a otros métodos híbridos de optimización cuántica-clásica, como VQE (Variational Quantum Eigensolver) o QAOA ( Algumitmo de optimización cuántico aproximado).

¿Qué piensas?

algorithm speedup optimization neural-network qaoa asdf
fuente

"utilizando un conjunto de puertas parametrizadas" ¿Qué conjunto? ¿Es al azar por casualidad?

rrtucci

El artículo fue escrito por Jarrod McClean, quien también es el pionero de VQE. Me imagino que Jarrod no cree que se considere que VQE falla para un mayor número de qubits. Creo que su descripción del Lemma de Levy es un poco diferente de lo que sugiere el artículo. Usted dice "el gradiente de una función en espacios de alta dimensión es casi cero en todas partes", pero el documento solo dice que este es el caso en el contexto particular de los QNN descritos en el documento.

user1271772

Para explicar un poco mi último comentario: uno puede construir una función de alta dimensión que cambie muy rápidamente en todas partes, no tendrá un gradiente de "casi cero" en todas partes. La conclusión basada en el lema de Levy en el documento, es para la función específica que están optimizando, no para "ninguna" función en un espacio de alta dimensión.

user1271772

@asdf: después de pasar la mayor parte del día mirando el periódico de un lado a otro, finalmente he encontrado una respuesta para usted. Echar un vistazo.

user1271772

quantumcomputing.stackexchange.com/q/2056/55

glS

Respuestas:

Primero : El artículo hace referencia a [ 37 ] para Levy's Lemma, pero no encontrará ninguna mención de "Levy's Lemma" en [37]. Lo encontrará llamado "Desigualdad de Levy", que se llama Lemma de Levy en esto , que no se cita en el documento que menciona.

$|\Psi(\vec{p})\rangle$

E_{\vec{p}} = \frac{⟨ Ψ (\vec{p}) | H | Ψ (\vec{p}) ⟩}{⟨ Ψ (\vec{p}) | Ψ (\vec{p}) ⟩} .

$E_{\vec{p}} = \frac{\left\langle \Psi(\vec{p})\right|H\left|\Psi(\vec{p})\right\rangle}{\left\langle\Psi(\vec{p}) \right|\left.\Psi(\vec{p}) \right\rangle}.$

$\vec{p}$

$\vec{p}$ $10^{10}$ $\vec{p}$ $10^{12}$ , donde los parámetros son coeficientes de determinantes Slater. En general, se sabe que el paisaje energético no es tan plano (como lo sería si el gradiente fuera 0 en casi todas partes) incluso cuando hay un billón de parámetros o incluso más.

$H$ $|\Psi(\vec{p})\rangle$ $H$ $|\Psi\rangle$

usuario1271772
fuente