Deep Reinforcement Learning for Quantum Circuit Optimization

Loading...
Thumbnail Image

Files

URL

Journal Title

Journal ISSN

Volume Title

Insinööritieteiden korkeakoulu | Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.

Department

Mcode

ENG3082

Language

en

Pages

29

Series

Abstract

Quantum computing promises significant computational advantages over classical methods in certain applications but is currently too unstable for executing complex tasks. High-fidelity quantum circuits are critical to overcoming this challenge, yet they are computationally challenging to design. On current noisy intermediate-scale quantum (NISQ) hardware, shallower circuits with fewer two-qubit gates generally run with higher fidelity. Increased fidelity can be sought by sequentially rewriting the circuit, which involves a vast search space. This costly search space exploration could be circumvented by using reinforcement learning (RL) to teach an agent to rewrite the circuit in a sequential decision-making process. This thesis aims to implement a Deep Q-Network (DQN) algorithm to optimize BernsteinVazirani (BVZ) circuits. The DQN algorithm interacts with a Cirq-based environment. The environment provides valid rewrite actions to the DQN algorithm, which gains a scalar reward emphasizing depth and gate reduction. In the thesis we compare two different state encodings as input for the neural network: a compact state summarizing vector representation with three features, and an image-like encoding that maps circuit state topology with tokens through a fixed embedding. Both input encodings use the same action rewrite set and reward design. The network is implemented in PyTorch and trained with Adam optimizer, and runs on GPU via CUDA. Empirically, the agent shows promising initial optimizing performance. On several BVZ circuits with varying qubit count and topology, the agent drives the depth toward the theoretical optimum of three. The simplistic vector encoding already reaches reasonable circuit depth plateaus, with the image-like encoding together with hyperparameter tuning improving reliability, showing avenues for continued improvement. We conclude that DQN is a viable foundation for automated circuit optimization on BVZ circuits. To achieve reliable circuit optimization at scale, future research should investigate even richer encoding methods and reward function shaping. Finally, the results support applying the DQN to be applied to circuit families beyond BVZ.

Kvantdatorer lovar betydande beräkningsmässiga fördelar jämfört med klassiska metoder i vissa tillämpningar, men är i nuläget för instabila för att utföra komplexa uppgifter. Kvantkretsar med hög fidelitet är avgörande för att möta denna utmaning, men de är svåra att konstruera. På dagens bullriga kvantdatorer i mellanskala (NISQ) körs grundare kretsar med färre tvåkubitsgrindar i regel med högre fidelitet. Ökad fidelitet kan uppnås genom att sekventiellt omskriva kretsen, vilket involverar ett stort sökområde. Denna kostsamma sökning kan minskas genom att använda förstärkt inlärning (RL) för att lära en agent att skriva om kretsen i en sekventiell beslutsprocess. Syftet med denna avhandling är att implementera en Deep Q-Network (DQN)-algoritm för att optimera Bernstein-Vazirani (BVZ)-kretsar. DQN-algoritmen samverkar med en Cirqbaserad miljö. Miljön ger giltiga omskrivningsåtgärder till DQN-algoritmen, som får en skalär belöning som betonar minskat kretsdjup och färre grindar. I avhandlingen jämför vi två olika tillståndskodningar som indata för det neurala nätverket: en kompakt tillståndssammanfattande vektorrepresentation med tre egenskaper och en bildliknande kodning som mappar kretsens tillståndstopologi med tokens genom en fast inbäddning. Båda kodningarna använder samma omskrivningsregler och belöningsdesign. Nätverket implementeras i PyTorch, tränas med Adam-optimeraren och drivs på GPU via CUDA. I våra experiment visar agenten lovande initiala optimeringsresultat. På flera BVZ-kretsar med varierande antal kubiter och topologi driver agenten djupet mot det teoretiska optimala värdet på tre. Den förenklade vektorkodningen når redan rimliga kretsdjupsplatåer, och den bildliknande kodningen tillsammans med hyperparameterjustering förbättrar stabiliteten, vilket indikerar potential för fortsatt förbättring. Vi drar slutsatsen att DQN är en användbar utgångspunkt för automatiserad kretsoptimering på NISQ-hårdvara. För att uppnå tillförlitlig kretsoptimering i stor skala bör framtida forskning undersöka ännu mer avancerade kodningsmetoder och vidareutforma belöningsfunktioner. Avslutningsvis stödjer resultaten tillämpningen av DQN på kretsfamiljer utöver BVZ.

Description

Supervisor

St-Pierre, Luc

Thesis advisor

Paler, Alexandru

Other note

Citation