Multilayer perceptron inference solution for digital signal processing on the physical layer

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Department

Major/Subject

Mcode

SCI3042

Language

en

Pages

88

Series

Abstract

The fifth generation (5G) mobile networks are designed to provide unprecedented communications performance in terms of data rates and latencies, which imposes strict requirements on the software used in the wireless physical layer (L1). Recent research suggests that deep learning (DL) has potential in improving both radio performance and running times of various L1 processing tasks. However, so far neural network (NN) based solutions have mainly been studied in simulated environments, and DL based solutions are still largely missing from commercial 5G base station (BS) products. One reason for this is the lack of optimized inference solutions compatible with the highly specialized BS hardware. This thesis investigates the possibility of utilizing the existing hardware, namely, the digital signal processor (DSP) of a 5G BS system on a chip (SoC) to accelerate neural network inference. The aim is to determine how effectively the vectorization features of the DSP can be used, in terms of cycle counts, to speed up inference. Since the DSP is designed for computation with fixed-point numbers, another goal is to verify that inference can be performed with quantized models without significant degradation of accuracy. To answer these questions, the author designs, implements and optimizes a configurable multilayer perceptron inference (MLP) solution for the target DSP\@. The solution was evaluated using a cycle-accurate software simulator with three different MLP architectures. The results demonstrate that the performance gains are highly dependent on the model architecture. Compared to a portable reference implementation, vectorization resulted in speedups ranging from 8 to 45, increasing together with model size. With batching, additional speedups of up to 2 were obtained, with small models benefiting more. The designed quantization scheme did not result in significant accuracy losses in any of the three models, although it was found to be sensitive to outlier values in the inputs and NN parameters. Based on the results, it is possible to utilize the existing SoC hardware to accelerate NN inference, but in order to benefit the most from the parallel computing features of the DSP, some NN architecture considerations are required.

Viidennen sukupolven (5G) mobiiliverkot on suunniteltu mahdollistamaan tiedonsiirto ennennäkemättömän suurilla nopeuksilla ja matalilla viiveillä. Tämä asettaa tiukkoja vaatimuksia langattomalla fyysisellä kerroksella (L1) käytettävälle ohjelmistolle. Äskettäisten tutkimusten perusteella syväoppiminen voi tarjota ratkaisuja useiden L1-prosessointiin liittyvien tehtävien suorituskyvyn ja tarkkuuden parantamiseksi. Toistaiseksi neuroverkkoja on kuitenkin tutkittu pääosin simuloiduissa ympäristöissä, ja syväoppimiseen perustuvia ratkaisuja ei vielä ole käytössä kaupallisissa 5G tukiasematuotteissa. Yksi syy tähän on optimoitujen ja olemassaolevan laitteiston kanssa yhteensopivien inferenssiratkaisujen puuttuminen. Tässä diplomityössä tutkitaan mahdollisuuksia hyödyntää 5G tukiasemiin suunnitellun järjestelmäpiirin digitaalista signaaliprosessoria (DSP) neuroverkkoinferenssin kiihdyttämiseen. Tavoitteena on määrittää, kuinka tehokkaasti DSP:n vektorilaskentaominaisuuksia voidaan hyödyntää inferenssin nopeuttamiseksi. Koska DSP on suunniteltu laskentaan kiintopisteluvuilla, on lisäksi varmistettava, että inferenssi voidaan suorittaa kvantisoiduilla verkoilla ilman virhemäärien suurta kasvua. Näihin tavoitteisiin pääsemiseksi tässä työssä suunnitellaan, toteutetaan ja optimoidaan inferenssiratkaisu monikerroksisille perseptroniverkoille (MLP) kyseiselle DSP:lle. Ratkaisun suorituskyvyn mittana käytettiin inferenssiin tarvittavia prosessorisyklejä, joita mitattiin syklitarkalla profilointityökalulla. Ratkaisua arvioitiin kolmella eri MLP-mallilla. Tulosten perusteella suorituskyvyn kasvu riippuu käytetyn neuroverkkomallin arkkitehtuurista. DSP:n ominaisuuksia hyödyntämättömään referenssitoteutukseen verrattuna vektorisoinnilla saavutettiin 8--45-kertaisia inferenssin nopeuden kasvuja mallin koosta riippuen. Kasvattamalla yhdessä erässä käsiteltävien syötteiden määrää saatiin suorituskykyä vielä kasvatettua jopa kaksinkertaiseksi, erityisesti pienillä verkoilla. Toteutettu kvantisaatiomenetelmä ei heikentänyt inferenssin tarkkuutta merkittävästi yhdelläkään testatuista malleista, mutta sen havaittiin olevan herkkä yksittäisten verkon syötteiden tai parametrien vaihtelulle. Tulosten perusteella tutkitun tukiasemajärjestelmäpiirin DSP:tä voidaan hyödyntää MLP-inferenssin kiihdyttämisessä, mutta hyötyjen maksimoimiseksi tiettyjä verkkojen arkkitehtuureihin liittyviä ominaisuuksia on huomioitava mallien suunnittelussa.

Description

Supervisor

Hirvisalo, Vesa

Thesis advisor

Hassinen, Marko

Other note

Citation