Reinforcement learning based bidding tactics on a frequency reserve market

No Thumbnail Available
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu | Master's thesis
Date
2021-08-23
Department
Major/Subject
Control, Robotics and Autonomous Systems
Mcode
ELEC3025
Degree programme
AEE - Master’s Programme in Automation and Electrical Engineering (TS2013)
Language
en
Pages
71
Series
Abstract
The energy production and consumption must be equal at any given moment on the power grid. The increase of renewable energy sources has turned balancing of the grid more demanding. This has raised the need for battery energy storages. The battery energy storages are capable to meet the reaction requirements of the power grid in case of grid disturbances. In Finland, the transmission system operator Fingrid buys from reserve providers the needed reserve capacity for the balancing of the grid. There exists a need for research of profitable use of a battery as a reserve. The difficulty in evaluation of such profitability is to optimize the battery usage that considers the rapid electrical phenomena, dynamics of the electricity market and the rules set by the transmission system operator, regarding the rewards and penalties. The reinforcement learning has shown promising results in multiple optimizations of complex problems, that involve uncertainty. The artificial neural network is a type of reinforcement learning, that is capable to solve regression problems. In this thesis the tactic for bidding in the Finnish primary frequency reserve market based on reinforcement learning was researched. The neural network was applied to optimize the participation with a battery energy storage. The aim for the ap-plied solution is to minimize the penalties due to incapability of the battery to meet the technical requirements, and at the same time, to maximize the reward with optimal bidding capacities. The bids are done a day before, which will increase the uncertainty of decision making. In this thesis the simulation model of battery energy storage system is connected to offline market environment, where reinforcement learning agent learns to optimize the decision making with only the knowledge of forecasted prices and the time it has passed since the battery previously rested and returned the state of charge to a known state.

Kantaverkossa energian tuotannon ja kulutuksen on oltava yhtä suurta jokaisella ajan hetkellä. Uusiutuvien energialähteiden lisääntyminen on tehnyt verkon tasapainottamisesta entistä vaativampaa, mikä on lisännyt suurten akkujen käyttöä sähkön varastoinnissa. Tällaisten akkuvarastojen avulla on mahdollista vastata kantaverkon häiriöiden synnyttämiin vaatimuksiin kapasiteetin ja reaktiokyvyn osalta. Suomessa kantaverkonhaltija Fingrid ostaa reservintoimittajilta verkon tasapainottamiseen tarvittavan reservikapasiteetin. Akkujen käytöstä taajuusreservimarkkinoilla tarvitaan lisää tutkimusta, jotta voidaan arvioida akun optimaalinen käyttö. Optimoinnissa on huomioitava akkuun liittyvät nopeat sähkömekaaniset ilmiöt, reservimarkkinoiden dynamiikka ja kantaverkonhaltijan asettamat säännöt liittyen toimitettuun ja toimittamatta jääneeseen reservikapasiteettiin sekä niistä maksettaviin korvauksiin reservin toimittajalle ja kantaverkonhaltijalle. Vahvistusoppiminen on osoittanut lupaavia tuloksia monimutkaisten ja stokastisten ongelmien optimoinnissa. Neuroverkot ovat vahvistusoppimisen eräs menetelmä, jota on sovellettu tässä työssä. Tässä opinnäytetyössä tutkittiin vahvistusoppimiseen pohjautuvien taktiikoiden käyttöä Suomen taajuusreservimarkkinoilla. Vahvistusoppimista sovellettiin markkinoille osallistumisen optimoimiseksi käyttäen suuren kokoluokan akkuvarastoa. Käytetyn ratkaisun tavoitteena oli minimoida kantaverkonhaltijan asettamat seuraamukset, jotka johtuivat akun kyvyttömyydestä täyttää tekniset vaatimukset, ja samalla maksimoida palkkio tekemällä optimaalisia tarjouksia reservimarkkinoilla. Tarjoukset tehdään päivää ennen varsinaista reservin tarvetta, mikä lisää päätöksenteon epävarmuutta. Tässä opinnäytetyössä vahvistusoppimiseen pohjautuva agentti on koulutettu ja validoitu markkinadataa vasten, jolloin se oppii optimoimaan päätöksenteon tietäen ainoastaan ennustetut hinnat seuraavalle päivälle sekä ajan, joka on kulunut akun edellisestä latauksesta tai purusta tunnettuun tilaan.
Description
Supervisor
Sierla, Seppo
Thesis advisor
Subramanya, Rakshith
Keywords
reinforcement learning, simulation, frequency reserve market, artificial intelligence, timescale, Battery
Other note
Citation