Depending on the amount of data to process, file generation may take longer.

If it takes too long to generate, you can limit the data by, for example, reducing the range of years.

Dissertation

Download BibTeX

Title

Coevolutionary Shaping for Reinforcement Learning

Authors

[ 1 ] Instytut Informatyki, Wydział Informatyki, Politechnika Poznańska | [ P ] employee

Promoter

[ 1 ] Instytut Informatyki, Wydział Informatyki, Politechnika Poznańska | [ P ] employee

Supporting promoter

[ 1 ] Instytut Informatyki, Wydział Informatyki, Politechnika Poznańska | [ P ] employee

Reviewers

Title variant

PL Kształtowanie koewolucyjne dla uczenia się ze wzmocnieniem

Language

english

Keywords
EN
  • artificial intelligence
  • machine learning
  • reinforcement learning
  • coevolutionary algorithms
  • shaping
PL
  • sztuczna inteligencja
  • uczenie maszynowe
  • uczenie się ze wzmocnieniem
  • algorytmy koewolucyjne
  • kształtowanie zachowania
Abstract

EN Shaping is an important animal training technique that originates from behavioral psychology. The main motivation behind this technique is to enable animals to perform tasks that are too difficult to be learned directly. Shaping typically consists in starting from related simpler tasks and progressively increasing their difficulty. As a result, the learner can be exposed to an appropriate training experience and gradually refine its skills. By providing a pedagogical sequence of training tasks, shaping is expected to guide the learner towards the behavior of ultimate interest. This thesis investigates the concept of shaping in reinforcement learning - a machine learning paradigm closely related to human and animal learning. In this paradigm, an agent learns a decision-making policy for a sequential decision task through repeated trial-and-error interactions with an environment. Although shaping has been already applied to improve the effectiveness of reinforcement learning, most of the existing approaches rely on manually designed training environments and thus require a substantial amount of domain knowledge and human intervention. In this thesis we propose a unified shaping framework and introduce novel shaping approaches that avoid incorporating domain knowledge into the learning process. To this end, we rely mainly on competitive coevolutionary algorithms, which autonomously realize shaping by coevolving learners against their training environments. We investigate a hybrid of coevolution with self-play temporal difference learning and analyze this combination in the context of its generalization performance and scalability with respect to the search space size. Next, we design a novel measure of task difficulty and use it to devise a set of shaping methods that provide training tasks from a precomputed task pool according to either static or dynamic difficulty distribution. Finally, we formalize the problem of optimal shaping and design a coevolutionary method that optimizes training experience for a temporal difference learning algorithm. The proposed shaping methods are experimentally verified in nontrivial sequential decision making domains, including the benchmark problem of cart pole balancing and the board games of Othello and small-board Go. We demonstrate that shaping can provide significant empirical benefits compared to conventional unshaped reinforcement learning, either by improving the final performance or by facilitating faster convergence.

PL Kształtowanie zachowania jest istotną techniką trenowania zwierząt wywodzącą się z psychologii behawioralnej. W swojej oryginalnej postaci kształtowanie polega na wykorzystaniu serii kolejnych przybliżeń docelowego zadania, które jest zbyt trudne, aby uczyć się go bezpośrednio. Zaczynając od prostszych zadań i stopniowo podnosząc ich trudność, uczeń dostaje szansę zebrania właściwego doświadczenia uczącego, które pozwala mu adekwatnie podnosić swoje umiejętności. Istotą kształtowania jest więc znalezienie i dostarczenie uczniowi takich zadań treningowych, które umożliwiają rozwiązanie postawionego zadania efektywniej niż gdyby uczenie odbywało się bezpośrednio w docelowym środowisku. Głównym celem tej pracy jest zastosowanie idei kształtowania w kontekście uczenia się ze wzmocnieniem - paradygmatu uczenia maszynowego, który jest blisko związany z uczeniem się ludzi i zwierząt. W uczeniu się ze wzmocnieniem inteligentny agent wchodzi w autonomiczne interakcje z otaczającym go środowiskiem i metodą prób i błędów poszukuje optymalnej strategii działania w celu rozwiązania sekwencyjnego problemu decyzyjnego. W standardowym podejściu do uczenia się ze wzmocnieniem trening agenta odbywa się bezpośrednio w docelowym środowisku. Przyjęty schemat kształtowania zakłada wykorzystanie innych, specjalnie dobranych zadań i środowisk treningowych. Pomimo tego, że technika kształtowania została już wcześniej pomyślnie przeniesiona na grunt uczenia maszynowego, większość dotychczasowych podejść opiera się na ręcznie zaprojektowanych środowiskach treningowych. Takie podejście wymaga zwykle zaangażowania wiedzy dziedzinowej oraz ludzkiego nadzoru nad procesem uczenia. W pracy zaproponowano ujednolicony schemat kształtowania dla uczenia się ze wzmocnieniem oraz wprowadzono nowatorskie podejście do kształtowania, które nie wymaga użycia wiedzy dziedzinowej do konstrukcji zadań treningowych. W tym celu zastosowano między innymi kompetetywne algorytmy koewolucyjne, które realizują koncepcję kształtowania w sposób autonomiczny poprzez jednoczesną ewolucję agentów i ich zadań treningowych. Dodatkowo, analizie poddano metodę hybrydową, która łączy elementy koewolucji z gradientowym uczeniem się metodą różnic czasowych. Kombinacja ta została poddana eksperymentalnej analizie pod kątem zdolności uogólniania i skalowalności względem rozmiaru przestrzeni przeszukiwań. Poza tym zaprojektowano innowacyjną miarę trudności zadań, która pozwala definiować metody kształtowania dostarczające zadania treningowe zgodnie z przyjętym wcześniej lub dynamicznie dostrajanym rozkładem trudności zadań. Sformułowany został również problem optymalnego kształtowania i zaprojektowano algorytm koewolucyjny optymalizujący doświadczenię uczące dla algorytmów uczenia się metodami różnic czasowych. Wszystkie zaproponowane metody kształtowania zostały poddane eksperymentalnej weryfikacji na wybranych sekwencyjnych problemach decyzyjnych. Rozważane problemy obejmują klasyczny w teorii sterowania problem odwróconego wahadła oraz popularne gry planszowe - Othello i Go. Zademonstrowano, że wprowadzone metody kształtowania mogą znacząco poprawić wyniki uzyskiwane przez standardowe podejście do uczenia się ze wzmocnieniem, zarówno jeśli chodzi o ostateczną skuteczność nauczonych strategii, jak również pod względem szybkości uczenia.

Number of pages

245

OECD domain

computer sciences and computer science

KBN discipline

computer science

Signature of printed version

DrOIN 1614

On-line catalog

to201580743

Full text of dissertation

Download file

Access level to full text

public

First review

Jacek Mańdziuk

Place

Warszawa, Polska

Date

21.08.2014

Language

english

Review text

Download file

Access level to review text

public

Second review

Robert Schaefer

Place

Kraków, Polska

Date

07.07.2014

Language

english

Review text

Download file

Access level to review text

public

Third review

Marco A. Wiering

Place

Groningen, Holandia

Date

14.08.2014

Language

english

Review text

Download file

Access level to review text

public

Dissertation status

dissertation

Place of defense

Poznań, Polska

Date of defense

11.09.2014

Unit granting title

Rada Wydziału Informatyki Politechniki Poznańskiej

Obtained title

doktor nauk technicznych w dyscyplinie: informatyka, w specjalności: sztuczna inteligencja

This website uses cookies to remember the authenticated session of the user. For more information, read about Cookies and Privacy Policy.