SIN PP | Coevolutionary Shaping for Reinforcement Learning

Tytuł

Coevolutionary Shaping for Reinforcement Learning

Autorzy

Marcin Grzegorz Szubert (WI) ^{[ 1 ][ P ]}

^{[ 1 ]} Instytut Informatyki, Wydział Informatyki, Politechnika Poznańska | ^{[ P ]} pracownik

Promotor

Krzysztof Krawiec (WI) ^{[ 1 ][ P ]}

^{[ 1 ]} Instytut Informatyki, Wydział Informatyki, Politechnika Poznańska | ^{[ P ]} pracownik

Promotor pomocniczy

Wojciech Jaśkowski (WI) ^{[ 1 ][ P ]}

^{[ 1 ]} Instytut Informatyki, Wydział Informatyki, Politechnika Poznańska | ^{[ P ]} pracownik

Recenzenci

Wariant tytułu

PL Kształtowanie koewolucyjne dla uczenia się ze wzmocnieniem

Język

angielski

Słowa kluczowe

EN

artificial intelligence
machine learning
reinforcement learning
coevolutionary algorithms
shaping

PL

sztuczna inteligencja
uczenie maszynowe
uczenie się ze wzmocnieniem
algorytmy koewolucyjne
kształtowanie zachowania

Streszczenie

EN Shaping is an important animal training technique that originates from behavioral psychology. The main motivation behind this technique is to enable animals to perform tasks that are too difficult to be learned directly. Shaping typically consists in starting from related simpler tasks and progressively increasing their difficulty. As a result, the learner can be exposed to an appropriate training experience and gradually refine its skills. By providing a pedagogical sequence of training tasks, shaping is expected to guide the learner towards the behavior of ultimate interest. This thesis investigates the concept of shaping in reinforcement learning - a machine learning paradigm closely related to human and animal learning. In this paradigm, an agent learns a decision-making policy for a sequential decision task through repeated trial-and-error interactions with an environment. Although shaping has been already applied to improve the effectiveness of reinforcement learning, most of the existing approaches rely on manually designed training environments and thus require a substantial amount of domain knowledge and human intervention. In this thesis we propose a unified shaping framework and introduce novel shaping approaches that avoid incorporating domain knowledge into the learning process. To this end, we rely mainly on competitive coevolutionary algorithms, which autonomously realize shaping by coevolving learners against their training environments. We investigate a hybrid of coevolution with self-play temporal difference learning and analyze this combination in the context of its generalization performance and scalability with respect to the search space size. Next, we design a novel measure of task difficulty and use it to devise a set of shaping methods that provide training tasks from a precomputed task pool according to either static or dynamic difficulty distribution. Finally, we formalize the problem of optimal shaping and design a coevolutionary method that optimizes training experience for a temporal difference learning algorithm. The proposed shaping methods are experimentally verified in nontrivial sequential decision making domains, including the benchmark problem of cart pole balancing and the board games of Othello and small-board Go. We demonstrate that shaping can provide significant empirical benefits compared to conventional unshaped reinforcement learning, either by improving the final performance or by facilitating faster convergence.

PL Kształtowanie zachowania jest istotną techniką trenowania zwierząt wywodzącą się z psychologii behawioralnej. W swojej oryginalnej postaci kształtowanie polega na wykorzystaniu serii kolejnych przybliżeń docelowego zadania, które jest zbyt trudne, aby uczyć się go bezpośrednio. Zaczynając od prostszych zadań i stopniowo podnosząc ich trudność, uczeń dostaje szansę zebrania właściwego doświadczenia uczącego, które pozwala mu adekwatnie podnosić swoje umiejętności. Istotą kształtowania jest więc znalezienie i dostarczenie uczniowi takich zadań treningowych, które umożliwiają rozwiązanie postawionego zadania efektywniej niż gdyby uczenie odbywało się bezpośrednio w docelowym środowisku. Głównym celem tej pracy jest zastosowanie idei kształtowania w kontekście uczenia się ze wzmocnieniem - paradygmatu uczenia maszynowego, który jest blisko związany z uczeniem się ludzi i zwierząt. W uczeniu się ze wzmocnieniem inteligentny agent wchodzi w autonomiczne interakcje z otaczającym go środowiskiem i metodą prób i błędów poszukuje optymalnej strategii działania w celu rozwiązania sekwencyjnego problemu decyzyjnego. W standardowym podejściu do uczenia się ze wzmocnieniem trening agenta odbywa się bezpośrednio w docelowym środowisku. Przyjęty schemat kształtowania zakłada wykorzystanie innych, specjalnie dobranych zadań i środowisk treningowych. Pomimo tego, że technika kształtowania została już wcześniej pomyślnie przeniesiona na grunt uczenia maszynowego, większość dotychczasowych podejść opiera się na ręcznie zaprojektowanych środowiskach treningowych. Takie podejście wymaga zwykle zaangażowania wiedzy dziedzinowej oraz ludzkiego nadzoru nad procesem uczenia. W pracy zaproponowano ujednolicony schemat kształtowania dla uczenia się ze wzmocnieniem oraz wprowadzono nowatorskie podejście do kształtowania, które nie wymaga użycia wiedzy dziedzinowej do konstrukcji zadań treningowych. W tym celu zastosowano między innymi kompetetywne algorytmy koewolucyjne, które realizują koncepcję kształtowania w sposób autonomiczny poprzez jednoczesną ewolucję agentów i ich zadań treningowych. Dodatkowo, analizie poddano metodę hybrydową, która łączy elementy koewolucji z gradientowym uczeniem się metodą różnic czasowych. Kombinacja ta została poddana eksperymentalnej analizie pod kątem zdolności uogólniania i skalowalności względem rozmiaru przestrzeni przeszukiwań. Poza tym zaprojektowano innowacyjną miarę trudności zadań, która pozwala definiować metody kształtowania dostarczające zadania treningowe zgodnie z przyjętym wcześniej lub dynamicznie dostrajanym rozkładem trudności zadań. Sformułowany został również problem optymalnego kształtowania i zaprojektowano algorytm koewolucyjny optymalizujący doświadczenię uczące dla algorytmów uczenia się metodami różnic czasowych. Wszystkie zaproponowane metody kształtowania zostały poddane eksperymentalnej weryfikacji na wybranych sekwencyjnych problemach decyzyjnych. Rozważane problemy obejmują klasyczny w teorii sterowania problem odwróconego wahadła oraz popularne gry planszowe - Othello i Go. Zademonstrowano, że wprowadzone metody kształtowania mogą znacząco poprawić wyniki uzyskiwane przez standardowe podejście do uczenia się ze wzmocnieniem, zarówno jeśli chodzi o ostateczną skuteczność nauczonych strategii, jak również pod względem szybkości uczenia.

Liczba stron

245

Dziedzina wg OECD

nauki o komputerach i informatyka

Dyscyplina wg KBN

informatyka

Sygnatura rozprawy w wersji drukowanej

DrOIN 1614

Katalog on-line

to201580743

Pełny tekst rozprawy doktorskiej

Pobierz plik

Poziom dostępu do pełnego tekstu

publiczny

Pierwsza recenzja

Jacek Mańdziuk

Miejsce

Warszawa, Polska

Data

21.08.2014

Język

angielski

Tekst recenzji

Pobierz plik

Poziom dostępu do recenzji

publiczny

Druga recenzja

Robert Schaefer

Miejsce

Kraków, Polska

Data

07.07.2014

Język

angielski

Tekst recenzji

Pobierz plik

Poziom dostępu do recenzji

publiczny

Trzecia recenzja

Marco A. Wiering

Miejsce

Groningen, Holandia

Data

14.08.2014

Język

angielski

Tekst recenzji

Pobierz plik

Poziom dostępu do recenzji

publiczny

Status rozprawy

rozprawa doktorska

Miejsce obrony

Poznań, Polska

Data obrony

11.09.2014

Jednostka nadająca tytuł

Rada Wydziału Informatyki Politechniki Poznańskiej

Uzyskany tytuł

doktor nauk technicznych w dyscyplinie: informatyka, w specjalności: sztuczna inteligencja

System Informacji Naukowej Politechniki Poznańskiej

Rozprawa doktorska