Coevolutionary Shaping for Reinforcement Learning
[ 1 ] Instytut Informatyki, Wydział Informatyki, Politechnika Poznańska | [ P ] pracownik
[ 1 ] Instytut Informatyki, Wydział Informatyki, Politechnika Poznańska | [ P ] pracownik
[ 1 ] Instytut Informatyki, Wydział Informatyki, Politechnika Poznańska | [ P ] pracownik
PL Kształtowanie koewolucyjne dla uczenia się ze wzmocnieniem
angielski
- artificial intelligence
- machine learning
- reinforcement learning
- coevolutionary algorithms
- shaping
- sztuczna inteligencja
- uczenie maszynowe
- uczenie się ze wzmocnieniem
- algorytmy koewolucyjne
- kształtowanie zachowania
EN Shaping is an important animal training technique that originates from behavioral psychology. The main motivation behind this technique is to enable animals to perform tasks that are too difficult to be learned directly. Shaping typically consists in starting from related simpler tasks and progressively increasing their difficulty. As a result, the learner can be exposed to an appropriate training experience and gradually refine its skills. By providing a pedagogical sequence of training tasks, shaping is expected to guide the learner towards the behavior of ultimate interest. This thesis investigates the concept of shaping in reinforcement learning - a machine learning paradigm closely related to human and animal learning. In this paradigm, an agent learns a decision-making policy for a sequential decision task through repeated trial-and-error interactions with an environment. Although shaping has been already applied to improve the effectiveness of reinforcement learning, most of the existing approaches rely on manually designed training environments and thus require a substantial amount of domain knowledge and human intervention. In this thesis we propose a unified shaping framework and introduce novel shaping approaches that avoid incorporating domain knowledge into the learning process. To this end, we rely mainly on competitive coevolutionary algorithms, which autonomously realize shaping by coevolving learners against their training environments. We investigate a hybrid of coevolution with self-play temporal difference learning and analyze this combination in the context of its generalization performance and scalability with respect to the search space size. Next, we design a novel measure of task difficulty and use it to devise a set of shaping methods that provide training tasks from a precomputed task pool according to either static or dynamic difficulty distribution. Finally, we formalize the problem of optimal shaping and design a coevolutionary method that optimizes training experience for a temporal difference learning algorithm. The proposed shaping methods are experimentally verified in nontrivial sequential decision making domains, including the benchmark problem of cart pole balancing and the board games of Othello and small-board Go. We demonstrate that shaping can provide significant empirical benefits compared to conventional unshaped reinforcement learning, either by improving the final performance or by facilitating faster convergence.
PL Kształtowanie zachowania jest istotną techniką trenowania zwierząt wywodzącą się z psychologii behawioralnej. W swojej oryginalnej postaci kształtowanie polega na wykorzystaniu serii kolejnych przybliżeń docelowego zadania, które jest zbyt trudne, aby uczyć się go bezpośrednio. Zaczynając od prostszych zadań i stopniowo podnosząc ich trudność, uczeń dostaje szansę zebrania właściwego doświadczenia uczącego, które pozwala mu adekwatnie podnosić swoje umiejętności. Istotą kształtowania jest więc znalezienie i dostarczenie uczniowi takich zadań treningowych, które umożliwiają rozwiązanie postawionego zadania efektywniej niż gdyby uczenie odbywało się bezpośrednio w docelowym środowisku. Głównym celem tej pracy jest zastosowanie idei kształtowania w kontekście uczenia się ze wzmocnieniem - paradygmatu uczenia maszynowego, który jest blisko związany z uczeniem się ludzi i zwierząt. W uczeniu się ze wzmocnieniem inteligentny agent wchodzi w autonomiczne interakcje z otaczającym go środowiskiem i metodą prób i błędów poszukuje optymalnej strategii działania w celu rozwiązania sekwencyjnego problemu decyzyjnego. W standardowym podejściu do uczenia się ze wzmocnieniem trening agenta odbywa się bezpośrednio w docelowym środowisku. Przyjęty schemat kształtowania zakłada wykorzystanie innych, specjalnie dobranych zadań i środowisk treningowych. Pomimo tego, że technika kształtowania została już wcześniej pomyślnie przeniesiona na grunt uczenia maszynowego, większość dotychczasowych podejść opiera się na ręcznie zaprojektowanych środowiskach treningowych. Takie podejście wymaga zwykle zaangażowania wiedzy dziedzinowej oraz ludzkiego nadzoru nad procesem uczenia. W pracy zaproponowano ujednolicony schemat kształtowania dla uczenia się ze wzmocnieniem oraz wprowadzono nowatorskie podejście do kształtowania, które nie wymaga użycia wiedzy dziedzinowej do konstrukcji zadań treningowych. W tym celu zastosowano między innymi kompetetywne algorytmy koewolucyjne, które realizują koncepcję kształtowania w sposób autonomiczny poprzez jednoczesną ewolucję agentów i ich zadań treningowych. Dodatkowo, analizie poddano metodę hybrydową, która łączy elementy koewolucji z gradientowym uczeniem się metodą różnic czasowych. Kombinacja ta została poddana eksperymentalnej analizie pod kątem zdolności uogólniania i skalowalności względem rozmiaru przestrzeni przeszukiwań. Poza tym zaprojektowano innowacyjną miarę trudności zadań, która pozwala definiować metody kształtowania dostarczające zadania treningowe zgodnie z przyjętym wcześniej lub dynamicznie dostrajanym rozkładem trudności zadań. Sformułowany został również problem optymalnego kształtowania i zaprojektowano algorytm koewolucyjny optymalizujący doświadczenię uczące dla algorytmów uczenia się metodami różnic czasowych. Wszystkie zaproponowane metody kształtowania zostały poddane eksperymentalnej weryfikacji na wybranych sekwencyjnych problemach decyzyjnych. Rozważane problemy obejmują klasyczny w teorii sterowania problem odwróconego wahadła oraz popularne gry planszowe - Othello i Go. Zademonstrowano, że wprowadzone metody kształtowania mogą znacząco poprawić wyniki uzyskiwane przez standardowe podejście do uczenia się ze wzmocnieniem, zarówno jeśli chodzi o ostateczną skuteczność nauczonych strategii, jak również pod względem szybkości uczenia.
245
nauki o komputerach i informatyka
informatyka
DrOIN 1614
publiczny
Jacek Mańdziuk
Warszawa, Polska
21.08.2014
angielski
publiczny
Robert Schaefer
Kraków, Polska
07.07.2014
angielski
publiczny
Marco A. Wiering
Groningen, Holandia
14.08.2014
angielski
publiczny
rozprawa doktorska
Poznań, Polska
11.09.2014
Rada Wydziału Informatyki Politechniki Poznańskiej
doktor nauk technicznych w dyscyplinie: informatyka, w specjalności: sztuczna inteligencja