End-to-end approach to classification in unstructured spaces with application to judicial decisions
[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ D ] doktorant
[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] pracownik
PL Całościowe podejście do problemu klasyfikacji danych o nieokreślonych metrykach w zastosowaniu decyzji sądowniczych
angielski
- data pipeline
- machine learning
- classification
- meta-optimization
- autoML
- potok danych
- uczenie maszynowe
- klasyfikacja
- meta-optymalizacja
- autoML
EN In this dissertation we proposed an end-to-end approach to building data processing pipelines (DPPs) with machine learning (ML). It is based on the three following solutions. First, we developed a technique for automatic construction and configuration of a DPP, to pre-process data for an arbitrary ML algorithm. The DPP construction was formulated as an optimization problem and solved based on existing meta-optimizers. Second, we proposed the Hypergraph Case-Based Reasoning method that includes a generic algorithm that can process data of arbitrary types and can learn complex models based on few hyper-parameters. As a consequence, model building time and user engagement time are reduced. Third, we developed the largest open access repository (https://echr-opendata.eu/) of documents related to the European Court of Human Rights. Data in this repository were pre-processed to formats required by classification algorithms.
PL W niniejszej rozprawie zaproponowaliśmy całościowe podejście do konstruowania potoku danych z uczeniem maszynowym, bazujące na trzech rozwiązaniach. Po pierwsze, opracowaliśmy sposób automatycznego budowania i konfigurowania potoku danych w celu przygotowania danych dla dowolnego algorytmu uczenia maszynowego. Konstrukcja potoku została sformułowana jako problem optymalizacji i rozwiązana w oparciu o istniejące meta-optymalizatory. Po drugie, opracowaliśmy metodę Hypergraph Case-Based Reasoning z generycznym algorytmem, który może przetwarzać dane dowolnego typu i uczyć się złożonych modeli, wykorzystujący przy tym niewielką liczbę hiper-parametrów. Dzięki temu, czas budowy modeli i zaangażowania użytkownika ulega skróceniu. Po trzecie, opracowaliśmy otwarte repozytorium danych prawnych (https://echr-opendata.eu/), zawierające sprawy sądowe i orzeczenia z Europejskiego Trybunału Praw Człowieka. Dane w repozytorium zostały wcześniej przetworzone do postaci wymaganej przez algorytmy klasyfikacji.
223
nauki inżynieryjne i techniczne
informatyka
DrOIN 2112
publiczny
Silvia Chiusano
Torino, Italy
10.02.2021
angielski
publiczny
Jérôme Darmont
Lyon, France
28.01.2021
angielski
publiczny
rozprawa doktorska
Poznań, Polska
12.03.2021
Rada Dyscypliny Informatyka Techniczna i Telekomunikacja
doktor nauk inżynieryjno-technicznych w dyscyplinie: informatyka techniczna i telekomunikacja