End-to-end approach to classification in unstructured spaces with application to judicial decisions
[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ D ] phd student
[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] employee
PL Całościowe podejście do problemu klasyfikacji danych o nieokreślonych metrykach w zastosowaniu decyzji sądowniczych
english
- data pipeline
- machine learning
- classification
- meta-optimization
- autoML
- potok danych
- uczenie maszynowe
- klasyfikacja
- meta-optymalizacja
- autoML
EN In this dissertation we proposed an end-to-end approach to building data processing pipelines (DPPs) with machine learning (ML). It is based on the three following solutions. First, we developed a technique for automatic construction and configuration of a DPP, to pre-process data for an arbitrary ML algorithm. The DPP construction was formulated as an optimization problem and solved based on existing meta-optimizers. Second, we proposed the Hypergraph Case-Based Reasoning method that includes a generic algorithm that can process data of arbitrary types and can learn complex models based on few hyper-parameters. As a consequence, model building time and user engagement time are reduced. Third, we developed the largest open access repository (https://echr-opendata.eu/) of documents related to the European Court of Human Rights. Data in this repository were pre-processed to formats required by classification algorithms.
PL W niniejszej rozprawie zaproponowaliśmy całościowe podejście do konstruowania potoku danych z uczeniem maszynowym, bazujące na trzech rozwiązaniach. Po pierwsze, opracowaliśmy sposób automatycznego budowania i konfigurowania potoku danych w celu przygotowania danych dla dowolnego algorytmu uczenia maszynowego. Konstrukcja potoku została sformułowana jako problem optymalizacji i rozwiązana w oparciu o istniejące meta-optymalizatory. Po drugie, opracowaliśmy metodę Hypergraph Case-Based Reasoning z generycznym algorytmem, który może przetwarzać dane dowolnego typu i uczyć się złożonych modeli, wykorzystujący przy tym niewielką liczbę hiper-parametrów. Dzięki temu, czas budowy modeli i zaangażowania użytkownika ulega skróceniu. Po trzecie, opracowaliśmy otwarte repozytorium danych prawnych (https://echr-opendata.eu/), zawierające sprawy sądowe i orzeczenia z Europejskiego Trybunału Praw Człowieka. Dane w repozytorium zostały wcześniej przetworzone do postaci wymaganej przez algorytmy klasyfikacji.
223
engineering and technical sciences
computer science
DrOIN 2112
public
Silvia Chiusano
Torino, Italy
10.02.2021
english
public
Jérôme Darmont
Lyon, France
28.01.2021
english
public
dissertation
Poznań, Polska
12.03.2021
Rada Dyscypliny Informatyka Techniczna i Telekomunikacja
doktor nauk inżynieryjno-technicznych w dyscyplinie: informatyka techniczna i telekomunikacja