Analysis of data difficulty factors for multi-class imbalanced problems and their application in classification methods
[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] employee
[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] employee
PL Analiza źródeł trudności wieloklasowych danych niezbalansowanych oraz ich wykorzystanie do poprawy metod klasyfikacji
english
- machine learning
- imbalanced data
- classification
- sentiment analysis
- uczenie maszynowe
- dane niezbalansowane
- klasyfikacja
- analiza wydźwięku
EN Learning classifiers from multiclass imbalanced data is an important problem in modern machine learning. This thesis presents an experimental analysis of data difficulty factors in multiclass imbalanced data as well as a method for assessing them in real datasets using example's safe levels. Following conclusions from the performed analysis, a new data preprocessing method: Similarity Oversampling and Undersampling Preprocessing (SOUP) is proposed. According to the G-mean metric, SOUP enables the construction of statistically significantly better classifiers than other considered methods for imbalanced data. The thesis also presents new specialized classifier ensembles for imbalanced data: Multi-class Roughly Balanced Bagging (MRBBag) and SOUP-Bagging, which allow further classification performance improvements. The utility of the methods presented in the thesis is also explored in a selected application area: text sentiment classification.
PL Praca dotyczy uczenia się klasyfikatorów z wieloklasowych danych niezbalansowanych. Przedstawiona została eksperymentalna analiza źródeł trudności wieloklasowych danych niezbalansowanych wraz z metodą oceny trudności rzeczywistych zbiorów danych przy wykorzystaniu poziomów bezpieczeństwa. Zaproponowana została metoda wstępnego przetwarzania danych, Similarity Oversampling and Undersampling Preprocessing (SOUP), która wykorzystuje wnioski z wcześniej przeprowadzonej eksperymentalnej analizy czynników trudności. SOUP pozwala na konstrukcję statystycznie istotnie lepszych klasyfikatorów wg. metryki G-mean niż inne rozważane metody dla danych niezbalansowanych. Praca przedstawia także nowe zespoły klasyfikatorów dla danych niezbalansowanych: Multi-class Roughly Balanced Bagging (MRBBag) i SOUP-Bagging, których stosowanie pozwala na dalszą poprawę wyników. Użyteczność metod przedstawionych w pracy została także zbadana w wybranym obszarze zastosowań: analizie wydźwięku tekstu.
97
computer sciences and computer science
computer science
DrOIN 2170
no permission to download file
archive
Szymon Jaroszewicz
Warszawa, Polska
19.01.2022
polish
public
Michał Woźniak
Wrocław, Polska
29.11.2021
polish
public
dissertation
Poznań, Polska
01.03.2022
Rada Dyscypliny Informatyka Techniczna i Telekomunikacja Politechniki Poznańskiej
doktor nauk inżynieryjno-technicznych w dyscyplinie: informatyka techniczna i telekomunikacja