SIS PUT | Analysis of data difficulty factors for multi-class imbalanced problems and their application in classification methods

Scientific Information System of the Poznań University of Technology

PL EN

Main page / Dissertations / Analysis of data difficulty factors for multi-class imbalanced problems and their application in classification methods

Submit a comment

Dissertation

Download BibTeX

Title

Analysis of data difficulty factors for multi-class imbalanced problems and their application in classification methods

Authors

Mateusz Lango (WIiT) ^{[ 1 ][ P ]}

^{[ 1 ]} Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | ^{[ P ]} employee

Promoter

Jerzy Stefanowski (WIiT) ^{[ 1 ][ P ]}

^{[ 1 ]} Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | ^{[ P ]} employee

Reviewers

Title variant

PL Analiza źródeł trudności wieloklasowych danych niezbalansowanych oraz ich wykorzystanie do poprawy metod klasyfikacji

Language

english

Keywords

machine learning
imbalanced data
classification
sentiment analysis

uczenie maszynowe
dane niezbalansowane
klasyfikacja
analiza wydźwięku

Abstract

EN Learning classifiers from multiclass imbalanced data is an important problem in modern machine learning. This thesis presents an experimental analysis of data difficulty factors in multiclass imbalanced data as well as a method for assessing them in real datasets using example's safe levels. Following conclusions from the performed analysis, a new data preprocessing method: Similarity Oversampling and Undersampling Preprocessing (SOUP) is proposed. According to the G-mean metric, SOUP enables the construction of statistically significantly better classifiers than other considered methods for imbalanced data. The thesis also presents new specialized classifier ensembles for imbalanced data: Multi-class Roughly Balanced Bagging (MRBBag) and SOUP-Bagging, which allow further classification performance improvements. The utility of the methods presented in the thesis is also explored in a selected application area: text sentiment classification.

PL Praca dotyczy uczenia się klasyfikatorów z wieloklasowych danych niezbalansowanych. Przedstawiona została eksperymentalna analiza źródeł trudności wieloklasowych danych niezbalansowanych wraz z metodą oceny trudności rzeczywistych zbiorów danych przy wykorzystaniu poziomów bezpieczeństwa. Zaproponowana została metoda wstępnego przetwarzania danych, Similarity Oversampling and Undersampling Preprocessing (SOUP), która wykorzystuje wnioski z wcześniej przeprowadzonej eksperymentalnej analizy czynników trudności. SOUP pozwala na konstrukcję statystycznie istotnie lepszych klasyfikatorów wg. metryki G-mean niż inne rozważane metody dla danych niezbalansowanych. Praca przedstawia także nowe zespoły klasyfikatorów dla danych niezbalansowanych: Multi-class Roughly Balanced Bagging (MRBBag) i SOUP-Bagging, których stosowanie pozwala na dalszą poprawę wyników. Użyteczność metod przedstawionych w pracy została także zbadana w wybranym obszarze zastosowań: analizie wydźwięku tekstu.

Number of pages

OECD domain

computer sciences and computer science

KBN discipline

computer science

Signature of printed version

DrOIN 2170

On-line catalog

to2022500525

Full text of dissertation

no permission to download file

Access level to full text