Depending on the amount of data to process, file generation may take longer.

If it takes too long to generate, you can limit the data by, for example, reducing the range of years.

Dissertation

Download BibTeX

Title

Analysis of data difficulty factors for multi-class imbalanced problems and their application in classification methods

Authors

[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] employee

Promoter

[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] employee

Reviewers

Title variant

PL Analiza źródeł trudności wieloklasowych danych niezbalansowanych oraz ich wykorzystanie do poprawy metod klasyfikacji

Language

english

Keywords
EN
  • machine learning
  • imbalanced data
  • classification
  • sentiment analysis
PL
  • uczenie maszynowe
  • dane niezbalansowane
  • klasyfikacja
  • analiza wydźwięku
Abstract

EN Learning classifiers from multiclass imbalanced data is an important problem in modern machine learning. This thesis presents an experimental analysis of data difficulty factors in multiclass imbalanced data as well as a method for assessing them in real datasets using example's safe levels. Following conclusions from the performed analysis, a new data preprocessing method: Similarity Oversampling and Undersampling Preprocessing (SOUP) is proposed. According to the G-mean metric, SOUP enables the construction of statistically significantly better classifiers than other considered methods for imbalanced data. The thesis also presents new specialized classifier ensembles for imbalanced data: Multi-class Roughly Balanced Bagging (MRBBag) and SOUP-Bagging, which allow further classification performance improvements. The utility of the methods presented in the thesis is also explored in a selected application area: text sentiment classification.

PL Praca dotyczy uczenia się klasyfikatorów z wieloklasowych danych niezbalansowanych. Przedstawiona została eksperymentalna analiza źródeł trudności wieloklasowych danych niezbalansowanych wraz z metodą oceny trudności rzeczywistych zbiorów danych przy wykorzystaniu poziomów bezpieczeństwa. Zaproponowana została metoda wstępnego przetwarzania danych, Similarity Oversampling and Undersampling Preprocessing (SOUP), która wykorzystuje wnioski z wcześniej przeprowadzonej eksperymentalnej analizy czynników trudności. SOUP pozwala na konstrukcję statystycznie istotnie lepszych klasyfikatorów wg. metryki G-mean niż inne rozważane metody dla danych niezbalansowanych. Praca przedstawia także nowe zespoły klasyfikatorów dla danych niezbalansowanych: Multi-class Roughly Balanced Bagging (MRBBag) i SOUP-Bagging, których stosowanie pozwala na dalszą poprawę wyników. Użyteczność metod przedstawionych w pracy została także zbadana w wybranym obszarze zastosowań: analizie wydźwięku tekstu.

Number of pages

97

OECD domain

computer sciences and computer science

KBN discipline

computer science

Signature of printed version

DrOIN 2170

On-line catalog

to2022500525

Full text of dissertation

no permission to download file

Access level to full text

archive

First review

Szymon Jaroszewicz

Place

Warszawa, Polska

Date

19.01.2022

Language

polish

Review text

Download file

Access level to review text

public

Second review

Michał Woźniak

Place

Wrocław, Polska

Date

29.11.2021

Language

polish

Review text

Download file

Access level to review text

public

Dissertation status

dissertation

Place of defense

Poznań, Polska

Date of defense

01.03.2022

Unit granting title

Rada Dyscypliny Informatyka Techniczna i Telekomunikacja Politechniki Poznańskiej

Obtained title

doktor nauk inżynieryjno-technicznych w dyscyplinie: informatyka techniczna i telekomunikacja

This website uses cookies to remember the authenticated session of the user. For more information, read about Cookies and Privacy Policy.