SIN PP | Analysis of data difficulty factors for multi-class imbalanced problems and their application in classification methods

System Informacji Naukowej Politechniki Poznańskiej

PL EN

Strona główna / Rozprawy doktorskie / Analysis of data difficulty factors for multi-class imbalanced problems and their application in classification methods

Zgłoś uwagę

Rozprawa doktorska

Pobierz BibTeX

Tytuł

Analysis of data difficulty factors for multi-class imbalanced problems and their application in classification methods

Autorzy

Mateusz Lango (WIiT) ^{[ 1 ][ P ]}

^{[ 1 ]} Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | ^{[ P ]} pracownik

Promotor

Jerzy Stefanowski (WIiT) ^{[ 1 ][ P ]}

^{[ 1 ]} Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | ^{[ P ]} pracownik

Recenzenci

Wariant tytułu

PL Analiza źródeł trudności wieloklasowych danych niezbalansowanych oraz ich wykorzystanie do poprawy metod klasyfikacji

Język

angielski

Słowa kluczowe

machine learning
imbalanced data
classification
sentiment analysis

uczenie maszynowe
dane niezbalansowane
klasyfikacja
analiza wydźwięku

Streszczenie

EN Learning classifiers from multiclass imbalanced data is an important problem in modern machine learning. This thesis presents an experimental analysis of data difficulty factors in multiclass imbalanced data as well as a method for assessing them in real datasets using example's safe levels. Following conclusions from the performed analysis, a new data preprocessing method: Similarity Oversampling and Undersampling Preprocessing (SOUP) is proposed. According to the G-mean metric, SOUP enables the construction of statistically significantly better classifiers than other considered methods for imbalanced data. The thesis also presents new specialized classifier ensembles for imbalanced data: Multi-class Roughly Balanced Bagging (MRBBag) and SOUP-Bagging, which allow further classification performance improvements. The utility of the methods presented in the thesis is also explored in a selected application area: text sentiment classification.

PL Praca dotyczy uczenia się klasyfikatorów z wieloklasowych danych niezbalansowanych. Przedstawiona została eksperymentalna analiza źródeł trudności wieloklasowych danych niezbalansowanych wraz z metodą oceny trudności rzeczywistych zbiorów danych przy wykorzystaniu poziomów bezpieczeństwa. Zaproponowana została metoda wstępnego przetwarzania danych, Similarity Oversampling and Undersampling Preprocessing (SOUP), która wykorzystuje wnioski z wcześniej przeprowadzonej eksperymentalnej analizy czynników trudności. SOUP pozwala na konstrukcję statystycznie istotnie lepszych klasyfikatorów wg. metryki G-mean niż inne rozważane metody dla danych niezbalansowanych. Praca przedstawia także nowe zespoły klasyfikatorów dla danych niezbalansowanych: Multi-class Roughly Balanced Bagging (MRBBag) i SOUP-Bagging, których stosowanie pozwala na dalszą poprawę wyników. Użyteczność metod przedstawionych w pracy została także zbadana w wybranym obszarze zastosowań: analizie wydźwięku tekstu.

Liczba stron

Dziedzina wg OECD

nauki o komputerach i informatyka

Dyscyplina wg KBN

informatyka

Sygnatura rozprawy w wersji drukowanej

DrOIN 2170

Katalog on-line

to2022500525

Pełny tekst rozprawy doktorskiej

brak uprawnień do pobrania pliku

Poziom dostępu do pełnego tekstu

archiwum

Pierwsza recenzja

Szymon Jaroszewicz

Miejsce

Warszawa, Polska

Data

19.01.2022

Język

polski

Tekst recenzji

Pobierz plik

Poziom dostępu do recenzji

publiczny

Druga recenzja

Michał Woźniak

Miejsce

Wrocław, Polska

Data

29.11.2021

Język

polski

Tekst recenzji

Pobierz plik

Poziom dostępu do recenzji

publiczny

Status rozprawy

rozprawa doktorska

Miejsce obrony

Poznań, Polska

Data obrony

01.03.2022

Jednostka nadająca tytuł

Rada Dyscypliny Informatyka Techniczna i Telekomunikacja Politechniki Poznańskiej

Uzyskany tytuł

doktor nauk inżynieryjno-technicznych w dyscyplinie: informatyka techniczna i telekomunikacja

System tworzony przez Politechnikę Poznańską oraz Poznańskie Centrum Superkomputerowo-Sieciowe

Zaloguj się przez eKonto, aby dodać do SIN