W zależności od ilości danych do przetworzenia generowanie pliku może się wydłużyć.

Jeśli generowanie trwa zbyt długo można ograniczyć dane np. zmniejszając zakres lat.

Rozprawa doktorska

Pobierz BibTeX

Tytuł

Analysis of data difficulty factors for multi-class imbalanced problems and their application in classification methods

Autorzy

[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] pracownik

Promotor

[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] pracownik

Recenzenci

Wariant tytułu

PL Analiza źródeł trudności wieloklasowych danych niezbalansowanych oraz ich wykorzystanie do poprawy metod klasyfikacji

Język

angielski

Słowa kluczowe
EN
  • machine learning
  • imbalanced data
  • classification
  • sentiment analysis
PL
  • uczenie maszynowe
  • dane niezbalansowane
  • klasyfikacja
  • analiza wydźwięku
Streszczenie

EN Learning classifiers from multiclass imbalanced data is an important problem in modern machine learning. This thesis presents an experimental analysis of data difficulty factors in multiclass imbalanced data as well as a method for assessing them in real datasets using example's safe levels. Following conclusions from the performed analysis, a new data preprocessing method: Similarity Oversampling and Undersampling Preprocessing (SOUP) is proposed. According to the G-mean metric, SOUP enables the construction of statistically significantly better classifiers than other considered methods for imbalanced data. The thesis also presents new specialized classifier ensembles for imbalanced data: Multi-class Roughly Balanced Bagging (MRBBag) and SOUP-Bagging, which allow further classification performance improvements. The utility of the methods presented in the thesis is also explored in a selected application area: text sentiment classification.

PL Praca dotyczy uczenia się klasyfikatorów z wieloklasowych danych niezbalansowanych. Przedstawiona została eksperymentalna analiza źródeł trudności wieloklasowych danych niezbalansowanych wraz z metodą oceny trudności rzeczywistych zbiorów danych przy wykorzystaniu poziomów bezpieczeństwa. Zaproponowana została metoda wstępnego przetwarzania danych, Similarity Oversampling and Undersampling Preprocessing (SOUP), która wykorzystuje wnioski z wcześniej przeprowadzonej eksperymentalnej analizy czynników trudności. SOUP pozwala na konstrukcję statystycznie istotnie lepszych klasyfikatorów wg. metryki G-mean niż inne rozważane metody dla danych niezbalansowanych. Praca przedstawia także nowe zespoły klasyfikatorów dla danych niezbalansowanych: Multi-class Roughly Balanced Bagging (MRBBag) i SOUP-Bagging, których stosowanie pozwala na dalszą poprawę wyników. Użyteczność metod przedstawionych w pracy została także zbadana w wybranym obszarze zastosowań: analizie wydźwięku tekstu.

Liczba stron

97

Dziedzina wg OECD

nauki o komputerach i informatyka

Dyscyplina wg KBN

informatyka

Sygnatura rozprawy w wersji drukowanej

DrOIN 2170

Katalog on-line

to2022500525

Pełny tekst rozprawy doktorskiej

brak uprawnień do pobrania pliku

Poziom dostępu do pełnego tekstu

archiwum

Pierwsza recenzja

Szymon Jaroszewicz

Miejsce

Warszawa, Polska

Data

19.01.2022

Język

polski

Tekst recenzji

Pobierz plik

Poziom dostępu do recenzji

publiczny

Druga recenzja

Michał Woźniak

Miejsce

Wrocław, Polska

Data

29.11.2021

Język

polski

Tekst recenzji

Pobierz plik

Poziom dostępu do recenzji

publiczny

Status rozprawy

rozprawa doktorska

Miejsce obrony

Poznań, Polska

Data obrony

01.03.2022

Jednostka nadająca tytuł

Rada Dyscypliny Informatyka Techniczna i Telekomunikacja Politechniki Poznańskiej

Uzyskany tytuł

doktor nauk inżynieryjno-technicznych w dyscyplinie: informatyka techniczna i telekomunikacja

Ta strona używa plików Cookies, w celu zapamiętania uwierzytelnionej sesji użytkownika. Aby dowiedzieć się więcej przeczytaj o plikach Cookies i Polityce Prywatności.