W zależności od ilości danych do przetworzenia generowanie pliku może się wydłużyć.

Jeśli generowanie trwa zbyt długo można ograniczyć dane np. zmniejszając zakres lat.

Artykuł

Pobierz BibTeX

Tytuł

GMMSampling: a new model-based, data difficulty-driven resampling method for multi-class imbalanced data

Autorzy

[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] pracownik

Dyscyplina naukowa (Ustawa 2.0)

[2.3] Informatyka techniczna i telekomunikacja

Rok publikacji

2024

Opublikowano w

Machine Learning

Rocznik: 2024 | Tom: vol. 113

Typ artykułu

artykuł naukowy

Język publikacji

angielski

Słowa kluczowe
EN
  • Imbalanced data
  • Multi-class classification
  • Resampling methods
  • Data difficulty factors
  • Gaussian mixture model
Streszczenie

EN Learning from multi-class imbalanced data has still received limited research attention. Most of the proposed methods focus on the global class imbalance ratio only. In contrast, experimental studies demonstrated that the imbalance ratio itself is not the main difficulty in the imbalanced learning. It is the combination of the imbalance ratio with other data difficulty factors, such as class overlapping or minority class decomposition into various subconcepts, that significantly affects the classification performance. This paper presents GMMSampling—a new resampling method that exploits information about data difficulty factors to clear class overlapping regions from majority class instances and to simultaneously oversample each subconcept of the minority class. The experimental evaluation demonstrated that the proposed method achieves better results in terms of G-mean, balanced accuracy, macro-AP, MCC and F-score than other related methods.

Data udostępnienia online

20.11.2023

Strony (od-do)

5183 - 5202

DOI

10.1007/s10994-023-06416-8

URL

https://link.springer.com/article/10.1007/s10994-023-06416-8

Typ licencji

CC BY (uznanie autorstwa)

Tryb otwartego dostępu

czasopismo hybrydowe

Wersja tekstu w otwartym dostępie

ostateczna wersja opublikowana

Czas udostępnienia publikacji w sposób otwarty

przed opublikowaniem

Punktacja Ministerstwa / czasopismo

140

Impact Factor

4,3 [Lista 2023]

Ta strona używa plików Cookies, w celu zapamiętania uwierzytelnionej sesji użytkownika. Aby dowiedzieć się więcej przeczytaj o plikach Cookies i Polityce Prywatności.