Depending on the amount of data to process, file generation may take longer.

If it takes too long to generate, you can limit the data by, for example, reducing the range of years.

Dissertation

Download BibTeX

Title

Addressing the long-tail problem in extreme multi-label classification

Authors

[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] employee

Promoter

[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] employee

Reviewers

Title variant

PL Problem długiego ogona w ekstremalnej klasyfikacji wielo-etykietowej

Language

english

Keywords
EN
  • machine learning
  • extreme multi-label classification
  • long-tail labels distrubution
  • complex performance metrics
PL
  • uczenie maszynowe
  • ekstremalna klasyfikacja wieloetykietowa
  • rozkład etykiet z długim ogonem
  • złożone miary jakości
Abstract

EN Extreme multi-label classification (XMLC) assigns multiple labels to instances from giant label sets. It is used in applications such as tagging, recommendation, and advertising. One of the challenges in XMLC is label sparsity, known as the “long-tail” problem. This dissertation focuses on predicting rare but valuable “long-tail” labels, which current metrics, such as precision@k, fail to capture, as they allow models to ignore infrequent labels. To address this, we propose evaluating “long-tail” performance using macro-averaged metrics that assign equal importance to all labels. Predicting exactly k labels, which is a common requirement in XMLC applications, under these metrics introduces a new optimization challenge. The dissertation studies consistent inference algorithms for this setting, deriving Bayes-optimal classifiers within two frameworks: expected test utility (ETU) and population utility (PU), establishing regret bounds.

PL Ekstremalna klasyfikacja wieloetykietowa (XMLC) polega na przypisaniu do przykładu etykiet pochodzących z ogromnego zbioru. Znajduje ona zastosowanie w tagowaniu dokumentów, czy systemach rekomendacyjnych. Jednym z głównych wyzwań w XMLC jest rzadkość etykiet, znana jako problem „długiego ogona”. Rozprawa koncentruje się na przewidywaniu wartościowych etykiet z „długiego ogona”, których obecne miary, takie jak precyzja@k, pozwalają modelom ignorować. Aby temu zaradzić, proponujemy użycie miar makro-uśrednianych, które przypisują wszystkim etykietom jednakową wagę. Przewidywanie dokładnie k etykiet — co jest częstym wymogiem w zastosowaniach XMLC — w połączeniu z tymi miarami wprowadza nowe wyzwanie optymalizacyjne. Rozprawa bada spójne algorytmy wnioskowania dla tego problemu, wyprowadza klasyfikatory optymalny w dwóch ramach teoretycznych: oczekiwanej użyteczności testowej (ETU) oraz użyteczności populacyjnej (PU) oraz wyznacza ograniczenia na żal.

Number of pages

242

Scientific discipline (Law 2.0)

information and communication technology

Full text of dissertation

Download file

Access level to full text

public

First review

Johannes Fürnkranz

Place

Linz, Austria

Date

09.08.2025

Language

english

Review text

Download file

Access level to review text

public

Second review

Aditya Krishna Menon

Date

28.07.2025

Language

english

Review text

Download file

Access level to review text

public

Third review

Jan Mielniczuk

Date

06.08.2025

Language

english

Review text

Download file

Access level to review text

public

Dissertation status

dissertation before defense

Place of defense

Poznań, Poland

Date of defense

12.12.2025

This website uses cookies to remember the authenticated session of the user. For more information, read about Cookies and Privacy Policy.