Addressing the long-tail problem in extreme multi-label classification
[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] employee
[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] employee
PL Problem długiego ogona w ekstremalnej klasyfikacji wielo-etykietowej
english
- machine learning
- extreme multi-label classification
- long-tail labels distrubution
- complex performance metrics
- uczenie maszynowe
- ekstremalna klasyfikacja wieloetykietowa
- rozkład etykiet z długim ogonem
- złożone miary jakości
EN Extreme multi-label classification (XMLC) assigns multiple labels to instances from giant label sets. It is used in applications such as tagging, recommendation, and advertising. One of the challenges in XMLC is label sparsity, known as the “long-tail” problem. This dissertation focuses on predicting rare but valuable “long-tail” labels, which current metrics, such as precision@k, fail to capture, as they allow models to ignore infrequent labels. To address this, we propose evaluating “long-tail” performance using macro-averaged metrics that assign equal importance to all labels. Predicting exactly k labels, which is a common requirement in XMLC applications, under these metrics introduces a new optimization challenge. The dissertation studies consistent inference algorithms for this setting, deriving Bayes-optimal classifiers within two frameworks: expected test utility (ETU) and population utility (PU), establishing regret bounds.
PL Ekstremalna klasyfikacja wieloetykietowa (XMLC) polega na przypisaniu do przykładu etykiet pochodzących z ogromnego zbioru. Znajduje ona zastosowanie w tagowaniu dokumentów, czy systemach rekomendacyjnych. Jednym z głównych wyzwań w XMLC jest rzadkość etykiet, znana jako problem „długiego ogona”. Rozprawa koncentruje się na przewidywaniu wartościowych etykiet z „długiego ogona”, których obecne miary, takie jak precyzja@k, pozwalają modelom ignorować. Aby temu zaradzić, proponujemy użycie miar makro-uśrednianych, które przypisują wszystkim etykietom jednakową wagę. Przewidywanie dokładnie k etykiet — co jest częstym wymogiem w zastosowaniach XMLC — w połączeniu z tymi miarami wprowadza nowe wyzwanie optymalizacyjne. Rozprawa bada spójne algorytmy wnioskowania dla tego problemu, wyprowadza klasyfikatory optymalny w dwóch ramach teoretycznych: oczekiwanej użyteczności testowej (ETU) oraz użyteczności populacyjnej (PU) oraz wyznacza ograniczenia na żal.
242
information and communication technology
public
Johannes Fürnkranz
Linz, Austria
09.08.2025
english
public
Aditya Krishna Menon
28.07.2025
english
public
Jan Mielniczuk
06.08.2025
english
public
dissertation before defense
Poznań, Poland
12.12.2025