Efficient algorithms for extreme multi-label classification
[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ D ] doktorant
[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] pracownik
PL Efektywne algorytmy dla wieloetykietowej klasyfikacji ekstremalnej
angielski
- multilabel classification
- extreme classification
- label trees
- hierarchical softmax
- klasyfikacja wieloetykietowa
- klasyfikacja ekstremalna
- drzewo etykiet
- hierarchiczny softmax
EN Extreme multi-label classification is a task of tagging instances with a small subset of labels chosen from a large pool of possible labels. Problems of this scale can be efficiently handled by organizing labels as a tree, like in hierarchical softmax used for multi-class problems. In this dissertation, we propose and investigate probabilistic label trees (PLTs), suitable for estimating the conditional probabilities of labels, that can be treated as a generalization of hierarchical softmax for multi-label problems. We introduce the PLT model and discuss training and inference procedures. We present a general training scheme given a label tree structure in advance and consider a problem of training PLTs in an online setting. We prove the consistency of PLTs for a wide spectrum of performance metrics, analyze the computational complexity of training and prediction procedures, discuss several implementations of PLT, and demonstrate their competitiveness to the state-of-the-art methods.
PL Wieloetykietowa klasyfikacja ekstremalna polega na przypisaniu obserwacji małego zbioru adekwatnych etykiet, będącego pozdbiorem dużego zbioru możliwych etykiet. Problemy tak dużej skali można efektywnie rozwiązać organizując etykiety w drzewo, tak jak w przypadku hierarchicznego softmaksu dla klasyfikacji wieloklasowej. W rozprawie proponujemy i analizujemy klasyfikator probabilistycznych drzew etykiet (PLT), który można traktować jak uogólnienie hierarchicznego softmaksu to problemów wieloetykietowych. Podajemy metody treningu wsadowego i online PLT, dowodzimy zgodności PLT ze względu na wiele miar oceny jakości klasyfikacji, analiujemy jego złożoność obliczeniową, opisujemy kilka implementacji PLT, oraz demonstrujemy ich konkurencyjność w porównaniu do najlepszych metod z dziedziny.
160
informatyka techniczna i telekomunikacja
DrOIN 2147
brak uprawnień do pobrania pliku
archiwum
Rohit Babbar
Aalto, Finlandia
06.09.2021
angielski
publiczny
Tomasz Kajdanowicz
Wrocław, Polska
26.11.2021
angielski
publiczny
rozprawa doktorska
Poznań, Polska
21.12.2021
Rada Dyscypliny Informatyka Techniczna i Telekomunikacja
doktor nauk inżynieryjno-technicznych w dyscyplinie: informatyka techniczna i telekomunikacja