Processing may take a few seconds...

Dissertation

Title

Efficient algorithms for extreme multi-label classification

Authors

[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ D ] phd student

Promoter

[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] employee

Reviewers

Title variant

PL Efektywne algorytmy dla wieloetykietowej klasyfikacji ekstremalnej

Language

english

Keywords
EN
  • multilabel classification
  • extreme classification
  • label trees
  • hierarchical softmax
PL
  • klasyfikacja wieloetykietowa
  • klasyfikacja ekstremalna
  • drzewo etykiet
  • hierarchiczny softmax
Abstract

EN Extreme multi-label classification is a task of tagging instances with a small subset of labels chosen from a large pool of possible labels. Problems of this scale can be efficiently handled by organizing labels as a tree, like in hierarchical softmax used for multi-class problems. In this dissertation, we propose and investigate probabilistic label trees (PLTs), suitable for estimating the conditional probabilities of labels, that can be treated as a generalization of hierarchical softmax for multi-label problems. We introduce the PLT model and discuss training and inference procedures. We present a general training scheme given a label tree structure in advance and consider a problem of training PLTs in an online setting. We prove the consistency of PLTs for a wide spectrum of performance metrics, analyze the computational complexity of training and prediction procedures, discuss several implementations of PLT, and demonstrate their competitiveness to the state-of-the-art methods.

PL Wieloetykietowa klasyfikacja ekstremalna polega na przypisaniu obserwacji małego zbioru adekwatnych etykiet, będącego pozdbiorem dużego zbioru możliwych etykiet. Problemy tak dużej skali można efektywnie rozwiązać organizując etykiety w drzewo, tak jak w przypadku hierarchicznego softmaksu dla klasyfikacji wieloklasowej. W rozprawie proponujemy i analizujemy klasyfikator probabilistycznych drzew etykiet (PLT), który można traktować jak uogólnienie hierarchicznego softmaksu to problemów wieloetykietowych. Podajemy metody treningu wsadowego i online PLT, dowodzimy zgodności PLT ze względu na wiele miar oceny jakości klasyfikacji, analiujemy jego złożoność obliczeniową, opisujemy kilka implementacji PLT, oraz demonstrujemy ich konkurencyjność w porównaniu do najlepszych metod z dziedziny.

Number of pages

160

Comments

Jako dziedzinę wg OECD i dyscyplinę wg KBN podano: informatyka techniczna i telekomunikacja.

Full text of dissertation

no permission to download file

Access level to full text

archive

First review

Rohit Babbar

Place

Aalto, Finlandia

Date

06.09.2021

Language

english

Review text

Download file

Access level to review text

public

Second review

Tomasz Kajdanowicz

Place

Wrocław, Polska

Date

26.11.2021

Language

english

Review text

Download file

Access level to review text

public

Dissertation status

dissertation before defense

Place of defense

Poznań, Polska

Date of defense

21.12.2021

This website uses cookies to remember the authenticated session of the user. For more information, read about Cookies and Privacy Policy.