Depending on the amount of data to process, file generation may take longer.

If it takes too long to generate, you can limit the data by, for example, reducing the range of years.

Dissertation

Download BibTeX

Title

Development of methods for feature selection based on information theory

Authors

Promoter

Reviewers

Title variant

PL Rozwój metod wyboru zmiennych opartych o teorię informacji

Language

english

Keywords
EN
  • feature selection
  • information theory
  • results stability (robustness)
  • hierarchical clustering
  • decision variable
PL
  • selekcja cech
  • teoria informacji
  • stabilność wyników
  • klastrowanie hierarchiczne
  • zmienna decyzyjna
Abstract

EN In biomedical studies, there is an ongoing concern about the stability of findings. It has been shown that feature selection contributes to bias more than model parameter tuning. Thus, robust feature selection methods are needed. This PhD thesis introduces a novel feature selection method called Robust Aggregative Feature Selection (RAFS). The method involves representative feature popularity ranking with cross-validation and hierarchical clustering. It depends on having a feature dissimilarity measure. An information-theoretic feature dissimilarity measure, that captures the information relevant to the decision variable - STIG (Symmetric Target Information Gain) - is introduced, along with its relevant properties. It is shown that RAFS, along with STIG, achieve good performance with respect to the quality of the chosen variables as well as the stability of the results (robustness) on three real-world biomedical datasets, in addition to an artificial dataset.

PL W badaniach biomedycznych zwraca się szczególna uwagę na stabilność wyników. Wykazano, że wybór cech przyczynia się do odchylenia wyniku klasyfikacji bardziej niż samo dostrajanie parametrów modelu. W związku z tym, potrzebne są metody wyboru cech odporne na ten efekt. W tej rozprawie doktorskiej wprowadzona jest nowa metoda wyboru cech - Robust Aggregative Feature Selection (RAFS). Metoda ta wykorzystuje ocenianie popularności cech-reprezentantów w walidacji krzyżowej oraz klastrowanie hierarchiczne. Zależy ona od miary niepodobieństwa cech. Nowa taka miara, oparta o teorię informacji i wykorzystująca informację istotną dla zmiennej decyzyjnej - STIG (Symmetric Target Information Gain) - jest wprowadzona i opisana w rozprawie. Pokazane jest, że RAFS, razem ze STIG, osiągają dobrą wydajność w kwestii jakości wyboru cech jak również stabilności wyników (robustness) na trzech rzeczywistych, biomedycznych zestawach danych, jak również na sztucznie skonstruowanym zbiorze danych.

Number of pages

96

Scientific discipline (Law 2.0)

information and communication technology

Full text of dissertation

Download file

Access level to full text

public

First review

Aleksandra Gruca

Place

Gliwice, Polska

Date

06.11.2023

Language

polish

Review text

Download file

Access level to review text

public

Second review

Dominik Ślęzak

Place

Warszawa, Polska

Date

30.10.2023

Language

polish

Review text

Download file

Access level to review text

public

Dissertation status

dissertation before defense

Place of defense

Poznań, Polska

Date of defense

25.01.2024

This website uses cookies to remember the authenticated session of the user. For more information, read about Cookies and Privacy Policy.