W zależności od ilości danych do przetworzenia generowanie pliku może się wydłużyć.

Jeśli generowanie trwa zbyt długo można ograniczyć dane np. zmniejszając zakres lat.

Rozprawa doktorska

Pobierz BibTeX

Tytuł

Development of methods for feature selection based on information theory

Autorzy

Promotor

Recenzenci

Wariant tytułu

PL Rozwój metod wyboru zmiennych opartych o teorię informacji

Język

angielski

Słowa kluczowe
EN
  • feature selection
  • information theory
  • results stability (robustness)
  • hierarchical clustering
  • decision variable
PL
  • selekcja cech
  • teoria informacji
  • stabilność wyników
  • klastrowanie hierarchiczne
  • zmienna decyzyjna
Streszczenie

EN In biomedical studies, there is an ongoing concern about the stability of findings. It has been shown that feature selection contributes to bias more than model parameter tuning. Thus, robust feature selection methods are needed. This PhD thesis introduces a novel feature selection method called Robust Aggregative Feature Selection (RAFS). The method involves representative feature popularity ranking with cross-validation and hierarchical clustering. It depends on having a feature dissimilarity measure. An information-theoretic feature dissimilarity measure, that captures the information relevant to the decision variable - STIG (Symmetric Target Information Gain) - is introduced, along with its relevant properties. It is shown that RAFS, along with STIG, achieve good performance with respect to the quality of the chosen variables as well as the stability of the results (robustness) on three real-world biomedical datasets, in addition to an artificial dataset.

PL W badaniach biomedycznych zwraca się szczególna uwagę na stabilność wyników. Wykazano, że wybór cech przyczynia się do odchylenia wyniku klasyfikacji bardziej niż samo dostrajanie parametrów modelu. W związku z tym, potrzebne są metody wyboru cech odporne na ten efekt. W tej rozprawie doktorskiej wprowadzona jest nowa metoda wyboru cech - Robust Aggregative Feature Selection (RAFS). Metoda ta wykorzystuje ocenianie popularności cech-reprezentantów w walidacji krzyżowej oraz klastrowanie hierarchiczne. Zależy ona od miary niepodobieństwa cech. Nowa taka miara, oparta o teorię informacji i wykorzystująca informację istotną dla zmiennej decyzyjnej - STIG (Symmetric Target Information Gain) - jest wprowadzona i opisana w rozprawie. Pokazane jest, że RAFS, razem ze STIG, osiągają dobrą wydajność w kwestii jakości wyboru cech jak również stabilności wyników (robustness) na trzech rzeczywistych, biomedycznych zestawach danych, jak również na sztucznie skonstruowanym zbiorze danych.

Liczba stron

96

Dyscyplina naukowa (Ustawa 2.0)

informatyka techniczna i telekomunikacja

Pełny tekst rozprawy doktorskiej

Pobierz plik

Poziom dostępu do pełnego tekstu

publiczny

Pierwsza recenzja

Aleksandra Gruca

Miejsce

Gliwice, Polska

Data

06.11.2023

Język

polski

Tekst recenzji

Pobierz plik

Poziom dostępu do recenzji

publiczny

Druga recenzja

Dominik Ślęzak

Miejsce

Warszawa, Polska

Data

30.10.2023

Język

polski

Tekst recenzji

Pobierz plik

Poziom dostępu do recenzji

publiczny

Status rozprawy

rozprawa doktorska przed obroną

Miejsce obrony

Poznań, Polska

Data obrony

25.01.2024

Ta strona używa plików Cookies, w celu zapamiętania uwierzytelnionej sesji użytkownika. Aby dowiedzieć się więcej przeczytaj o plikach Cookies i Polityce Prywatności.