Development of methods for feature selection based on information theory
PL Rozwój metod wyboru zmiennych opartych o teorię informacji
english
- feature selection
- information theory
- results stability (robustness)
- hierarchical clustering
- decision variable
- selekcja cech
- teoria informacji
- stabilność wyników
- klastrowanie hierarchiczne
- zmienna decyzyjna
EN In biomedical studies, there is an ongoing concern about the stability of findings. It has been shown that feature selection contributes to bias more than model parameter tuning. Thus, robust feature selection methods are needed. This PhD thesis introduces a novel feature selection method called Robust Aggregative Feature Selection (RAFS). The method involves representative feature popularity ranking with cross-validation and hierarchical clustering. It depends on having a feature dissimilarity measure. An information-theoretic feature dissimilarity measure, that captures the information relevant to the decision variable - STIG (Symmetric Target Information Gain) - is introduced, along with its relevant properties. It is shown that RAFS, along with STIG, achieve good performance with respect to the quality of the chosen variables as well as the stability of the results (robustness) on three real-world biomedical datasets, in addition to an artificial dataset.
PL W badaniach biomedycznych zwraca się szczególna uwagę na stabilność wyników. Wykazano, że wybór cech przyczynia się do odchylenia wyniku klasyfikacji bardziej niż samo dostrajanie parametrów modelu. W związku z tym, potrzebne są metody wyboru cech odporne na ten efekt. W tej rozprawie doktorskiej wprowadzona jest nowa metoda wyboru cech - Robust Aggregative Feature Selection (RAFS). Metoda ta wykorzystuje ocenianie popularności cech-reprezentantów w walidacji krzyżowej oraz klastrowanie hierarchiczne. Zależy ona od miary niepodobieństwa cech. Nowa taka miara, oparta o teorię informacji i wykorzystująca informację istotną dla zmiennej decyzyjnej - STIG (Symmetric Target Information Gain) - jest wprowadzona i opisana w rozprawie. Pokazane jest, że RAFS, razem ze STIG, osiągają dobrą wydajność w kwestii jakości wyboru cech jak również stabilności wyników (robustness) na trzech rzeczywistych, biomedycznych zestawach danych, jak również na sztucznie skonstruowanym zbiorze danych.
96
information and communication technology
DrOIN 2342
no permission to download file
archive
Aleksandra Gruca
Gliwice, Polska
06.11.2023
polish
no permission to download file
archive
Dominik Ślęzak
Warszawa, Polska
30.10.2023
polish
no permission to download file
archive
dissertation
Poznań, Polska
25.01.2024
Rada Dyscypliny Informatyka Techniczna i Telekomunikacja Politechniki Poznańskiej
doktor nauk inżynieryjno-technicznych w dyscyplinie: informatyka techniczna i telekomunikacja