DBFE: distribution-based feature extraction from structural variants in whole-genome data

Maciej Piernik; Dariusz Brzeziński; Paweł Sztromwasser; Klaudia Pacewicz; Weronika Majer-Burman; Michał Gniot; Dawid Sielski; Oleksii Bryzghalov; Alicja Woźna; Paweł Zawadzki

doi:10.1093/bioinformatics/btac513

System Informacji Naukowej Politechniki Poznańskiej

PL EN

Strona główna / Publikacje / DBFE: distribution-based feature extraction from structural variants in whole-genome data

Zgłoś uwagę

Artykuł

Pobierz BibTeX

Tytuł

DBFE: distribution-based feature extraction from structural variants in whole-genome data

Autorzy

Maciej Piernik (WIiT) ^{[ 1 ][ 2.3 ][ P ]}
Dariusz Brzeziński (WIiT) ^{[ 1 ][ 2.3 ][ P ]}
Paweł Sztromwasser
Klaudia Pacewicz
Weronika Majer-Burman
Michał Gniot
Dawid Sielski
Oleksii Bryzghalov
Alicja Woźna
Paweł Zawadzki

^{[ 1 ]} Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | ^{[ P ]} pracownik

Dyscyplina naukowa (Ustawa 2.0)

[2.3] Informatyka techniczna i telekomunikacja

Rok publikacji

2022

Opublikowano w

Bioinformatics

Rocznik: 2022 | Tom: vol. 38 | Numer: iss. 19

Typ artykułu

artykuł naukowy

Język publikacji

angielski

Streszczenie

EN Motivation: Whole-genome sequencing has revolutionized biosciences by providing tools for constructing complete DNA sequences of individuals. With entire genomes at hand, scientists can pinpoint DNA fragments responsible for oncogenesis and predict patient responses to cancer treatments. Machine learning plays a paramount role in this process. However, the sheer volume of whole-genome data makes it difficult to encode the characteristics of genomic variants as features for learning algorithms. Results: In this article, we propose three feature extraction methods that facilitate classifier learning from sets of genomic variants. The core contributions of this work include: (i) strategies for determining features using variant length binning, clustering and density estimation; (ii) a programing library for automating distribution-based feature extraction in machine learning pipelines. The proposed methods have been validated on five real-world datasets using four different classification algorithms and a clustering approach. Experiments on genomes of 219 ovarian, 61 lung and 929 breast cancer patients show that the proposed approaches automatically identify genomic biomarkers associated with cancer subtypes and clinical response to oncological treatment. Finally, we show that the extracted features can be used alongside unsupervised learning methods to analyze genomic samples.

Data udostępnienia online

05.08.2022

Strony (od-do)

4466 - 4473

DOI

10.1093/bioinformatics/btac513

URL

https://academic.oup.com/bioinformatics/article-abstract/38/19/4466/6656344

Punktacja Ministerstwa / czasopismo

200

Impact Factor

5,8

System tworzony przez Politechnikę Poznańską oraz Poznańskie Centrum Superkomputerowo-Sieciowe

Zaloguj się przez eKonto, aby dodać do SIN