Bioinformatics methods of motif analysis in RNA structures
[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ D ] doktorant
[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] pracownik
PL Bioinformatyczne metody analizy motywów w strukturach RNA
angielski
- bioinformatics
- RNA
- motif
- in silico
- structure
- bioinformatyka
- RNA
- motyw
- in silico
- struktura
EN Bioinformatics is one of the most needed and fastest developing scientific branch of the century. Bioinformaticians generate and process life sciencerelated data, perform calculations, and solve problems in a time-efficient manner. One of the problems they challenge is searching and analyzing motifs in biological data. In structural biology and bioinformatics, motif discovery and analysis help reveal the relationship between molecule structures and their functions within living organisms. This, in turn, impacts the development of molecular medicine – medical diagnosis, development of targeted therapies, drug design – and biotechnology. This doctoral dissertation focuses on motif analysis in RNA molecules of various organisms. It addresses several motif-related problems concerning different levels of structure organization – sequence, secondary, and tertiary structure. The first problem targeted motifs in precursor microRNAs (premiRNAs) of Arabidopsis thaliana, one of the plant model organisms. We discovered a repetitive pattern (small internal loops) in the close vicinity of miRNA:miRNA* duplex – a potential recognizable site for the cleavage machinery. It led to further study of pre-miRNAs in all green plants (Viridiplantae), for which we analyzed all three structural levels. Results of this research confirmed previous observations for Arabidopsis thaliana. The next problem required an analysis of the primary transcript of human miRNA (pri-miR-125a). The transcript was tested in two variants with the single nucleotide polymorphism (SNP). Bioinformatic analysis indicated variant-related protein binding to the pri-miR-125a sequence as well as variant-related 2D conformations. The third issue addressed within the scope of the doctoral thesis concerned quadruplexes, one of the most complex and least recognized structural motifs occurring in nucleic acids. These motifs were explored on all structural levels. Deep insight into their features led to proposing a new classification based on the secondary structure topology. The secondary structure of tetrads and quadruplexes can now be represented in an extended top-down dot-bracket notation and drawn in a top-down arc diagram – both representations we developed within the scope of the presented work. We analyzed all available bioinformatics resources to evaluate their usefulness for studying RNA quadruplexes. We also investigated human miRNA potential to form quadruplexes by applying a regular expression matching algorithm. Finally, we developed a new database named ONQUADRO to collect and analyze data on experimentally determined quadruplex structures. All the presented in silico analysis was performed on publicly available data using third-party and own computational methods.
PL W literaturze, sztuce, czy muzyce spotykamy się z pewnymi powtarzalnymi schematami, po których rozpoznajemy ich twórców lub epokę, z której dzieła pochodzą. Te powtarzające się wzory nazywane są motywami i występują również w naukach o życiu – w sieciach metabolicznych, procesach regulacyjnych komórki, czy też w strukturach kwasów nukleinowych. Każdy biologiczny motyw ma nie tylko określoną formę, ale też specyficzną rolę do odegrania w organizmie. Odnajdując dany motyw w cząsteczce naukowcy są w stanie powiązać z nim funkcje jaką pełni w systemie. Trudniejszym zadaniem jest jednak poszukiwanie motywu, który odpowiada za konkretne działania cząsteczki. Niniejsza praca doktorska poświęcona jest badaniom motywów strukturalnych w cząsteczkach RNA pochodzących z różnych organizmów. Prace wykonane podczas doktoratu polegały na wyszukiwaniu i analizie motywów w sekwencjach oraz strukturach drugo- i trzeciorzędowych. Pierwsze badania skupione były na poszukiwaniu motywów strukturalnych w zbiorze roślinnych mikroRNA na przykładzie organizmu modelowego – Arabidopsis thaliana. Zaobserwowano schemat powtarzania się małych pętli wewnętrznych w okolicach dupleksu miRNA:miRNA*, co może wskazywać na obecność motywu rozpoznawalnego przez enzym wycinajacy dupleks z cząsteczki. Uzyskane wyniki były inspiracją do rozszerzenia badań na pre-miRNA z całego królestwa roślin zielonych – Viridiplantae. W analizowanych strukturach wykryto podobny motyw jak przy analizach premiRNA w Arabidopsis thaliana. Kolejne badania dotyczyły struktury pierwotnego transkryptu miR-125a w dwóch wariantach sekwencyjnych (zmiana pojedynczego nukleotydu, SNP). Bioinformatyczna analiza wskazywała na zależność rodzaju wiązanych białek do traksryptu od wybranego typu wariantu sekwencyjnego. Ponadto, predykcja struktury drugorzędowej wskazywała na różnice strukturalne wynikające ze zmiany pojedynczego nukleotydu w transkrypcie. Najnowsze badania koncentrowały się na motywach kwadrupleksów, ich topologii oraz analizie parametrycznej z użyciem narzędzi bioinformatycznych. Zaowocowały one opracowaniem nowej klasyfikacji kwadrupleksów w oparciu o ich strukturę drugorzędową oraz stworzeniem nowych reprezentacji umożliwiających zapisywanie informacji o strukturze drugorzędowej w dwuliniowej notacji kropkowo-nawiasowej i w postaci dwuczęściowego diagramu łukowego. Przebadaliśmy wszystkie dostępne zasoby bioinformatyczne pod kątem ich wykorzystania do badań kwadrupleksów RNA oraz utworzyliśmy bazę danych ONQUADRO gromadzącą i przetwarzającą dane o strukturach kwadrupleksów otrzymanych drogą eksperymentalną. Przeanalizowaliśmy ludzkie sekwencje mikroRNA pod kątem ich potencjału do formowania motywów kwadrupleksów. W tym celu wykorzystaliśmy algorytm bazujący na dopasowaniu wyrażeń regularnych. Sekwencje zostały również zbadane pod kątem nasycenia guaninami, w celu sprawdzenia wielkości zbioru, który spełnia minimalny wymóg do posiadania motywu kwadrupleksu (8G i 12G kolejno dla dwu- i trójtetradowych kwadrupleksów). W badaniach do pracy doktorskiej wykorzystywane były dostępne narzędzia bioinformatyczne, jak również nowo stworzone metody do analizy zbiorów danych strukturalnych. Wszystkie analizowane dane pochodzą z publicznie dostępnych repozytoriów.
182
nauki przyrodnicze
informatyka
DrOIN 2171
publiczny
Anna Kurzyńska-Kokorniak
21.12.2021
polski
publiczny
Szymon Wąsik
04.01.2022
polski
publiczny
rozprawa doktorska
Poznań, Polska
25.02.2022
Rada Dyscypliny Informatyka Techniczna i Telekomunikacja Politechniki Poznańskiej
doktor nauk inżynieryjno-technicznych w dyscyplinie: informatyka techniczna i telekomunikacja