Wykorzystanie kontrolowanych języków naturalnych do modelowania systemów dynamicznych w bioinformatyce
[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ D ] doktorant
[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] pracownik
EN Application of Controlled Natural Languages for Modelling Dynamical Systems in Bioinformatics
polski
- modelowanie
- kontrolowane języki naturalne
- systemy dynamiczne
- modelling
- controlled natural languages
- dynamical systems
PL Modelowanie systemów dynamicznych w biologii jest silnie rozwijającą się gałęzią współczesnej nauki. Jako obszar interdyscyplinarny, łączy ono różne dziedziny naukowe, takie jak matematyka, informatyka i biologia. Matematycy i informatycy są odpowiedzialni za przetwarzanie ogromnych ilości danych i znajdowanie w nich wzorców. Z drugiej strony biologia dostarcza wyzwań naukowych, danych i pozwala zweryfikować empirycznie zaprojektowane modele teoretyczne. Niestety podczas współpracy naukowej, w której biologowie są odpowiedzialni za analizę procesów biologicznych, które mają znaleźć odzwierciedlenie w modelach teoretycznych, a matematycy i informatycy powinni budować struktury, które powinny opisywać takie procesy, bardzo często pojawiają się problemy komunikacyjne. Biolodzy nie są w stanie skutecznie analizować formalnych opisów modeli matematycznych. Z drugiej strony matematycy i informatycy nie mają wystarczającej wiedzy biologicznej, która pozwalałaby na prawidłową interpretację zjawisk w formie matematycznej. Problemy te powodują, że proces modelowania jest mało skuteczny. Rozwiązanie powyższych problemów możliwe jest między innymi poprzez opracowanie innowacyjnej metodologii modelowania. Jednak aby taką metodologię opracować, trzeba było osiągnąć kilka celów. Najważniejsze z nich to: 1. Klasyfikacja dostępnych metod modelowania i formatów zapisu systemów dynamicznych w bioinformatyce w celu analizy potencjału rozwoju nowych technik modelowania. 2. Projekt i rozwój nowego języka, który pozwoliłby modelować systemy dynamiczne w celu wyeliminowania wad obecnych rozwiązań i wykorzystania nowoczesnych technik w celu zwiększenia efektywności procesu modelowania. 3. Eksperymentalna weryfikacja funkcjonalności, która zapewni że nowo zaproponowany język będzie przydatny w procesie modelowania systemów dynamicznych w bioinformatyce. 4. Budowanie i weryfikacja środowiska pozwalającego analizować i konwertować zapisy w no-wym języku do formatu SBML, który jest popularny w oprogramowaniu bioinformatycznym i biochemicznym. 5. Zbudowanie środowiska, które pozwala przechowywać i udostępniać dostępne modele systemów biologicznych oraz dzielić się wynikami eksperymentów naukowych. Badania obecnego stanu wiedzy doprowadziły do klasyfikacji, która podzieliła kluczowe typy dostępnych metod na trzy klasy. Formaty z niejawną strukturą to pierwsza klasa formatów, która została zidentyfikowana w trakcie badań. Celem tych formatów jest maksymalizacja ułatwienia przetwarzania danych przez systemy komputerowe. Typowym zastosowaniem tych formatów jest wykorzystanie ich jako typu pamięci dla oprogramowania z graficznym interfejsem użytkownika. Druga klasa, języki specjalizowane są przeznaczone do realizacji dedykowanych potrzeb technologicznych. Najczęściej są to języki dedykowane do konkretnego oprogramowania do modelowania, które zostały stworzone w celu spełnienia określonych potrzeb, czego nie można było osiągnąć za pomocą ogólnych formatów. Trzecią grupą są kontrolowane języki naturalne, które są podzbiorem języków naturalnych. Ich konstrukcja zapewnia dodatkowe ograniczenia dla jednoznacznej interpretacji przez systemy komputerowe. Modelowanie za pomocą kontrolowanych języków naturalnych polega na pisaniu tekstu w oparciu o podzbiór języka naturalnego, najczęściej angielskiego. Język ModeLang został stworzony w celu rozwiązywania problemów komunikacyjnych w ze-społach interdyscyplinarnych i jednocześnie jako narzędzie do symulacji systemów dynamicznych. Zaprojektowanie języka było związane z poszukiwaniem narzędzia, które umożliwi intuicyjne modelowanie i nie wymaga dużo czasu na zdobycie niezbędnej wiedzy, czy to w dziedzinie modelowania matematycznego czy informatyki. Głównym założeniem podczas projektowania nowego języka było zaproponowanie rozwiązania, które byłoby całkowicie intuicyjne, tak aby koszty czasu, który muszą ponieść naukowcy uczący się nowych rozwiązań w zakresie modelowania, został maksymalnie ograniczony. Z tej cechy języka ModeLang wynikała inna, mianowicie powinien on być jak najbardziej elastyczny. W tym celu zaproponowano szereg funkcji opisanych w rozprawie. Przede wszystkim wszystkie opisy zachowań i interakcji zostały napisane w formie reguł odpowiadających zdaniom znanym z języków naturalnych, takich jak na przykład angielski. Wszystkie opisy mogą być budowane w ModeLang zarówno w stronie czynnej, jak i biernej, dzięki czemu naturalność opisów nie jest ograniczona. Kolejnym elementem jest wykrycie powtarzalnych cech zdania, które można zignorować ze względu na brak wartości merytorycznej. Po zaprojektowaniu języka ModeLang i wdrożeniu środowiska eksperymentalnego stało się możliwe sprawdzenie poprawności języka i zapisanych w nim modeli. Po utworzeniu środowiska konieczne było zbudowanie odpowiedniego zestawu modeli testowych, które umożliwiłyby przetestowanie rozwiązania. Model testowy rozumiany jest tutaj jako słowny opis modelowanego systemu i jego właściwego modelu matematycznego służącego do weryfikacji wyników uzyskanych w języku ModeLang. W tym celu stworzono dwie klasyfikacje modeli: tematyczną i opartą na złożoności. Pierwsza pozwala zweryfikować jedno z pierwszych założeń ModeLang, takie jak intuicyjność i uniwersalność języka. Druga stworzona została w celu sprawdzenia czy notacje matematyczne o różnych poziomach złożoności można przenieść na obecną formę języka, czy też konieczne będzie jego rozszerzenie. Kolejnym ważnym elementem weryfikacji był zestaw prostych i skomplikowanych modeli, aby dozować poziom trudności użytkownikom biorącym udział w eksperymencie. Podczas badań jednym z obszarów była opisana wcześniej analiza dostępnych rozwiązań oraz weryfikacja ich przydatności i możliwości wymiany informacji między nimi. Podczas badań zaobser-wowano, że kluczowym elementem łączącym większość narzędzi był format SBML. Wśród progra-mów obsługujących SBML znalazły się najpopularniejsze aplikacje bioinformatyczne. Dlatego pojawił się pomysł, że integracja języka ModeLang z narzędziami zewnętrznymi może być wykonana przez zapewnienie mechanizmu konwersji ModeLang do formatu SBML. W końcu ważnym etapem kończącym prace było zaprojektowanie bazy modeli infekcji wiru-sowych, która umożliwia dostarczenie danych weryfikacyjnych dla opracowywanych modeli. Została ona zainspirowana ideą crowdsourcingu, która cieszy się ogromną popularnością w ostatnich latach. Jest to podejście oparte na podstawach poszanowania praw autorskich, przy jednoczesnym upoważnieniu do dzielenia się i wspólnego wykorzystywania wyników osiąganych przez poszczególnych członków społeczności. Podczas pracy nad rozwiązaniem polegającym na udostępnianiu materiałów badawczych należy wziąć pod uwagę wiele ważnych kwestii. Przede wszystkim treść nie powinna być modyfikowana przez innych użytkowników ze względu na krytyczny charakter wyników badań i możliwość wnioskowania na ich podstawie. Inną ważną kwestią była możliwość jednoczesnego dostępu każdego z autorów do treści udostępnianych przez innych użytkowników. Ważne było również, aby treść była publicznie dostępna i dlatego każdy, kto był zarejestrowanym użytkownikiem, bez względu na swój wkład badawczy, mógł skorzystać z dostarczonych informacji.
EN Modelling of dynamic systems in biology is a strongly developing branch of modern science. Because it is an interdisciplinary area, it combines various scientific fields such as mathematics, computer science and biology. Mathematicians and computer science specialists are responsible for processing huge amounts of data and finding patterns in them. On the other hand, biology provides scientific challenges, data and allows to verify empirically designed theoretical models. Unfortunately, during scientific cooperation, in which biologists are responsible for the analysis of biological processes, which are to be reflected in theoretical models, and mathematicians and computer science specialists should build structures that should describe such processes, communication problems often arise. Biologists are not able to effectively analyse formal descriptions of mathematical models. On the other hand, mathematicians and computer scientists do not have sufficient biological knowledge that would allow the correct interpretation of phenomena in mathematical form. These problems make the modelling process less effective. Solving the above problems is possible, among others, by developing an innovative modelling methodology. However, several goals had to be achieved to develop such a methodology. The most important of them are: 1. Classification of available modelling methods and recording formats of dynamic systems in bioinformatics to analyse the potential for the development of new modelling techniques. 2. Design and development of a new language that would allow to model dynamic systems in order to eliminate the disadvantages of current solutions and to use modern techniques to increase the efficiency of the modelling process. 3. Experimental verification of functionality that will provide the newly proposed language in the process of modelling dynamic systems in bioinformatics. 4. Building and verification of the environment allowing to analyse and convert records in a new language to the SBML format, which is popular in bioinformatics and biochemical software. 5. Build an environment that allows you to store and share available models of biological systems and share the results of scientific experiments. Research on the current state of knowledge led to a classification that divided the key types of available methods into three classes. Formats with hidden structure are the first class of formats that were identified during research. The purpose of these formats is to maximize the ease of processing data by computer systems. A typical use of these formats is to use them as a type of memory for software with a graphical user interface. The second class, specialized programming languages, are designed to meet dedicated technology needs. Most often these are languages dedicated to specific modelling software, which were created to meet specific needs, which could not be achieved using general formats. The third group are controlled natural languages, which are a subset of natural languages. Their design provides additional restrictions for unambiguous interpretation by computer systems. Modelling using controlled natural languages involves writing text based on a subset of the natural language, usually English. ModeLang was created to solve communication problems in interdisciplinary teams and at the same time as a tool for simulating dynamic systems. Language design was associated with the search for a tool that would allow intuitive modelling and does not require much time to acquire the necessary knowledge, whether in the field of mathematical modelling or computer science. The main assumption when designing the new language was to propose a solution that would be completely intuitive, so that the costs of time that must be borne by scientists learning new modelling solutions were maximally reduced. After designing the ModeLang language and implementing the experimental environment, it became possible to check the correctness of the language and the models saved in it. After creating the environment, it was necessary to build an appropriate set of test models that would allow testing the solution. The test model is understood here as a verbal description of the modelled system and its proper mathematical model used to verify the results obtained in the ModeLang language. To this end, two classifications of models were created: thematic and based on complexity. The first allows you to verify one of the first assumptions of ModeLang, such as the intuitiveness and universality of the language. The second one was created to check whether mathematical notations of different levels of complexity can be transferred to the current form of the language, or whether it will be necessary to extend it. Another important element of verification was a set of simple and complicated models to dose the level of difficulty to the users participating in the experiment. During the research, one of the areas was previously described analysis of available solutions and verification of their usefulness and possibilities of information exchange between them. During the research it was observed that the key element connecting most of the tools was the SBML format. SBML-enabled programs include the most popular bioinformatics applications. That is why the idea appeared that integration of ModeLang language with external tools can be done by providing ModeLang to SBML format conversion mechanism. Work on the virus infection model database project was inspired by the idea of crowdsourcing, which has enjoyed great popularity in recent years. It is an approach based on the principles of respect for copyright, while authorizing the sharing and joint use of results achieved by individual members of the community. There are a number of important things to consider when working on a solution that provides research materials. First of all, the content should not be modified by other users due to the critical nature of the research results and the possibility of inferences based on them. Another important issue was the possibility of simultaneous access of each of the authors to the content shared by other users. It was also important that the content was publicly available, and therefore anyone who was a registered user, regardless of their research contribution, could use the information provided.
219
nauki inżynieryjne i techniczne
informatyka
DrOIN 2065
publiczny
Franciszek Seredyński
Warszawa, Polska
18.11.2019
polski
publiczny
Bartosz Wilczyński
Warszawa, Polska
20.05.2020
polski
publiczny
rozprawa doktorska
Poznań, Polska
09.07.2020
Rada Dyscypliny Informatyka Techniczna i Telekomunikacja Politechniki Poznańskiej
doktor nauk inżynieryjno-technicznych w dyscyplinie: informatyka techniczna i telekomunikacja