Neural language models for clinical trial eligibility criteria
[ 1 ] Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ SzD ] doctoral school student
[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] employee
PL Neuronowe modele języka dla kryteriów kwalifikacji do badań klinicznych
english
- generative AI
- large language models
- transformers
- information retrieval
- clinical trials
- generatywna sztuczna inteligencja
- duże modele językowe
- transformer
- ekstrakcja informacji
- badania kliniczne
EN Recruiting patients for clinical trials remains a major challenge due to the complex, free-text nature of eligibility criteria. This thesis investigates the use of neural language models to automate the parsing of these criteria and support trial recruitment. It includes a scoping review of current methods, highlighting the limitations of regular expressions and rule-based techniques, and evaluates transformer-based models, including BERT (with its biomedical variants) and GPT-4. A Proof of Concept tool was developed using GPT-4o and tested in collaboration with domain experts. Results show that generative large language models are well-suited for this task, especially when data is scarce. The study offers practical insights for deploying NLP tools in the pharmaceutical industry.
PL Rekrutacja pacjentów do badań klinicznych to istotne wyzwanie, głównie ze względu na złożone kryteria kwalifikacji, zapisane w formie swobodnego tekstu. Celem pracy było zbadanie możliwości zastosowania neuronowych modeli językowych do ich automatycznego przetwarzania i wsparcia procesu rekrutacji. Przeprowadzono przegląd istniejących metod, wskazując na ograniczenia rozwiązań opartych na regułach i wyrażeniach regularnych. Oceniono skuteczność modeli opartych na architekturze transformer, takich jak (w tym jego biomedyczne warianty) oraz GPT-4. We współpracy z ekspertami dziedzinowymi zbudowano i przetestowano prototyp narzędzia wykorzystującego model GPT-4o i inżynierię promptów. Wyniki potwierdzają potencjał dużych modeli generatywnych, szczególnie w warunkach ograniczonej dostępności danych. Praca dostarcza praktycznych wskazówek dotyczących wdrażania narzędzi NLP w przemyśle farmaceutycznym.
236
information and communication technology
public
Ameen Abu-Hanna
16.12.2024
polish
public
Konrad Furmańczyk
07.01.2025
polish
public
Remigiusz Szczepanowski
23.04.2025
polish
public
dissertation before defense
Poznań, Poland
30.06.2025