Span Identification and Key Information Extraction Beyond Sequence Labeling Paradigm
[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] pracownik
PL Identyfikacja fragmentów tekstu i ekstrakcja kluczowych informacji poza paradygmatem znakowania ciągu
angielski
- natural language processing
- machine learning
- key information extraction
- encoder-decoder
- language modeling
- przetwarzanie języka naturalnego
- uczenie maszynowe
- ekstrakcja informacji
- enkoder-dekoder
- modelowanie języka
EN Methods rooted in the sequence labeling paradigm, where a sequence of labels is assigned to a series of input data, have broad Natural Language Processing applications. This thesis is focused on proposing a better-suited alternative in two categories of problems where sequence labeling is a go-to model. The first category referred to as 'span identification,' is considered mainly in the context of legal text analysis. The second category of problems referred to as 'key information extraction' is addressed concerning varied tasks oriented at obtaining key-value pairs for an input document. Although sequence labeling is heavily ingrained in models used to date, it is argued things are to be disrupted. The interference is expected to be the most profound in key information extraction, where sequence labeling can lose importance as the rise of the encoder-decoder models, like the ones proposed in the thesis, will further endure their influence.
PL Metody oparte o znakowanie ciągu, w których sekwencji danych wejściowych przypisuje się sekwencję etykiet, mają szerokie zastosowanie w przetwarzaniu języka naturalnego. Rozprawa poświęcona jest zastąpieniu tego paradygmatu bardziej adekwatnymi metodami, w dwóch zastosowaniach gdzie referencyjnym rozwiązaniem byłyby modele wykorzystujące znakowanie ciągu. Pierwsze, określane jako identyfikacja fragmentów tekstu, rozpatrywane jest przede wszystkim w związku z analizą tekstu prawnego. W ramach drugiej kategorii, określanej jako ekstrakcja kluczowych informacji, zaadresowano zróżnicowane zadania zorientowane na otrzymanie par klucz-wartość na podstawie dokumentu. Choć paradygmat znakowania ciągu jest jak dotąd szeroko rozpowszechniony, argumentuje się, że nastąpi jego częściowe porzucenie; przede wszystkim w drugim z wymienionych zastosowań, w związku z coraz mocniej zaznaczoną pozycją alternatywy modeli opartych o architekturę enkoder-dekoder, takich ja te zaproponowane w rozprawie.
210
nauki inżynieryjne i techniczne
informatyka techniczna i telekomunikacja
DrOIN 2182
publiczny
Krzysztof Jassem
29.01.2022
polski
publiczny
Maciej Ogrodniczuk
Warszawa, Polska
11.03.2022
polski
publiczny
Maciej Piasecki
Wrocław, Polska
21.02.2022
polski
publiczny
rozprawa doktorska
Poznań, Polska
20.09.2022
Rada Dyscypliny Informatyka Techniczna i Telekomunikacja Politechniki Poznańskiej
doktor nauk inżynieryjno-technicznych w dyscyplinie: informatyka techniczna i telekomunikacja