Depending on the amount of data to process, file generation may take longer.

If it takes too long to generate, you can limit the data by, for example, reducing the range of years.

Dissertation

Download BibTeX

Title

Span Identification and Key Information Extraction Beyond Sequence Labeling Paradigm

Authors

Promoter

[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] employee

Reviewers

Title variant

PL Identyfikacja fragmentów tekstu i ekstrakcja kluczowych informacji poza paradygmatem znakowania ciągu

Language

english

Keywords
EN
  • natural language processing
  • machine learning
  • key information extraction
  • encoder-decoder
  • language modeling
PL
  • przetwarzanie języka naturalnego
  • uczenie maszynowe
  • ekstrakcja informacji
  • enkoder-dekoder
  • modelowanie języka
Abstract

EN Methods rooted in the sequence labeling paradigm, where a sequence of labels is assigned to a series of input data, have broad Natural Language Processing applications. This thesis is focused on proposing a better-suited alternative in two categories of problems where sequence labeling is a go-to model. The first category referred to as 'span identification,' is considered mainly in the context of legal text analysis. The second category of problems referred to as 'key information extraction' is addressed concerning varied tasks oriented at obtaining key-value pairs for an input document. Although sequence labeling is heavily ingrained in models used to date, it is argued things are to be disrupted. The interference is expected to be the most profound in key information extraction, where sequence labeling can lose importance as the rise of the encoder-decoder models, like the ones proposed in the thesis, will further endure their influence.

PL Metody oparte o znakowanie ciągu, w których sekwencji danych wejściowych przypisuje się sekwencję etykiet, mają szerokie zastosowanie w przetwarzaniu języka naturalnego. Rozprawa poświęcona jest zastąpieniu tego paradygmatu bardziej adekwatnymi metodami, w dwóch zastosowaniach gdzie referencyjnym rozwiązaniem byłyby modele wykorzystujące znakowanie ciągu. Pierwsze, określane jako identyfikacja fragmentów tekstu, rozpatrywane jest przede wszystkim w związku z analizą tekstu prawnego. W ramach drugiej kategorii, określanej jako ekstrakcja kluczowych informacji, zaadresowano zróżnicowane zadania zorientowane na otrzymanie par klucz-wartość na podstawie dokumentu. Choć paradygmat znakowania ciągu jest jak dotąd szeroko rozpowszechniony, argumentuje się, że nastąpi jego częściowe porzucenie; przede wszystkim w drugim z wymienionych zastosowań, w związku z coraz mocniej zaznaczoną pozycją alternatywy modeli opartych o architekturę enkoder-dekoder, takich ja te zaproponowane w rozprawie.

Number of pages

210

OECD domain

engineering and technical sciences

Scientific discipline (Law 2.0)

information and communication technology

Signature of printed version

DrOIN 2182

On-line catalog

to2022000416

Full text of dissertation

Download file

Access level to full text

public

First review

Krzysztof Jassem

Date

29.01.2022

Language

polish

Review text

Download file

Access level to review text

public

Second review

Maciej Ogrodniczuk

Place

Warszawa, Polska

Date

11.03.2022

Language

polish

Review text

Download file

Access level to review text

public

Third review

Maciej Piasecki

Place

Wrocław, Polska

Date

21.02.2022

Language

polish

Review text

Download file

Access level to review text

public

Dissertation status

dissertation

Place of defense

Poznań, Polska

Date of defense

20.09.2022

Unit granting title

Rada Dyscypliny Informatyka Techniczna i Telekomunikacja Politechniki Poznańskiej

Obtained title

doktor nauk inżynieryjno-technicznych w dyscyplinie: informatyka techniczna i telekomunikacja

This website uses cookies to remember the authenticated session of the user. For more information, read about Cookies and Privacy Policy.