W zależności od ilości danych do przetworzenia generowanie pliku może się wydłużyć.

Jeśli generowanie trwa zbyt długo można ograniczyć dane np. zmniejszając zakres lat.

Rozprawa doktorska

Pobierz BibTeX

Tytuł

Span Identification and Key Information Extraction Beyond Sequence Labeling Paradigm

Autorzy

Promotor

[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] pracownik

Recenzenci

Wariant tytułu

PL Identyfikacja fragmentów tekstu i ekstrakcja kluczowych informacji poza paradygmatem znakowania ciągu

Język

angielski

Słowa kluczowe
EN
  • natural language processing
  • machine learning
  • key information extraction
  • encoder-decoder
  • language modeling
PL
  • przetwarzanie języka naturalnego
  • uczenie maszynowe
  • ekstrakcja informacji
  • enkoder-dekoder
  • modelowanie języka
Streszczenie

EN Methods rooted in the sequence labeling paradigm, where a sequence of labels is assigned to a series of input data, have broad Natural Language Processing applications. This thesis is focused on proposing a better-suited alternative in two categories of problems where sequence labeling is a go-to model. The first category referred to as 'span identification,' is considered mainly in the context of legal text analysis. The second category of problems referred to as 'key information extraction' is addressed concerning varied tasks oriented at obtaining key-value pairs for an input document. Although sequence labeling is heavily ingrained in models used to date, it is argued things are to be disrupted. The interference is expected to be the most profound in key information extraction, where sequence labeling can lose importance as the rise of the encoder-decoder models, like the ones proposed in the thesis, will further endure their influence.

PL Metody oparte o znakowanie ciągu, w których sekwencji danych wejściowych przypisuje się sekwencję etykiet, mają szerokie zastosowanie w przetwarzaniu języka naturalnego. Rozprawa poświęcona jest zastąpieniu tego paradygmatu bardziej adekwatnymi metodami, w dwóch zastosowaniach gdzie referencyjnym rozwiązaniem byłyby modele wykorzystujące znakowanie ciągu. Pierwsze, określane jako identyfikacja fragmentów tekstu, rozpatrywane jest przede wszystkim w związku z analizą tekstu prawnego. W ramach drugiej kategorii, określanej jako ekstrakcja kluczowych informacji, zaadresowano zróżnicowane zadania zorientowane na otrzymanie par klucz-wartość na podstawie dokumentu. Choć paradygmat znakowania ciągu jest jak dotąd szeroko rozpowszechniony, argumentuje się, że nastąpi jego częściowe porzucenie; przede wszystkim w drugim z wymienionych zastosowań, w związku z coraz mocniej zaznaczoną pozycją alternatywy modeli opartych o architekturę enkoder-dekoder, takich ja te zaproponowane w rozprawie.

Liczba stron

210

Dziedzina wg OECD

nauki inżynieryjne i techniczne

Dyscyplina naukowa (Ustawa 2.0)

informatyka techniczna i telekomunikacja

Sygnatura rozprawy w wersji drukowanej

DrOIN 2182

Katalog on-line

to2022000416

Pełny tekst rozprawy doktorskiej

Pobierz plik

Poziom dostępu do pełnego tekstu

publiczny

Pierwsza recenzja

Krzysztof Jassem

Data

29.01.2022

Język

polski

Tekst recenzji

Pobierz plik

Poziom dostępu do recenzji

publiczny

Druga recenzja

Maciej Ogrodniczuk

Miejsce

Warszawa, Polska

Data

11.03.2022

Język

polski

Tekst recenzji

Pobierz plik

Poziom dostępu do recenzji

publiczny

Trzecia recenzja

Maciej Piasecki

Miejsce

Wrocław, Polska

Data

21.02.2022

Język

polski

Tekst recenzji

Pobierz plik

Poziom dostępu do recenzji

publiczny

Status rozprawy

rozprawa doktorska

Miejsce obrony

Poznań, Polska

Data obrony

20.09.2022

Jednostka nadająca tytuł

Rada Dyscypliny Informatyka Techniczna i Telekomunikacja Politechniki Poznańskiej

Uzyskany tytuł

doktor nauk inżynieryjno-technicznych w dyscyplinie: informatyka techniczna i telekomunikacja

Ta strona używa plików Cookies, w celu zapamiętania uwierzytelnionej sesji użytkownika. Aby dowiedzieć się więcej przeczytaj o plikach Cookies i Polityce Prywatności.