W zależności od ilości danych do przetworzenia generowanie pliku może się wydłużyć.

Jeśli generowanie trwa zbyt długo można ograniczyć dane np. zmniejszając zakres lat.

Rozdział

Pobierz BibTeX

Tytuł

FAME-MT Dataset: Formality Awareness Made Easy for Machine Translation Purposes

Autorzy

[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] pracownik

Dyscyplina naukowa (Ustawa 2.0)

[2.3] Informatyka techniczna i telekomunikacja

Rok publikacji

2024

Typ rozdziału

rozdział w monografii naukowej / referat

Język publikacji

angielski

Słowa kluczowe
EN
  • machine translation
  • natural language processing
Streszczenie

EN People use language for various purposes. Apart from sharing information, individuals may use it to express emotions or to show respect for another person. In this paper, we focus on the formality level of machine-generated translations and present FAME-MT – a dataset consisting of 11.2 million translations between 15 European source languages and 8 European target languages classified to formal and informal classes according to target sentence formality. This dataset can be used to fine-tune machine translation models to ensure a given formality level for 8 European target languages considered. We describe the dataset creation procedure, the analysis of the dataset’s quality showing that FAME-MT is a reliable source of language register information, and we construct a publicly available proof-of-concept machine translation model that uses the dataset to steer the formality level of the translation. Currently, it is the largest dataset of formality annotations, with examples expressed in 112 European language pairs. The dataset is made available online.

Strony (od-do)

164 - 180

URL

https://aclanthology.org/2024.eamt-1.16/

Książka

Proceedings of the 25th Annual Conference of the European Association for Machine Translation. Volume 1: Research and Implementations & Case Studies, June 24-27, 2024, Sheffield, United Kingdom

Zaprezentowany na

25th Annual Conference of the European Association for Machine Translation EAMT 2024, 24-27.06.2024, Sheffield, United Kingdom

Typ licencji

CC BY-NC-ND (uznanie autorstwa - użycie niekomercyjne - bez utworów zależnych)

Tryb otwartego dostępu

witryna wydawcy

Wersja tekstu w otwartym dostępie

ostateczna wersja opublikowana

Czas udostępnienia publikacji w sposób otwarty

w momencie opublikowania

Punktacja Ministerstwa / rozdział

5

Punktacja Ministerstwa / konferencja (CORE)

70

Ta strona używa plików Cookies, w celu zapamiętania uwierzytelnionej sesji użytkownika. Aby dowiedzieć się więcej przeczytaj o plikach Cookies i Polityce Prywatności.