W zależności od ilości danych do przetworzenia generowanie pliku może się wydłużyć.

Jeśli generowanie trwa zbyt długo można ograniczyć dane np. zmniejszając zakres lat.

Rozdział

Pobierz BibTeX

Tytuł

On Tuning the Sorted Neighborhood Method for Record Comparisons in a Data Deduplication Pipeline

Autorzy

[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] pracownik

Dyscyplina naukowa (Ustawa 2.0)

[2.3] Informatyka techniczna i telekomunikacja

Rok publikacji

2023

Typ rozdziału

rozdział w monografii naukowej / referat

Język publikacji

angielski

Słowa kluczowe
EN
  • data deduplication pipeline
  • customers’ records deduplication
  • sorted neighborhood
  • moving window size
Streszczenie

EN Assuring high quality of data stored in information systems (ISs) is challenging and it is one of concerns of companies. Typically, data stored in ISs are not free from errors, which include among others wrong and missing values as well as duplicates. Data deduplication has received a lot of attention from the research community. The research efforts have resulted in a state-of-the-art data deduplication pipeline, supported by software tools and algorithms. One of the tasks in the pipeline consists in reducing the complexity of records comparisons. This task is known as blocking. Multiple algorithms for blocking have been proposed and one of them is the sorted neighborhood method. In this paper, we focus on tuning and evaluating the method on a real data set composed of 5.5M of customer records. To the best of our knowledge, this is the largest real data set being used in research. The findings reported in this paper come from a R &D project run for a big company in a financial sector.

Data udostępnienia online

18.08.2023

Strony (od-do)

164 - 178

DOI

10.1007/978-3-031-39847-6_11

URL

https://link.springer.com/chapter/10.1007/978-3-031-39847-6_11

Książka

Database and Expert Systems Applications : 34th International Conference, DEXA 2023, Penang, Malaysia, August 28–30, 2023, Proceedings, Part I

Zaprezentowany na

34th International Conference on Database and Expert Systems Applications DEXA 2023, 28-30.08.2023, Penang, Malaysia

Punktacja Ministerstwa / rozdział

20

Punktacja Ministerstwa / konferencja (CORE)

70

Ta strona używa plików Cookies, w celu zapamiętania uwierzytelnionej sesji użytkownika. Aby dowiedzieć się więcej przeczytaj o plikach Cookies i Polityce Prywatności.