Przetwarzanie może potrwać kilka sekund...

Rozprawa doktorska

Tytuł

Parallelization of User-defined Functions in an ETL Workflow

Autorzy

[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ D ] doktorant

Promotor

[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] pracownik

Recenzenci

Wariant tytułu

PL Techniki zrównoleglania wykonywania funkcji zdefiniowanych przez użytkownika w przepływach ETL

Język

angielski

Słowa kluczowe
EN
  • data integration
  • ETL processes
  • parallel processing
  • user-defined functions
PL
  • integracja danych
  • procesy ETL
  • przetwarzanie równoległe
  • funkcje użytkownika
Streszczenie

EN The dissertation addresses a problem of efficient processing of user-defined functions (UDFs), used as components of data integration processes (ETL processes). To solve this problem, we proposed an architecture and techniques for optimizing ETL processes with UDFs. The architecture includes four components: UDF Component, Cost Model, Recommender, and Monitoring Agent. UDF Component provides a library of predefined parallel processing skeletons, to support a developer in writing efficient parallel UDFs. Cost Model applies combinatorial optimization and machine learning in the process of generating (sub-)optimal configurations of the runtime environment for ETL with UDFs. Data for Cost Model are delivered by Monitor. Based on Cost Model, Recommender proposes (sub-)optimal configurations of a system, for a given execution of a UDF. The proposed solution was evaluated experimentally in the Amazon Web Services cluster, composed of 2, 4, 8, and 10 nodes. The experiments showed that the developed Cost Model allowed to find the most efficient configuration of the cluster, for a tested UDF, under the monetary budget constraint.

PL Rozprawa adresuje problemy wydajnego przetwarzania funkcji definiowanych przez użytkownika (tzw. UDF), wykorzystywanych jako komponenty procesów integracji danych (tzw. procesów ETL). W rozprawie zaproponowano architekturę i techniki optymalizacji procesów ETL z UDF. Architektura zawiera cztery rozwiązania: Komponent UDF, Model Kosztów, Rekomender, Monitor. Głównym zadaniem Komponentu UDF jest wspieranie projektanta w implementowaniu wykonywanych równolegle UDF, poprzez zastosowanie predefiniowanej biblioteki szablonów przetwarzania równoległego. Model Kosztów wykorzystuje techniki optymalizacji kombinatorycznej i uczenia maszynowego w procesie generowania (sub-)optymalych konfiguracji środowiska uruchomieniowego dla ETL z UDF. Dane dla modelu kosztów są dostarczane przez Monitor. Na podstawie Modelu Kosztów, Rekomender proponuje (sub-)optymalne konfiguracje systemu dla zadanego wykonania UDF. Zaproponowane rozwiązanie oceniono eksperymentalnie w klastrze Amazon Web Services z 2, 4, 8 i 10-cioma węzłami. Eksperymenty pokazały, że zaproponowany model kosztów umożliwił znalezienie najbardziej wydajnej konfiguracji klastra dla testowanego procesu ETL, przy ograniczeniu monetarnego budżetu na obliczenia.

Liczba stron

117

Dziedzina wg OECD

nauki inżynieryjne i techniczne

Uwagi

Jako dyscyplinę naukową wg klasyfikacji KBN podano: informatyka techniczna i telekomunikacja

Pełny tekst rozprawy doktorskiej

Pobierz plik

Poziom dostępu do pełnego tekstu

publiczny

Pierwsza recenzja

Oscar Romero

Data

05.07.2021

Język

angielski

Tekst recenzji

Pobierz plik

Poziom dostępu do recenzji

publiczny

Druga recenzja

Esteban Zimányi

Miejsce

Bruxelles, Belgium

Data

18.08.2021

Język

angielski

Tekst recenzji

Pobierz plik

Poziom dostępu do recenzji

publiczny

Status rozprawy

rozprawa doktorska przed obroną

Miejsce obrony

Poznań, Poland

Data obrony

23.09.2021