Processing may take a few seconds...

Dissertation

Title

Parallelization of User-defined Functions in an ETL Workflow

Authors

[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ D ] phd student

Promoter

[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] employee

Reviewers

Title variant

PL Techniki zrównoleglania wykonywania funkcji zdefiniowanych przez użytkownika w przepływach ETL

Language

english

Keywords
EN
  • data integration
  • ETL processes
  • parallel processing
  • user-defined functions
PL
  • integracja danych
  • procesy ETL
  • przetwarzanie równoległe
  • funkcje użytkownika
Abstract

EN The dissertation addresses a problem of efficient processing of user-defined functions (UDFs), used as components of data integration processes (ETL processes). To solve this problem, we proposed an architecture and techniques for optimizing ETL processes with UDFs. The architecture includes four components: UDF Component, Cost Model, Recommender, and Monitoring Agent. UDF Component provides a library of predefined parallel processing skeletons, to support a developer in writing efficient parallel UDFs. Cost Model applies combinatorial optimization and machine learning in the process of generating (sub-)optimal configurations of the runtime environment for ETL with UDFs. Data for Cost Model are delivered by Monitor. Based on Cost Model, Recommender proposes (sub-)optimal configurations of a system, for a given execution of a UDF. The proposed solution was evaluated experimentally in the Amazon Web Services cluster, composed of 2, 4, 8, and 10 nodes. The experiments showed that the developed Cost Model allowed to find the most efficient configuration of the cluster, for a tested UDF, under the monetary budget constraint.

PL Rozprawa adresuje problemy wydajnego przetwarzania funkcji definiowanych przez użytkownika (tzw. UDF), wykorzystywanych jako komponenty procesów integracji danych (tzw. procesów ETL). W rozprawie zaproponowano architekturę i techniki optymalizacji procesów ETL z UDF. Architektura zawiera cztery rozwiązania: Komponent UDF, Model Kosztów, Rekomender, Monitor. Głównym zadaniem Komponentu UDF jest wspieranie projektanta w implementowaniu wykonywanych równolegle UDF, poprzez zastosowanie predefiniowanej biblioteki szablonów przetwarzania równoległego. Model Kosztów wykorzystuje techniki optymalizacji kombinatorycznej i uczenia maszynowego w procesie generowania (sub-)optymalych konfiguracji środowiska uruchomieniowego dla ETL z UDF. Dane dla modelu kosztów są dostarczane przez Monitor. Na podstawie Modelu Kosztów, Rekomender proponuje (sub-)optymalne konfiguracje systemu dla zadanego wykonania UDF. Zaproponowane rozwiązanie oceniono eksperymentalnie w klastrze Amazon Web Services z 2, 4, 8 i 10-cioma węzłami. Eksperymenty pokazały, że zaproponowany model kosztów umożliwił znalezienie najbardziej wydajnej konfiguracji klastra dla testowanego procesu ETL, przy ograniczeniu monetarnego budżetu na obliczenia.

Number of pages

117

OECD domain

engineering and technical sciences

Scientific discipline (Law 2.0)

information and communication technology

Signature of printed version

DrOIN 2139

On-line catalog

to2021998654

Full text of dissertation

Download file

Access level to full text

public

First review

Oscar Romero

Date

05.07.2021

Language

english

Review text

Download file

Access level to review text

public

Second review

Esteban Zimányi

Place

Bruxelles, Belgium

Date

18.08.2021

Language

english

Review text

Download file

Access level to review text

public

Dissertation status

dissertation

Place of defense

Poznań, Poland

Date of defense

23.09.2021

Unit granting title

Rada Dyscypliny Informatyka Techniczna i Telekomunikacja Politechniki Poznańskiej

Obtained title

doktor nauk inżynieryjno-technicznych w dyscyplinie: informatyka techniczna i telekomunikacja

This website uses cookies to remember the authenticated session of the user. For more information, read about Cookies and Privacy Policy.