Parallelization of User-defined Functions in an ETL Workflow
[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ D ] doktorant
[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ P ] pracownik
PL Techniki zrównoleglania wykonywania funkcji zdefiniowanych przez użytkownika w przepływach ETL
angielski
- data integration
- ETL processes
- parallel processing
- user-defined functions
- integracja danych
- procesy ETL
- przetwarzanie równoległe
- funkcje użytkownika
EN The dissertation addresses a problem of efficient processing of user-defined functions (UDFs), used as components of data integration processes (ETL processes). To solve this problem, we proposed an architecture and techniques for optimizing ETL processes with UDFs. The architecture includes four components: UDF Component, Cost Model, Recommender, and Monitoring Agent. UDF Component provides a library of predefined parallel processing skeletons, to support a developer in writing efficient parallel UDFs. Cost Model applies combinatorial optimization and machine learning in the process of generating (sub-)optimal configurations of the runtime environment for ETL with UDFs. Data for Cost Model are delivered by Monitor. Based on Cost Model, Recommender proposes (sub-)optimal configurations of a system, for a given execution of a UDF. The proposed solution was evaluated experimentally in the Amazon Web Services cluster, composed of 2, 4, 8, and 10 nodes. The experiments showed that the developed Cost Model allowed to find the most efficient configuration of the cluster, for a tested UDF, under the monetary budget constraint.
PL Rozprawa adresuje problemy wydajnego przetwarzania funkcji definiowanych przez użytkownika (tzw. UDF), wykorzystywanych jako komponenty procesów integracji danych (tzw. procesów ETL). W rozprawie zaproponowano architekturę i techniki optymalizacji procesów ETL z UDF. Architektura zawiera cztery rozwiązania: Komponent UDF, Model Kosztów, Rekomender, Monitor. Głównym zadaniem Komponentu UDF jest wspieranie projektanta w implementowaniu wykonywanych równolegle UDF, poprzez zastosowanie predefiniowanej biblioteki szablonów przetwarzania równoległego. Model Kosztów wykorzystuje techniki optymalizacji kombinatorycznej i uczenia maszynowego w procesie generowania (sub-)optymalych konfiguracji środowiska uruchomieniowego dla ETL z UDF. Dane dla modelu kosztów są dostarczane przez Monitor. Na podstawie Modelu Kosztów, Rekomender proponuje (sub-)optymalne konfiguracje systemu dla zadanego wykonania UDF. Zaproponowane rozwiązanie oceniono eksperymentalnie w klastrze Amazon Web Services z 2, 4, 8 i 10-cioma węzłami. Eksperymenty pokazały, że zaproponowany model kosztów umożliwił znalezienie najbardziej wydajnej konfiguracji klastra dla testowanego procesu ETL, przy ograniczeniu monetarnego budżetu na obliczenia.
117
nauki inżynieryjne i techniczne
informatyka techniczna i telekomunikacja
DrOIN 2139
publiczny
Oscar Romero
05.07.2021
angielski
publiczny
Esteban Zimányi
Bruxelles, Belgium
18.08.2021
angielski
publiczny
rozprawa doktorska
Poznań, Poland
23.09.2021
Rada Dyscypliny Informatyka Techniczna i Telekomunikacja Politechniki Poznańskiej
doktor nauk inżynieryjno-technicznych w dyscyplinie: informatyka techniczna i telekomunikacja