W zależności od ilości danych do przetworzenia generowanie pliku może się wydłużyć.

Jeśli generowanie trwa zbyt długo można ograniczyć dane np. zmniejszając zakres lat.

Rozdział

Pobierz BibTeX

Tytuł

Framework to Optimize Data Processing Pipelines Using Performance Metrics

Autorzy

[ 1 ] Politechnika Poznańska | [ 2 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ D ] doktorant | [ P ] pracownik

Dyscyplina naukowa (Ustawa 2.0)

[2.3] Informatyka techniczna i telekomunikacja

Rok publikacji

2020

Typ rozdziału

rozdział w monografii naukowej / referat

Język publikacji

angielski

Słowa kluczowe
EN
  • ETL workflow
  • ML workflow
  • workflow optimization
  • cost model
  • parallelization
Streszczenie

EN Optimizing Data Processing Pipelines (DPPs) is challenging in the context of both, data warehouse architectures and data science architectures. Few approaches to this problem have been proposed so far. The most challenging issue is to build a cost model of the whole DPP, especially if user defined functions (UDFs) are used. In this paper we addressed the problem of the optimization of UDFs in data-intensive workflows and presented our approach to construct a cost model to determine the degree of parallelism for parallelizable UDFs.

Data udostępnienia online

11.09.2020

Strony (od-do)

131 - 140

DOI

10.1007/978-3-030-59065-9_11

URL

https://link.springer.com/chapter/10.1007/978-3-030-59065-9_11

Książka

Big Data Analytics and Knowledge Discovery : 22nd International Conference, DaWaK 2020, Bratislava, Slovakia, September 14–17, 2020 : Proceedings

Zaprezentowany na

22nd International Conference on Big Data Analytics and Knowledge Discovery DaWaK 2020, 14-17.09.2020, Bratislava, Slovac Republic

Punktacja Ministerstwa / rozdział

20

Punktacja Ministerstwa / konferencja (CORE)

70

Ta strona używa plików Cookies, w celu zapamiętania uwierzytelnionej sesji użytkownika. Aby dowiedzieć się więcej przeczytaj o plikach Cookies i Polityce Prywatności.