Processing may take a few seconds...

Dissertation

Title

Przetwarzanie zbiorów przestrzennych zapytań eksploracyjnych w środowiskach z ograniczonym rozmiarem pamięci operacyjnej

Authors

[ 1 ] Instytut Informatyki, Wydział Informatyki, Politechnika Poznańska | [ P ] employee

Promoter

[ 1 ] Instytut Informatyki, Wydział Informatyki, Politechnika Poznańska | [ P ] employee

Reviewers

Title variant

EN Processing of Spatial Data Mining Query Sets in Environments with Limited Memory

Language

polish

Keywords
PL
  • eksploracja danych
  • kolokacje przestrzenne
  • zbiory zapytań eksploracyjnych
  • ograniczona pamięć
  • procesory kart graficznych
EN
  • data mining
  • collocation patterns
  • data mining queries
  • limited memory
  • GPU
Abstract

PL Odkrywanie wzorców kolokacji przestrzennych jest uznawane za jedną z najciekawszych technik eksploracji danych stosowanych dla zbiorów danych przestrzennych. Wzorce kolokacji przestrzennych (w skrócie kolokacje) reprezentują podzbiory cech przestrzennych, których instancje często występują we wzajemnym sąsiedztwie. Z powodu ogromnego zapotrzebowania na moc obliczeniową, pamięć operacyjną oraz pamięć dyskową tego typu zadania eksploracji (definiowane w postaci zapytań eksploracyjnych) są często wykonywane w czasie niskiej aktywności użytkowników. Na przykład wielu użytkowników lub nawet jeden użytkownik eksperymentujący z doborem wartości różnych parametrów może zdefiniować wiele zapytań, które będą wykonywane w czasie niskiej aktywności użytkowników konkurując ze sobą o zasoby sprzętowe np. pamięć operacyjną. Mając dany zbiór zapytań eksploracyjnych o kolokacje przestrzenne, system eksploracji danych może wykorzystać wiedzę o potencjalnym nakładaniu się tych zapytań w przetwarzanym zbiorze danych. Dostępne w literaturze wydajne metody odkrywania kolokacji przestrzennych nie są przystosowane zarówno do przetwarzania zbiorów zapytań, jak również do wykonania w środowisku z ograniczonym rozmiarem pamięci operacyjnej. Takie ograniczenie jest szczególnie istotne ze względu na duże rozmiary pomocniczych struktur wykorzystywanych do efektywnego wyznaczania instancji kolokacji. Wnioski wyciągnięte z eksperymentów przy użyciu najwydajniejszy, dostępnych w literaturze algorytmów pozwoliły na zaproponowanie trzech rozwiązań dla przetwarzania pojedynczych zapytań, które uwzględniają ograniczony rozmiar pamięci operacyjnej. Są to algorytmy: (1) BCM wprowadzający materializację, filtrowanie klik oparte na połączeniu haszowym, grupowanie kandydatów i wczesną eliminację niepoprawnych instancji, (2) MiCPI-tree z możliwością przechowywania struktury drzewa iCPI na dysku i bardziej efektywnego wyszukiwania instancji kandydatów, (3) PMiCPI-trees z iteracyjnym przetwarzaniem fragmentów dzielonego drzewa iCPI. Dodatkowo zaproponowany został algorytm wykorzystujący moc obliczeniową współczesnych procesorów graficznych (GPU - Graphics Processing Unit). Takie środowiska sprzętowe obarczone są bardzo silnymi, fizycznymi ograniczeniami dotyczącymi rozmiaru pamięci. W rozprawie przedstawiony został algorytm odkrywania wzorców kolokacji przestrzennych przy pomocy GPU, w którym zadanie odkrywania kolokacji dzielone jest na mniejsze zadania nazwane zadaniami cząstkowymi. Podział jest dokonywany w taki sposób, że każde takie zadanie cząstkowe może zostać wykonane na pojedynczej karcie graficznej. Dodatkowo zadania cząstkowe mogą być wykonywane równolegle na wielu kartach graficznych. Doświadczenie zdobyte podczas przeprowadzonych eksperymentów z wykonaniem pojedynczych zadań eksploracji w środowisku z ograniczonym rozmiarem pamięci operacyjnej zostało wykorzystane podczas konstrukcji algorytmów dla współbieżnego przetwarzania zbiorów zapytań eksploracyjnych o kolokacje przestrzenne. Zaproponowane zostały algorytmy Common iCPI-tree oraz PCommon iCPI-trees. Dla efektywnego wykonania zbioru zapytań metoda Common iCPI-tree wprowadza struktury reprezentujące współdzielonych kandydatów i kolokacje oraz współdzielone instancje kandydatów i kolokacji. Struktury te umożliwiają eliminację redundantnych operacji wyszukiwania wspólnych sąsiadów oraz wspólne generowanie wszystkich kandydatów wszystkich przetwarzanych zapytań. Algorytm PCommon iCPI-trees stanowi rozszerzenie tego podejścia o technikę podziału drzewa Common iCPI opartą na idei podziału w algorytmie PMiCPI-trees. Zaproponowane algorytmy zostały przetestowane przy użyciu zarówno syntetycznych, jak i rzeczywistych zbiorów danych. Uzyskane rezultaty wskazują, że w środowisku z ograniczonym rozmiarem pamięci operacyjnej zastosowanie zaproponowanych metod wykonania pojedynczych zapytań może skutkować poprawą efektywności odkrywania kolokacji, w szczególności w dużych lub gęstych zbiorach danych. Rozwiązania zaproponowane dla GPU wykazały nawet dziesięciokrotne skrócenie czasu wykonania zadania odkrywania kolokacji w stosunku do wielowątkowego algorytmu dla CPU. W przypadku przetwarzania zbiorów nakładających się zapytań o kolokacje przestrzennej algorytmy Common iCPI-tree i PCommon iCPI-trees okazały się wielokrotnie szybsze od wykonania szeregowego tych zapytań.

EN Discovery of collocation patterns is regarded as one of the most interesting data mining techniques in the field of spatial databases. Spatial collocation patterns represent subsets of spatial features which are frequently located together in a spatial neighborhood. Due to high requirements for CPU, memory or storage space, such data mining tasks (defined as data mining queries) are often executed at times of low user activity. For example, multiple users or even the same user experimenting with different parameters settings can define many queries during the working hours that are executed at off-peak night-time hours, competing for operational memory. Given a set of multiple spatial data mining queries, a data mining system may take advantage of potential overlapping of the queried datasets. Efficient methods for collocation pattern discovery available in the literature can neither process multiple queries nor cope with the limited size of the operational memory. Such restrictions are especially important in the context of the large size of the data structures required for efficient identification of collocation instances. Based on gathered experimental results using the current state-of-the-art solutions in limited memory, we propose three new memory-aware algorithms for individual processing of spatial data mining queries: (1) BCM that introduces materialization of internal data structures, hash join based clique filtering, candidates grouping and instances pruning, (2) MiCPI-tree that provides disk representation of iCPI-tree structure and optimized search procedure, (3) PMiCPI-trees that implements plane sweep based algorithm for building a set of trees that are processed in an iterative fashion. Additionally, we propose an algorithm utilizing great power of modern GPUs (Graphics Processing Units). Such hardware environment imposes very strong memory restrictions. We provide a new GPU-accelerated collocation pattern mining algorithm that contains seamless division of work into a set of tasks such that each of them does not exceed the amount of available GPU memory and can be performed in parallel on multiple GPUs. The experience gained during the experiments with individual queries in limited memory has been applied in construction of algorithms for concurrent processing of multiple spatial data mining queries for collocation discovery, namely Common iCPI-tree and PCommon iCPI-trees. To efficiently process multiple data mining queries, Common iCPI-tree method introduces concepts of shared candidates and collocations as well as shared instances of candidates and collocations. These structures allow us to eliminate redundant searches for neighbors and to generate candidates in a single step for all processed queries. PCommon iCPI-trees method is extended such that it can divide shared tree materializing neighbor relationships into sets of smaller trees that can fit in memory. Similarly to PMiCPI-trees method, these trees are processed sequentially to identify collocation patterns. For proposed algorithms we have performed multiple, extensive experiments both on synthetic and real world datasets. The results we have achieved prove that in limited memory, application of our techniques for single query processing can result in better performance, especially when dealing with large and dense input datasets. For GPU solutions we achieved up to an order of magnitude speedups in comparison to an efficient multithreaded CPU implementation. When processing multiple queries, both Common iCPI-tree and PCommon iCPI-trees methods can significantly outperform the straightforward serial execution of these queries.

Number of pages

248

OECD domain

computer sciences and computer science

KBN discipline

computer science

Signature of printed version

DrOIN 1733

On-line catalog

to201680898

Full text of dissertation

Download file

Access level to full text

public

First review

Przemysław Kazienko

Place

Wrocław, Polska

Date

15.09.2015

Language

polish

Review text

Download file

Access level to review text

public

Second review

Marzena Kryszkiewicz

Place

Warszawa, Polska

Date

02.09.2015

Language

polish

Review text

Download file

Access level to review text

public

Dissertation status

dissertation

Place of defense

Poznań, Polska

Date of defense

16.11.2015

Unit granting title

Rada Wydziału Informatyki Politechniki Poznańskiej

Obtained title

doktor nauk technicznych w dyscyplinie: informatyka, w specjalności: eksploracja danych