Przetwarzanie zbiorów przestrzennych zapytań eksploracyjnych w środowiskach z ograniczonym rozmiarem pamięci operacyjnej
[ 1 ] Instytut Informatyki, Wydział Informatyki, Politechnika Poznańska | [ P ] employee
[ 1 ] Instytut Informatyki, Wydział Informatyki, Politechnika Poznańska | [ P ] employee
EN Processing of Spatial Data Mining Query Sets in Environments with Limited Memory
polish
- eksploracja danych
- kolokacje przestrzenne
- zbiory zapytań eksploracyjnych
- ograniczona pamięć
- procesory kart graficznych
- data mining
- collocation patterns
- data mining queries
- limited memory
- GPU
PL Odkrywanie wzorców kolokacji przestrzennych jest uznawane za jedną z najciekawszych technik eksploracji danych stosowanych dla zbiorów danych przestrzennych. Wzorce kolokacji przestrzennych (w skrócie kolokacje) reprezentują podzbiory cech przestrzennych, których instancje często występują we wzajemnym sąsiedztwie. Z powodu ogromnego zapotrzebowania na moc obliczeniową, pamięć operacyjną oraz pamięć dyskową tego typu zadania eksploracji (definiowane w postaci zapytań eksploracyjnych) są często wykonywane w czasie niskiej aktywności użytkowników. Na przykład wielu użytkowników lub nawet jeden użytkownik eksperymentujący z doborem wartości różnych parametrów może zdefiniować wiele zapytań, które będą wykonywane w czasie niskiej aktywności użytkowników konkurując ze sobą o zasoby sprzętowe np. pamięć operacyjną. Mając dany zbiór zapytań eksploracyjnych o kolokacje przestrzenne, system eksploracji danych może wykorzystać wiedzę o potencjalnym nakładaniu się tych zapytań w przetwarzanym zbiorze danych. Dostępne w literaturze wydajne metody odkrywania kolokacji przestrzennych nie są przystosowane zarówno do przetwarzania zbiorów zapytań, jak również do wykonania w środowisku z ograniczonym rozmiarem pamięci operacyjnej. Takie ograniczenie jest szczególnie istotne ze względu na duże rozmiary pomocniczych struktur wykorzystywanych do efektywnego wyznaczania instancji kolokacji. Wnioski wyciągnięte z eksperymentów przy użyciu najwydajniejszy, dostępnych w literaturze algorytmów pozwoliły na zaproponowanie trzech rozwiązań dla przetwarzania pojedynczych zapytań, które uwzględniają ograniczony rozmiar pamięci operacyjnej. Są to algorytmy: (1) BCM wprowadzający materializację, filtrowanie klik oparte na połączeniu haszowym, grupowanie kandydatów i wczesną eliminację niepoprawnych instancji, (2) MiCPI-tree z możliwością przechowywania struktury drzewa iCPI na dysku i bardziej efektywnego wyszukiwania instancji kandydatów, (3) PMiCPI-trees z iteracyjnym przetwarzaniem fragmentów dzielonego drzewa iCPI. Dodatkowo zaproponowany został algorytm wykorzystujący moc obliczeniową współczesnych procesorów graficznych (GPU - Graphics Processing Unit). Takie środowiska sprzętowe obarczone są bardzo silnymi, fizycznymi ograniczeniami dotyczącymi rozmiaru pamięci. W rozprawie przedstawiony został algorytm odkrywania wzorców kolokacji przestrzennych przy pomocy GPU, w którym zadanie odkrywania kolokacji dzielone jest na mniejsze zadania nazwane zadaniami cząstkowymi. Podział jest dokonywany w taki sposób, że każde takie zadanie cząstkowe może zostać wykonane na pojedynczej karcie graficznej. Dodatkowo zadania cząstkowe mogą być wykonywane równolegle na wielu kartach graficznych. Doświadczenie zdobyte podczas przeprowadzonych eksperymentów z wykonaniem pojedynczych zadań eksploracji w środowisku z ograniczonym rozmiarem pamięci operacyjnej zostało wykorzystane podczas konstrukcji algorytmów dla współbieżnego przetwarzania zbiorów zapytań eksploracyjnych o kolokacje przestrzenne. Zaproponowane zostały algorytmy Common iCPI-tree oraz PCommon iCPI-trees. Dla efektywnego wykonania zbioru zapytań metoda Common iCPI-tree wprowadza struktury reprezentujące współdzielonych kandydatów i kolokacje oraz współdzielone instancje kandydatów i kolokacji. Struktury te umożliwiają eliminację redundantnych operacji wyszukiwania wspólnych sąsiadów oraz wspólne generowanie wszystkich kandydatów wszystkich przetwarzanych zapytań. Algorytm PCommon iCPI-trees stanowi rozszerzenie tego podejścia o technikę podziału drzewa Common iCPI opartą na idei podziału w algorytmie PMiCPI-trees. Zaproponowane algorytmy zostały przetestowane przy użyciu zarówno syntetycznych, jak i rzeczywistych zbiorów danych. Uzyskane rezultaty wskazują, że w środowisku z ograniczonym rozmiarem pamięci operacyjnej zastosowanie zaproponowanych metod wykonania pojedynczych zapytań może skutkować poprawą efektywności odkrywania kolokacji, w szczególności w dużych lub gęstych zbiorach danych. Rozwiązania zaproponowane dla GPU wykazały nawet dziesięciokrotne skrócenie czasu wykonania zadania odkrywania kolokacji w stosunku do wielowątkowego algorytmu dla CPU. W przypadku przetwarzania zbiorów nakładających się zapytań o kolokacje przestrzennej algorytmy Common iCPI-tree i PCommon iCPI-trees okazały się wielokrotnie szybsze od wykonania szeregowego tych zapytań.
EN Discovery of collocation patterns is regarded as one of the most interesting data mining techniques in the field of spatial databases. Spatial collocation patterns represent subsets of spatial features which are frequently located together in a spatial neighborhood. Due to high requirements for CPU, memory or storage space, such data mining tasks (defined as data mining queries) are often executed at times of low user activity. For example, multiple users or even the same user experimenting with different parameters settings can define many queries during the working hours that are executed at off-peak night-time hours, competing for operational memory. Given a set of multiple spatial data mining queries, a data mining system may take advantage of potential overlapping of the queried datasets. Efficient methods for collocation pattern discovery available in the literature can neither process multiple queries nor cope with the limited size of the operational memory. Such restrictions are especially important in the context of the large size of the data structures required for efficient identification of collocation instances. Based on gathered experimental results using the current state-of-the-art solutions in limited memory, we propose three new memory-aware algorithms for individual processing of spatial data mining queries: (1) BCM that introduces materialization of internal data structures, hash join based clique filtering, candidates grouping and instances pruning, (2) MiCPI-tree that provides disk representation of iCPI-tree structure and optimized search procedure, (3) PMiCPI-trees that implements plane sweep based algorithm for building a set of trees that are processed in an iterative fashion. Additionally, we propose an algorithm utilizing great power of modern GPUs (Graphics Processing Units). Such hardware environment imposes very strong memory restrictions. We provide a new GPU-accelerated collocation pattern mining algorithm that contains seamless division of work into a set of tasks such that each of them does not exceed the amount of available GPU memory and can be performed in parallel on multiple GPUs. The experience gained during the experiments with individual queries in limited memory has been applied in construction of algorithms for concurrent processing of multiple spatial data mining queries for collocation discovery, namely Common iCPI-tree and PCommon iCPI-trees. To efficiently process multiple data mining queries, Common iCPI-tree method introduces concepts of shared candidates and collocations as well as shared instances of candidates and collocations. These structures allow us to eliminate redundant searches for neighbors and to generate candidates in a single step for all processed queries. PCommon iCPI-trees method is extended such that it can divide shared tree materializing neighbor relationships into sets of smaller trees that can fit in memory. Similarly to PMiCPI-trees method, these trees are processed sequentially to identify collocation patterns. For proposed algorithms we have performed multiple, extensive experiments both on synthetic and real world datasets. The results we have achieved prove that in limited memory, application of our techniques for single query processing can result in better performance, especially when dealing with large and dense input datasets. For GPU solutions we achieved up to an order of magnitude speedups in comparison to an efficient multithreaded CPU implementation. When processing multiple queries, both Common iCPI-tree and PCommon iCPI-trees methods can significantly outperform the straightforward serial execution of these queries.
248
computer sciences and computer science
computer science
DrOIN 1733
public
Przemysław Kazienko
Wrocław, Polska
15.09.2015
polish
public
Marzena Kryszkiewicz
Warszawa, Polska
02.09.2015
polish
public
dissertation
Poznań, Polska
16.11.2015
Rada Wydziału Informatyki Politechniki Poznańskiej
doktor nauk technicznych w dyscyplinie: informatyka, w specjalności: eksploracja danych