Pattern-based clustering and classification of XML data
[ 1 ] Instytut Informatyki, Wydział Informatyki, Politechnika Poznańska | [ P ] pracownik
[ 1 ] Instytut Informatyki, Wydział Informatyki, Politechnika Poznańska | [ P ] pracownik
PL Grupowanie i klasyfikacja danych XML z wykorzystaniem wzorców
angielski
- clustering
- classification
- XML
- subtree similarity
- grupowanie
- klasyfikacja
- XML
- podobieństwo poddrzew
EN This dissertation tackles the issue of pattern-based clustering and classification of XML data. We propose a new pattern-based XML clustering framework XPattern along with two instantiating algorithms: XCleaner2 and PathXP. We also put forward two heuristics for automatic detection of the number of clusters in the dataset. Furthermore, we propose a new XML classification algorithm, called k-nearest patterns, which assigns documents to classes based on the majority class of its k nearest patterns found in the training data, where pattern-document similarity is evaluated using partial tree-edit distance measure, also proposed in this thesis. All algorithms have been experimentally evaluated on both real and synthetic datasets and the results show, that the proposed methods allow to achieve results of similar or better quality than the state-of-the-art methods while additionally resolving the main challenges stated in the thesis.
PL Niniejsza praca porusza temat grupowania oraz klasyfikacji danych XML z wykorzystaniem wzorców. Zaproponowano w niej metodykę grupowania XPattern bazującą na wzorcach oraz dwa algorytmy oparte na tej metodyce: XCleaner2 i PathXP. Powstały również dwie heurystyki pozwalające automatycznie wyznaczyć liczbę skupień w zbiorze danych. Ponadto, zaproponowano nowy algorytm klasyfikacji danych XML nazwany k-nearest patterns, który dokonuje predykcji klas dokumentów w oparciu o głosowanie większościowe k najbliższych wzorców odkrytych w zbiorze treningowym, gdzie odległość wzorzec-dokument wyliczana jest przy pomocy miary partial tree-edit distance, również zaproponowanej w rozprawie. Wszystkie algorytmy zostały eksperymentalnie przetestowane na zbiorach rzeczywistych oraz syntetycznych, a uzyskane wyniki pokazują, że przedstawione metody pozwalają uzyskać wyniki o porównywalnej lub lepszej jakości do metod reprezentujących stan wiedzy, rozwiązując jednocześnie wyzwania postawione w pracy.
138
nauki o komputerach i informatyka
informatyka
DrOIN 1672
publiczny
Yannis Manolopoulos
Saloniki, Grecja
19.05.2015
angielski
publiczny
Henryk Rybiński
Warszawa, Polska
04.05.2015
polski
publiczny
rozprawa doktorska
Poznań, Polska
05.06.2015
Rada Wydziału Informatyki Politechniki Poznańskiej
doktor nauk technicznych w dyscyplinie: informatyka, w specjalności: eksploracja danych