SIN PP | Pattern-based clustering and classification of XML data

System Informacji Naukowej Politechniki Poznańskiej

PL EN

Strona główna / Rozprawy doktorskie / Pattern-based clustering and classification of XML data

Zgłoś uwagę

Rozprawa doktorska

Pobierz BibTeX

Tytuł

Pattern-based clustering and classification of XML data

Autorzy

Maciej Piernik (WI) ^{[ 1 ][ P ]}

^{[ 1 ]} Instytut Informatyki, Wydział Informatyki, Politechnika Poznańska | ^{[ P ]} pracownik

Promotor

Tadeusz Morzy (WI) ^{[ 1 ][ P ]}

^{[ 1 ]} Instytut Informatyki, Wydział Informatyki, Politechnika Poznańska | ^{[ P ]} pracownik

Recenzenci

Wariant tytułu

PL Grupowanie i klasyfikacja danych XML z wykorzystaniem wzorców

Język

angielski

Słowa kluczowe

clustering
classification
XML
subtree similarity

grupowanie
klasyfikacja
XML
podobieństwo poddrzew

Streszczenie

EN This dissertation tackles the issue of pattern-based clustering and classification of XML data. We propose a new pattern-based XML clustering framework XPattern along with two instantiating algorithms: XCleaner2 and PathXP. We also put forward two heuristics for automatic detection of the number of clusters in the dataset. Furthermore, we propose a new XML classification algorithm, called k-nearest patterns, which assigns documents to classes based on the majority class of its k nearest patterns found in the training data, where pattern-document similarity is evaluated using partial tree-edit distance measure, also proposed in this thesis. All algorithms have been experimentally evaluated on both real and synthetic datasets and the results show, that the proposed methods allow to achieve results of similar or better quality than the state-of-the-art methods while additionally resolving the main challenges stated in the thesis.

PL Niniejsza praca porusza temat grupowania oraz klasyfikacji danych XML z wykorzystaniem wzorców. Zaproponowano w niej metodykę grupowania XPattern bazującą na wzorcach oraz dwa algorytmy oparte na tej metodyce: XCleaner2 i PathXP. Powstały również dwie heurystyki pozwalające automatycznie wyznaczyć liczbę skupień w zbiorze danych. Ponadto, zaproponowano nowy algorytm klasyfikacji danych XML nazwany k-nearest patterns, który dokonuje predykcji klas dokumentów w oparciu o głosowanie większościowe k najbliższych wzorców odkrytych w zbiorze treningowym, gdzie odległość wzorzec-dokument wyliczana jest przy pomocy miary partial tree-edit distance, również zaproponowanej w rozprawie. Wszystkie algorytmy zostały eksperymentalnie przetestowane na zbiorach rzeczywistych oraz syntetycznych, a uzyskane wyniki pokazują, że przedstawione metody pozwalają uzyskać wyniki o porównywalnej lub lepszej jakości do metod reprezentujących stan wiedzy, rozwiązując jednocześnie wyzwania postawione w pracy.

Liczba stron

138

Dziedzina wg OECD

nauki o komputerach i informatyka

Dyscyplina wg KBN

informatyka

Sygnatura rozprawy w wersji drukowanej

DrOIN 1672

Katalog on-line

to201580822

Pełny tekst rozprawy doktorskiej

Pobierz plik

Poziom dostępu do pełnego tekstu

publiczny

Pierwsza recenzja

Yannis Manolopoulos

Miejsce

Saloniki, Grecja

Data

19.05.2015

Język

angielski

Tekst recenzji

Pobierz plik

Poziom dostępu do recenzji

publiczny

Druga recenzja

Henryk Rybiński

Miejsce

Warszawa, Polska

Data

04.05.2015

Język

polski

Tekst recenzji

Pobierz plik

Poziom dostępu do recenzji

publiczny

Status rozprawy

rozprawa doktorska

Miejsce obrony

Poznań, Polska

Data obrony

05.06.2015

Jednostka nadająca tytuł

Rada Wydziału Informatyki Politechniki Poznańskiej

Uzyskany tytuł

doktor nauk technicznych w dyscyplinie: informatyka, w specjalności: eksploracja danych

System tworzony przez Politechnikę Poznańską oraz Poznańskie Centrum Superkomputerowo-Sieciowe

Zaloguj się przez eKonto, aby dodać do SIN