Processing may take a few seconds...

Dissertation

Title

Pattern-based clustering and classification of XML data

Authors

[ 1 ] Instytut Informatyki, Wydział Informatyki, Politechnika Poznańska | [ P ] employee

Promoter

[ 1 ] Instytut Informatyki, Wydział Informatyki, Politechnika Poznańska | [ P ] employee

Reviewers

Title variant

PL Grupowanie i klasyfikacja danych XML z wykorzystaniem wzorców

Language

english

Keywords
EN
  • clustering
  • classification
  • XML
  • subtree similarity
PL
  • grupowanie
  • klasyfikacja
  • XML
  • podobieństwo poddrzew
Abstract

EN This dissertation tackles the issue of pattern-based clustering and classification of XML data. We propose a new pattern-based XML clustering framework XPattern along with two instantiating algorithms: XCleaner2 and PathXP. We also put forward two heuristics for automatic detection of the number of clusters in the dataset. Furthermore, we propose a new XML classification algorithm, called k-nearest patterns, which assigns documents to classes based on the majority class of its k nearest patterns found in the training data, where pattern-document similarity is evaluated using partial tree-edit distance measure, also proposed in this thesis. All algorithms have been experimentally evaluated on both real and synthetic datasets and the results show, that the proposed methods allow to achieve results of similar or better quality than the state-of-the-art methods while additionally resolving the main challenges stated in the thesis.

PL Niniejsza praca porusza temat grupowania oraz klasyfikacji danych XML z wykorzystaniem wzorców. Zaproponowano w niej metodykę grupowania XPattern bazującą na wzorcach oraz dwa algorytmy oparte na tej metodyce: XCleaner2 i PathXP. Powstały również dwie heurystyki pozwalające automatycznie wyznaczyć liczbę skupień w zbiorze danych. Ponadto, zaproponowano nowy algorytm klasyfikacji danych XML nazwany k-nearest patterns, który dokonuje predykcji klas dokumentów w oparciu o głosowanie większościowe k najbliższych wzorców odkrytych w zbiorze treningowym, gdzie odległość wzorzec-dokument wyliczana jest przy pomocy miary partial tree-edit distance, również zaproponowanej w rozprawie. Wszystkie algorytmy zostały eksperymentalnie przetestowane na zbiorach rzeczywistych oraz syntetycznych, a uzyskane wyniki pokazują, że przedstawione metody pozwalają uzyskać wyniki o porównywalnej lub lepszej jakości do metod reprezentujących stan wiedzy, rozwiązując jednocześnie wyzwania postawione w pracy.

Number of pages

138

OECD domain

computer sciences and computer science

KBN discipline

computer science

Signature of printed version

DrOIN 1672

On-line catalog

to201580822

Full text of dissertation

Download file

Access level to full text

public

First review

Yannis Manolopoulos

Place

Saloniki, Grecja

Date

19.05.2015

Language

english

Review text

Download file

Access level to review text

public

Second review

Henryk Rybiński

Place

Warszawa, Polska

Date

04.05.2015

Language

polish

Review text

Download file

Access level to review text

public

Dissertation status

dissertation

Place of defense

Poznań, Polska

Date of defense

05.06.2015

Unit granting title

Rada Wydziału Informatyki Politechniki Poznańskiej

Obtained title

doktor nauk technicznych w dyscyplinie: informatyka, w specjalności: eksploracja danych