W zależności od ilości danych do przetworzenia generowanie pliku może się wydłużyć.

Jeśli generowanie trwa zbyt długo można ograniczyć dane np. zmniejszając zakres lat.

Rozprawa doktorska

Pobierz BibTeX

Tytuł

Pattern-based clustering and classification of XML data

Autorzy

[ 1 ] Instytut Informatyki, Wydział Informatyki, Politechnika Poznańska | [ P ] pracownik

Promotor

[ 1 ] Instytut Informatyki, Wydział Informatyki, Politechnika Poznańska | [ P ] pracownik

Recenzenci

Wariant tytułu

PL Grupowanie i klasyfikacja danych XML z wykorzystaniem wzorców

Język

angielski

Słowa kluczowe
EN
  • clustering
  • classification
  • XML
  • subtree similarity
PL
  • grupowanie
  • klasyfikacja
  • XML
  • podobieństwo poddrzew
Streszczenie

EN This dissertation tackles the issue of pattern-based clustering and classification of XML data. We propose a new pattern-based XML clustering framework XPattern along with two instantiating algorithms: XCleaner2 and PathXP. We also put forward two heuristics for automatic detection of the number of clusters in the dataset. Furthermore, we propose a new XML classification algorithm, called k-nearest patterns, which assigns documents to classes based on the majority class of its k nearest patterns found in the training data, where pattern-document similarity is evaluated using partial tree-edit distance measure, also proposed in this thesis. All algorithms have been experimentally evaluated on both real and synthetic datasets and the results show, that the proposed methods allow to achieve results of similar or better quality than the state-of-the-art methods while additionally resolving the main challenges stated in the thesis.

PL Niniejsza praca porusza temat grupowania oraz klasyfikacji danych XML z wykorzystaniem wzorców. Zaproponowano w niej metodykę grupowania XPattern bazującą na wzorcach oraz dwa algorytmy oparte na tej metodyce: XCleaner2 i PathXP. Powstały również dwie heurystyki pozwalające automatycznie wyznaczyć liczbę skupień w zbiorze danych. Ponadto, zaproponowano nowy algorytm klasyfikacji danych XML nazwany k-nearest patterns, który dokonuje predykcji klas dokumentów w oparciu o głosowanie większościowe k najbliższych wzorców odkrytych w zbiorze treningowym, gdzie odległość wzorzec-dokument wyliczana jest przy pomocy miary partial tree-edit distance, również zaproponowanej w rozprawie. Wszystkie algorytmy zostały eksperymentalnie przetestowane na zbiorach rzeczywistych oraz syntetycznych, a uzyskane wyniki pokazują, że przedstawione metody pozwalają uzyskać wyniki o porównywalnej lub lepszej jakości do metod reprezentujących stan wiedzy, rozwiązując jednocześnie wyzwania postawione w pracy.

Liczba stron

138

Dziedzina wg OECD

nauki o komputerach i informatyka

Dyscyplina wg KBN

informatyka

Sygnatura rozprawy w wersji drukowanej

DrOIN 1672

Katalog on-line

to201580822

Pełny tekst rozprawy doktorskiej

Pobierz plik

Poziom dostępu do pełnego tekstu

publiczny

Pierwsza recenzja

Yannis Manolopoulos

Miejsce

Saloniki, Grecja

Data

19.05.2015

Język

angielski

Tekst recenzji

Pobierz plik

Poziom dostępu do recenzji

publiczny

Druga recenzja

Henryk Rybiński

Miejsce

Warszawa, Polska

Data

04.05.2015

Język

polski

Tekst recenzji

Pobierz plik

Poziom dostępu do recenzji

publiczny

Status rozprawy

rozprawa doktorska

Miejsce obrony

Poznań, Polska

Data obrony

05.06.2015

Jednostka nadająca tytuł

Rada Wydziału Informatyki Politechniki Poznańskiej

Uzyskany tytuł

doktor nauk technicznych w dyscyplinie: informatyka, w specjalności: eksploracja danych

Ta strona używa plików Cookies, w celu zapamiętania uwierzytelnionej sesji użytkownika. Aby dowiedzieć się więcej przeczytaj o plikach Cookies i Polityce Prywatności.