W zależności od ilości danych do przetworzenia generowanie pliku może się wydłużyć.

Jeśli generowanie trwa zbyt długo można ograniczyć dane np. zmniejszając zakres lat.

Rozdział

Pobierz BibTeX

Tytuł

Towards a Hybrid Imputation Approach Using Web Tables

Autorzy

[ 1 ] Instytut Informatyki, Wydział Informatyki, Politechnika Poznańska | [ P ] pracownik

Rok publikacji

2015

Typ rozdziału

referat

Język publikacji

angielski

Słowa kluczowe
EN
  • web mining
  • data preprocessing
  • machine learning
Streszczenie

EN Data completeness is one of the most important data quality dimensions and an essential premise in data analytics. With new emerging Big Data trends such as the data lake concept, which provides a low cost data preparation repository instead of moving curated data into a data warehouse, the problem of data completeness is additionally reinforced. While traditionally the process of filling in missing values is addressed by the data imputation community using statistical techniques, we complement these approaches by using external data sources from the data lake or even the Web to lookup missing values. In this paper we propose a novel hybrid data imputation strategy that, takes into account the characteristics of an incomplete dataset and based on that chooses the best imputation approach, i.e. either a statistical approach such as regression analysis or a Web-based lookup or a combination of both. We formalize and implement both imputation approaches, including a Web table retrieval and matching system and evaluate them extensively using a corpus with 125M Web tables. We show that applying statistical techniques in conjunction with external data sources will lead to a imputation system which is robust, accurate, and has high coverage at the same time.

Strony (od-do)

21 - 30

DOI

10.1109/BDC.2015.38

URL

https://ieeexplore.ieee.org/document/7406326

Książka

IEEE/ACM 2nd International Symposium on Big Data Computing, BDC 2015

Zaprezentowany na

2nd IEEE/ACM International Symposium on Big Data Computing, BDC 2015, 7-10.12.2015, Limassol, Cyprus

Publikacja indeksowana w

WoS (15)

Ta strona używa plików Cookies, w celu zapamiętania uwierzytelnionej sesji użytkownika. Aby dowiedzieć się więcej przeczytaj o plikach Cookies i Polityce Prywatności.