Kaldi Toolkit in Polish Whispery Speech Recognition

Piotr Kozierski; Talar Sadalla; Szymon Drgas; Adam Dąbrowski; Dariusz Horla

doi:10.15199/48.2016.11.70

System Informacji Naukowej Politechniki Poznańskiej

PL EN

Strona główna / Publikacje / Kaldi Toolkit in Polish Whispery Speech Recognition

Zgłoś uwagę

Artykuł

Pobierz plik Pobierz BibTeX

Tytuł

Kaldi Toolkit in Polish Whispery Speech Recognition

Autorzy

Piotr Kozierski (WI) ^{[ 1 ][ D ]}
Talar Sadalla (WE) ^{[ 2 ][ D ]}
Szymon Drgas (WI) ^{[ 1 ][ P ]}
Adam Dąbrowski (WI) ^{[ 1 ][ P ]}
Dariusz Horla (WE) ^{[ 2 ][ P ]}

^{[ 1 ]} Katedra Sterowania i Inżynierii Systemów, Wydział Informatyki, Politechnika Poznańska | ^{[ 2 ]} Instytut Automatyki i Inżynierii Informatycznej, Wydział Elektryczny, Politechnika Poznańska | ^{[ D ]} doktorant | ^{[ P ]} pracownik

Wariant tytułu

PL Narzędzia Kaldi w rozpoznawaniu polskiej mowy szeptanej

Rok publikacji

2016

Opublikowano w

Przegląd Elektrotechniczny

Rocznik: 2016 | Tom: R. 92 | Numer: nr 11

Typ artykułu

artykuł naukowy

Język publikacji

angielski

Słowa kluczowe

EN

speech recognition
ASR
whispered speech
database

PL

rozpoznawanie mowy
ASR
mowa szeptana
baza danych

Streszczenie

EN In this paper, the automatic speech recognition task has been presented. Used toolkits, libraries and prepared speech corpus have been described. The obtained results suggest, that using different acoustic models for normal speech and whispered speech can reduce word error rate. The optimal training steps has been also selected. Thanks to the additional simulations it has been found that used corpus (over 9 hours of normal speech and the same of the whispery speech) is definitely too small and must be enlarged in the future.

PL W artykule przedstawiono automatyczne rozpoznawanie mowy. Wykorzystane narzędzia, biblioteki i korpus opisano w artykule. Uzyskane wyniki wskazują, że wykorzystując różne modele akustyczne dla mowy zwykłej i szeptanej uzyskuje się polepszenie skuteczności rozpoznawania mowy. W wyniku wykonanych badań wskazano również optymalną kolejność kroków treningu. Dzięki dodatkowym obliczeniom stwierdzono, że użyty korpus (ponad 9 godzin zwykłej mowy i drugie tyle szeptu) jest zdecydowanie za mały do dobrego wytrenowania systemu rozpoznawania mowy i w przyszłości musi zostać powiększony.

Strony (od-do)

301 - 304

DOI

10.15199/48.2016.11.70

URL

http://pe.org.pl/abstract_pl.php?nid=10238

Typ licencji

CC BY-NC-ND (uznanie autorstwa - użycie niekomercyjne - bez utworów zależnych)

Tryb otwartego dostępu

czasopismo hybrydowe

Wersja tekstu w otwartym dostępie

ostateczna wersja opublikowana