Kaldi Toolkit in Polish Whispery Speech Recognition
[ 1 ] Katedra Sterowania i Inżynierii Systemów, Wydział Informatyki, Politechnika Poznańska | [ 2 ] Instytut Automatyki i Inżynierii Informatycznej, Wydział Elektryczny, Politechnika Poznańska | [ D ] doktorant | [ P ] pracownik
PL Narzędzia Kaldi w rozpoznawaniu polskiej mowy szeptanej
2016
artykuł naukowy
angielski
- speech recognition
- ASR
- whispered speech
- database
- rozpoznawanie mowy
- ASR
- mowa szeptana
- baza danych
EN In this paper, the automatic speech recognition task has been presented. Used toolkits, libraries and prepared speech corpus have been described. The obtained results suggest, that using different acoustic models for normal speech and whispered speech can reduce word error rate. The optimal training steps has been also selected. Thanks to the additional simulations it has been found that used corpus (over 9 hours of normal speech and the same of the whispery speech) is definitely too small and must be enlarged in the future.
PL W artykule przedstawiono automatyczne rozpoznawanie mowy. Wykorzystane narzędzia, biblioteki i korpus opisano w artykule. Uzyskane wyniki wskazują, że wykorzystując różne modele akustyczne dla mowy zwykłej i szeptanej uzyskuje się polepszenie skuteczności rozpoznawania mowy. W wyniku wykonanych badań wskazano również optymalną kolejność kroków treningu. Dzięki dodatkowym obliczeniom stwierdzono, że użyty korpus (ponad 9 godzin zwykłej mowy i drugie tyle szeptu) jest zdecydowanie za mały do dobrego wytrenowania systemu rozpoznawania mowy i w przyszłości musi zostać powiększony.
301 - 304
CC BY-NC-ND (uznanie autorstwa - użycie niekomercyjne - bez utworów zależnych)
czasopismo hybrydowe
ostateczna wersja opublikowana
publiczny
14