Kaldi Toolkit in Polish Whispery Speech Recognition
[ 1 ] Katedra Sterowania i Inżynierii Systemów, Wydział Informatyki, Politechnika Poznańska | [ 2 ] Instytut Automatyki i Inżynierii Informatycznej, Wydział Elektryczny, Politechnika Poznańska | [ D ] phd student | [ P ] employee
PL Narzędzia Kaldi w rozpoznawaniu polskiej mowy szeptanej
2016
scientific article
english
- speech recognition
- ASR
- whispered speech
- database
- rozpoznawanie mowy
- ASR
- mowa szeptana
- baza danych
EN In this paper, the automatic speech recognition task has been presented. Used toolkits, libraries and prepared speech corpus have been described. The obtained results suggest, that using different acoustic models for normal speech and whispered speech can reduce word error rate. The optimal training steps has been also selected. Thanks to the additional simulations it has been found that used corpus (over 9 hours of normal speech and the same of the whispery speech) is definitely too small and must be enlarged in the future.
PL W artykule przedstawiono automatyczne rozpoznawanie mowy. Wykorzystane narzędzia, biblioteki i korpus opisano w artykule. Uzyskane wyniki wskazują, że wykorzystując różne modele akustyczne dla mowy zwykłej i szeptanej uzyskuje się polepszenie skuteczności rozpoznawania mowy. W wyniku wykonanych badań wskazano również optymalną kolejność kroków treningu. Dzięki dodatkowym obliczeniom stwierdzono, że użyty korpus (ponad 9 godzin zwykłej mowy i drugie tyle szeptu) jest zdecydowanie za mały do dobrego wytrenowania systemu rozpoznawania mowy i w przyszłości musi zostać powiększony.
301 - 304
CC BY-NC-ND (attribution - noncommercial - no derivatives)
czasopismo hybrydowe
final published version
public
14