Kaldi Toolkit in Polish Whispery Speech Recognition

Piotr Kozierski; Talar Sadalla; Szymon Drgas; Adam Dąbrowski; Dariusz Horla

doi:10.15199/48.2016.11.70

Scientific Information System of the Poznań University of Technology

PL EN

Main page / Publications / Kaldi Toolkit in Polish Whispery Speech Recognition

Submit a comment

Article

Download file Download BibTeX

Title

Kaldi Toolkit in Polish Whispery Speech Recognition

Authors

Piotr Kozierski (WI) ^{[ 1 ][ D ]}
Talar Sadalla (WE) ^{[ 2 ][ D ]}
Szymon Drgas (WI) ^{[ 1 ][ P ]}
Adam Dąbrowski (WI) ^{[ 1 ][ P ]}
Dariusz Horla (WE) ^{[ 2 ][ P ]}

^{[ 1 ]} Katedra Sterowania i Inżynierii Systemów, Wydział Informatyki, Politechnika Poznańska | ^{[ 2 ]} Instytut Automatyki i Inżynierii Informatycznej, Wydział Elektryczny, Politechnika Poznańska | ^{[ D ]} phd student | ^{[ P ]} employee

Title variant

PL Narzędzia Kaldi w rozpoznawaniu polskiej mowy szeptanej

Year of publication

2016

Published in

Przegląd Elektrotechniczny

Journal year: 2016 | Journal volume: R. 92 | Journal number: nr 11

Article type

scientific article

Publication language

english

Keywords

EN

speech recognition
ASR
whispered speech
database

PL

rozpoznawanie mowy
ASR
mowa szeptana
baza danych

Abstract

EN In this paper, the automatic speech recognition task has been presented. Used toolkits, libraries and prepared speech corpus have been described. The obtained results suggest, that using different acoustic models for normal speech and whispered speech can reduce word error rate. The optimal training steps has been also selected. Thanks to the additional simulations it has been found that used corpus (over 9 hours of normal speech and the same of the whispery speech) is definitely too small and must be enlarged in the future.

PL W artykule przedstawiono automatyczne rozpoznawanie mowy. Wykorzystane narzędzia, biblioteki i korpus opisano w artykule. Uzyskane wyniki wskazują, że wykorzystując różne modele akustyczne dla mowy zwykłej i szeptanej uzyskuje się polepszenie skuteczności rozpoznawania mowy. W wyniku wykonanych badań wskazano również optymalną kolejność kroków treningu. Dzięki dodatkowym obliczeniom stwierdzono, że użyty korpus (ponad 9 godzin zwykłej mowy i drugie tyle szeptu) jest zdecydowanie za mały do dobrego wytrenowania systemu rozpoznawania mowy i w przyszłości musi zostać powiększony.

Pages (from - to)

301 - 304

DOI

10.15199/48.2016.11.70

URL

http://pe.org.pl/abstract_pl.php?nid=10238

License type

CC BY-NC-ND (attribution - noncommercial - no derivatives)

Open Access Mode

czasopismo hybrydowe

Open Access Text Version

final published version