Speaker recognition based on transcoded speech for human-machine interfaces
[ 1 ] Instytut Automatyki i Robotyki, Wydział Informatyki, Politechnika Poznańska | [ D ] doktorant
[ 1 ] Instytut Automatyki i Robotyki, Wydział Informatyki, Politechnika Poznańska | [ P ] pracownik
[ 1 ] Instytut Automatyki i Robotyki, Wydział Informatyki, Politechnika Poznańska | [ P ] pracownik
PL Rozpoznawanie mówcy na podstawie transkodowanej mowy do interfejsów człowiek-maszyna
angielski
- Speaker recognition
- lossy encoding
- GSM
- gaussian mixture models
- fixed-point arithmetics
- Rozpoznawanie mówcy
- kodowanie stratne
- GSM
- mieszaniny gaussa
- arytmetyka stałoprzecinkowa
EN This dissertation presents results of research related to recognition of speakers from short utterances in application to automation systems. The transmission of speech by GSM and internet network was also considered. The aim of presented investigations was the analysis of the opportunity to extend speech controlled human-machine interface (HMI) with the functionality of speaker identification. The proposed methods of the use of voice activity algorithms, encoding and even GSM encoder type detection, and also the use of encoder-related speaker model, resulted in significant increase of the recognition performance. Additionaly, the hardware implementation was provided with the use of ARM processor, and fixed-point digital signal processor. Proposed improvements resulted in increase of recognition accuracy, especially for fixed-point implementation. This allowed also for the reduction of acquisition and processing resolution without reduction of recognition accuracy.
PL Rozprawa prezentuje rezultaty badań dotyczących rozpoznawania mówcy z krótkich wypowiedzi obniżonej jakości w zastosowaniach automatyki, z uwzględnieniem transmisji mowy przez sieć GSM oraz internet. Celem badań była analiza możliwości rozszerzenia, sterowanych za pomocą głosu, interfejsów człowiek-maszyna (human-machine interfaces, HMI) o funkcjonalność identyfikacji osoby wydającej polecenie głosowe. Zaproponowane metody detekcji aktywności mówcy, detekcji kodowania i kodera GSM, a także doboru modelu mówcy skorelowanego z koderem mowy wyraźnie zwiększyły skuteczność rozpoznawania. Przedstawiono także implementację na procesorze ARM, oraz stałoprzecinkowym procesorze sygnałowym. Uwzględnienie zaproponowanych metod zwiększyło skuteczność rozpoznawania przede wszystkim dla implementacji stałoprzecinkowej oraz umożliwiło redukcję rozdzielczości akwizycji i przetwarzania sygnału mowy.
201
elektrotechnika, elektronika, inżynieria informatyczna
automatyka i robotyka
DrOIN 1833
publiczny
Andrzej P. Dobrowolski
Warszawa, Polska
12.02.2017
polski
publiczny
Andrzej Dobrucki
Wrocław, Polska
28.02.2017
polski
publiczny
rozprawa doktorska
Poznań, Polska
29.05.2017
Rada Wydziału Informatyki Politechniki Poznańskiej
doktor nauk technicznych w dyscyplinie: automatyka i robotyka, w specjalności: interfejsy człowiek-maszyna