W zależności od ilości danych do przetworzenia generowanie pliku może się wydłużyć.

Jeśli generowanie trwa zbyt długo można ograniczyć dane np. zmniejszając zakres lat.

Artykuł

Pobierz plik Pobierz BibTeX

Tytuł

Lossy Coding Impact on Speech Recognition with Convolutional Neural Networks

Autorzy

Rok publikacji

2022

Opublikowano w

Vibrations in Physical Systems

Rocznik: 2022 | Tom: vol. 33 | Numer: no. 3

Typ artykułu

artykuł naukowy

Język publikacji

angielski

Słowa kluczowe
EN
  • lossy coding
  • convolutional neural networks
  • speech recognition
Streszczenie

EN This paper presents research of lossy coding impact on speech recognition with convolutional neural networks. For this purpose, google speech commands dataset containing utterances of 30 words was encoded using four most common all-purpose codecs: mp3, aac, wma and ogg. A convolutional neural network was taught using part of the original files and later tested with the rest of the files, as well as their counterparts encoded with different codecs and bitrates. The same network model was also taught using mp3 encoded data showing the biggest loss in effectiveness of the previous network. Results show that lossy coding does have an effect on speech recognition, especially for low bitrates.

Strony (od-do)

2022302-1 - 2022302-6

DOI

10.21008/j.0860-6897.2022.3.02

URL

https://vibsys.put.poznan.pl/_journal/2022-33-3/articles/vps_2022302.pdf

Uwagi

article number: 2022302

Typ licencji

CC BY (uznanie autorstwa)

Tryb otwartego dostępu

otwarte czasopismo

Wersja tekstu w otwartym dostępie

ostateczna wersja opublikowana

Pełny tekst artykułu

Pobierz plik

Poziom dostępu do pełnego tekstu

publiczny

Punktacja Ministerstwa / czasopismo

70

Ta strona używa plików Cookies, w celu zapamiętania uwierzytelnionej sesji użytkownika. Aby dowiedzieć się więcej przeczytaj o plikach Cookies i Polityce Prywatności.