W zależności od ilości danych do przetworzenia generowanie pliku może się wydłużyć.

Jeśli generowanie trwa zbyt długo można ograniczyć dane np. zmniejszając zakres lat.

Artykuł

Pobierz BibTeX

Tytuł

Speech Enhancement by Multiple Propagation through the Same Neural Network

Autorzy

[ 1 ] Wydział Automatyki, Robotyki i Elektrotechniki, Politechnika Poznańska | [ 2 ] Instytut Automatyki i Robotyki, Wydział Automatyki, Robotyki i Elektrotechniki, Politechnika Poznańska | [ P ] pracownik

Dyscyplina naukowa (Ustawa 2.0)

[2.2] Automatyka, elektronika, elektrotechnika i technologie kosmiczne

Rok publikacji

2022

Opublikowano w

Sensors

Rocznik: 2022 | Tom: vol. 22 | Numer: iss. 7

Typ artykułu

artykuł naukowy

Język publikacji

angielski

Słowa kluczowe
EN
  • speech
  • enhancement
  • multi-pass
  • U-Net
  • ResBLSTM
  • Transformer-Net
Streszczenie

EN Monaural speech enhancement aims to remove background noise from an audio recording containing speech in order to improve its clarity and intelligibility. Currently, the most successful solutions for speech enhancement use deep neural networks. In a typical setting, such neural networks process the noisy input signal once and produces a single enhanced signal. However, it was recently shown that a U-Net-based network can be trained in such a way that allows it to process the same input signal multiple times in order to enhance the speech even further. Unfortunately, this was tested only for two-iteration enhancement. In the current research, we extend previous efforts and demonstrate how the multi-forward-pass speech enhancement can be successfully applied to other architectures, namely the ResBLSTM and Transformer-Net. Moreover, we test the three architectures with up to five iterations, thus identifying the method’s limit in terms of performance gain. In our experiments, we used the audio samples from the WSJ0, Noisex-92, and DCASE datasets and measured speech enhancement quality using SI-SDR, STOI, and PESQ. The results show that performing speech enhancement up to five times still brings improvements to speech intelligibility, but the gain becomes smaller with each iteration. Nevertheless, performing five iterations instead of two gives additional a 0.6 dB SI-SDR and four-percentage-point STOI gain. However, these increments are not equal between different architectures, and the U-Net and Transformer-Net benefit more from multi-forward pass compared to ResBLSTM.

Data udostępnienia online

22.03.2022

Strony (od-do)

2440-1 - 2440-14

DOI

10.3390/s22072440

URL

https://www.mdpi.com/1424-8220/22/7/2440

Uwagi

Article Number: 2440

Typ licencji

CC BY (uznanie autorstwa)

Tryb otwartego dostępu

otwarte czasopismo

Wersja tekstu w otwartym dostępie

ostateczna wersja opublikowana

Czas udostępnienia publikacji w sposób otwarty

w momencie opublikowania

Punktacja Ministerstwa / czasopismo

100

Impact Factor

3,9

Ta strona używa plików Cookies, w celu zapamiętania uwierzytelnionej sesji użytkownika. Aby dowiedzieć się więcej przeczytaj o plikach Cookies i Polityce Prywatności.