W zależności od ilości danych do przetworzenia generowanie pliku może się wydłużyć.

Jeśli generowanie trwa zbyt długo można ograniczyć dane np. zmniejszając zakres lat.

Artykuł

Pobierz BibTeX

Tytuł

Serial Weakening of Human-Based Attributes Regarding Their Effect on Content-Based Speech Recognition

Autorzy

[ 1 ] Instytut Informatyki, Wydział Informatyki i Telekomunikacji, Politechnika Poznańska | [ D ] doktorant

Dyscyplina naukowa (Ustawa 2.0)

[2.3] Informatyka techniczna i telekomunikacja

Rok publikacji

2023

Opublikowano w

IEEE Access

Rocznik: 2023 | Tom: vol. 11

Typ artykułu

artykuł naukowy

Język publikacji

angielski

Słowa kluczowe
EN
  • autoencoder
  • automatic speech recognition
  • deep learning
  • feature extraction
  • human-based attributes
Streszczenie

EN Numerous studies have investigated automatic speech recognition tasks, such as content-based speech recognition, using machine learning techniques, such as deep learning. In general, each speech sample contains four main human-based attributes: i.e., content, emotion, gender, and speaker identity. Among them, the content has the lowest correlation with the other three attributes. However, to classify speech samples concerning each attribute, the model ignores the existence of unrelated attributes. This study shows that information on these non-content attributes is not always useful and can cause a content-based speech classifier to significantly underperform. Moreover, weakening the effects of one, two, or three attributes is possible, and weakening these attributes in a specific order is crucial. For this purpose, two-input, two- output autoencoders are proposed as a feature extraction method. These networks are specifically designed to reduce the level of information (in this case, one, two, or three attributes). The level of change in the performance of classifiers caused by using these pre-trained autoencoders helps rank the negative effect of selected human-based attributes. Based on the results obtained, gender has the most negative effect on the performance of content-based speech recognition models, and serial weakening gives the best results when considering the attributes in the following order: gender, speaker identity, and emotion.

Data udostępnienia online

10.03.2023

Strony (od-do)

24394 - 24406

DOI

10.1109/ACCESS.2023.3255982

URL

https://ieeexplore.ieee.org/document/10066288

Typ licencji

CC BY-NC-ND (uznanie autorstwa - użycie niekomercyjne - bez utworów zależnych)

Tryb otwartego dostępu

otwarte czasopismo

Wersja tekstu w otwartym dostępie

ostateczna wersja opublikowana

Czas udostępnienia publikacji w sposób otwarty

w momencie opublikowania

Punktacja Ministerstwa / czasopismo

100

Impact Factor

3,9 [Lista 2022]

Ta strona używa plików Cookies, w celu zapamiętania uwierzytelnionej sesji użytkownika. Aby dowiedzieć się więcej przeczytaj o plikach Cookies i Polityce Prywatności.