Kullanım Kılavuzu
Neden sadece 3 sonuç görüntüleyebiliyorum?
Sadece üye olan kurumların ağından bağlandığınız da tüm sonuçları görüntüleyebilirsiniz. Üye olmayan kurumlar için kurum yetkililerinin başvurması durumunda 1 aylık ücretsiz deneme sürümü açmaktayız.
Benim olmayan çok sonuç geliyor?
Birçok kaynakça da atıflar "Soyad, İ" olarak gösterildiği için özellikle Soyad ve isminin baş harfi aynı olan akademisyenlerin atıfları zaman zaman karışabilmektedir. Bu sorun tüm dünyadaki atıf dizinlerinin sıkça karşılaştığı bir sorundur.
Sadece ilgili makaleme yapılan atıfları nasıl görebilirim?
Makalenizin ismini arattıktan sonra detaylar kısmına bastığınız anda seçtiğiniz makaleye yapılan atıfları görebilirsiniz.
 Görüntüleme 35
 İndirme 5
Sınırlı Veri Kullanılarak Metinden Bağımsız Otomatik Konuşmacı Tanıma Yöntemlerinin Karşılaştırmalı Bir Değerlendirmesi
2021
Dergi:  
Avrupa Bilim ve Teknoloji Dergisi
Yazar:  
Özet:

Otomatik Konuşmacı Tanıma, sinyal işlemedeki aktif araştırma alanlarından biridir. Bu amaçla çeşitli makine öğrenme algoritmaları kullanılmıştır. Donanım teknolojilerindeki ve veri birikimindeki son gelişmelerle birlikte, Derin Öğrenme yöntemleri, çeşitli sınıflandırma ve tanımlama görevlerinde en son teknolojiye sahip yeni yaklaşım haline gelmiştir. Bu makalede, metinden bağımsız, kapalı-küme otomatik konuşmacı tanımlama için Gauss Karışım Modeli-Evrensel Arka Plan Modeli (GMM-UBM) gibi geleneksel yöntemlerin ve Faktörize Zaman Gecikmeli Sinir Ağı ve Evrişimli Sinir Ağları gibi derin öğrenme tabanlı tekniklerin performansını değerlendiriyoruz. Bu karşılaştırmalar, farklı koşullara sahip iki veri kümesinde değerlendirildi. Deneysel veri kümelerinden biri LibriSpeech. Bu veri seti çok sayıda konuşmacıdan oluşan sesli kitaplardan toplanan temiz ses sinyallerinden oluşmaktadır. Ayrıca, müşterilerin bir çağrı merkezindeki temsilcilerle doğal konuşmalarından oluşan bir veri kümesi ise bizim tarafımızdan toplandı ve hazırlandı. Çağrı merkezi veri setindeki ses örnekleri sinyal-gürültü oranı düşük ve oldukça sınırlı sayıda ses örnekleri mevut. Konuşmacı sorgulama aşamasındaki konuşma sinyallerinin süresi, otomatik konuşmacı tanımlama yöntemlerinin performanslarını etkileyen önemli bir faktördür. Bu çalışmada, kısa konuşma bölütlerinden otomatik konuşmacı tanımlaması için bir CNN mimarisi önerilmiştir. Mimari tasarımı, iyi bilinen CNN mimarilerine kıyasla düşük sayıda parametre ile optimum bir evrişimsel sinir ağıdır ve konuşma sinyalinin zamansal yapısını yakalamayı amaçlamaktadır. Önerilen CNN tabanlı algoritmanın büyük ve temiz veri setinde daha iyi performans gösterdiğini, buna karşın sınırlı miktarda veriye sahip diğer veri setinde geleneksel yöntemin tüm derin öğrenme yaklaşımlarından daha iyi performans gösterdiğini gözlemledik. Önerilen model tarafından elde edilen doğruluk, LibriSpeech veri setinden 1 saniyelik ses örneklerinde %99,5'tir.

Anahtar Kelimeler:

A Comparative Assessment Of Text-independent Automatic Speaker Identification Methods Using Limited Data
2021
Yazar:  
Özet:

Automatic Speaker Identification (ASI) is one of the active fields of research in signal processing. Various machine learning algorithms have been used for this purpose. With the recent developments in hardware technologies and data accumulation, Deep Learning (DL) methods have become the new state-of-the-art approach in several classification and identification tasks. In this paper, we evaluate the performance of traditional methods such as Gaussian Mixture Model-Universal Background Model (GMM-UBM) and DL-based techniques such as Factorized Time-Delay Neural Network (FTDNN) and Convolutional Neural Networks (CNN) for text-independent closed-set automatic speaker identification on two datasets with different conditions. LibriSpeech is one of the experimental datasets, which consists of clean audio signals from audiobooks, collected from a large number of speakers. The other dataset was collected and prepared by us, which has rather limited speech data with low signal-to-noise-ratio from real-life conversations of customers with the agents in a call center. The duration of the speech signals in the query phase is an important factor affecting the performances of ASI methods. In this work, a CNN architecture is proposed for automatic speaker identification from short speech segments. The architecture design aims at capturing the temporal nature of speech signal in an optimum convolutional neural network with low number of parameters compared to the well-known CNN architectures. We show that the proposed CNN-based algorithm performs better on the large and clean dataset, whereas on the other dataset with limited amount of data, traditional method outperforms all DL approaches. The achieved top-1 accuracy by the proposed model is 99.5% on 1-second voice instances from LibriSpeech dataset.

Anahtar Kelimeler:

Atıf Yapanlar
Bilgi: Bu yayına herhangi bir atıf yapılmamıştır.
Benzer Makaleler










Avrupa Bilim ve Teknoloji Dergisi

Alan :   Fen Bilimleri ve Matematik; Mühendislik

Dergi Türü :   Uluslararası

Metrikler
Makale : 3.175
Atıf : 5.526
Avrupa Bilim ve Teknoloji Dergisi