Sobiad Atıf Dizini

İndirme 3

Makale Detay

Benzer Makaleler

PDF Görüntüle

Dergi Bilgisi

Eseri Dinleyin

Alıntı Yap

Bu Sayfayı Yazdırın

Paylaş

Konuşma Tanıma için Kodlayıcı Olarak Paralel Kapılı Tekrarlayan Birim Ağları

2022

Dergi:

Avrupa Bilim ve Teknoloji Dergisi

Yazar:

DOI:

Özet:

Listen, Attend and Spell (LAS) ağı konuşma tanıma için belli bir dil modeline gereksinim duymayan uçtan-uca yaklaşımlardan biridir. İki kısımdan oluşur; akustik öznitelikleri girdi olarak alan kodlayıcı kısmı, kodlayıcı çıkışı ve dikkat mekanizmasına bağlı olarak bir zaman adımında tek bir karakter üreten kod çözümleyici kısmı. Hem kod çözümleyici hem de kodlayıcı kısımlarında çok katmanlı tekrarlayan sinir ağları (RNN) kullanılır. Bu nedenle LAS mimarisi kod çözümleyici için bir RNN ve kodlayıcı için bir başka RNN olarak basitleştirilebilir. Şekilleri ve katman boyutları farklı olabilir. Bu çalışmada, kodlayıcı kısmı için çoklu RNN kullanımının performansını inceledik. Temel alınan LAS ağı 256 gizli boyutu olan bir RNN kullanmaktadır. 128 ve 64 gizli boyutları için 2 ve 4 RNN kullandık. Önerilen yaklaşımın ardındaki ana fikir, RNN’leri verilerdeki farklı örüntülere (bu çalışma için fonemler) odaklamaktır. Kodlayıcının çıkışında bunların çıkışları birleştirilir ve kod çözümleyiciye iletilir. TIMIT veritabanı, performans metriği olarak fonem hata oranı seçilerek bahsedilen ağların performansını karşılaştırmak için kullanılmıştır. Deneysel sonuçlar, önerilen yaklaşımın temek alınan ağdan daha iyi bir performans elde edebileceğini göstermiştir. Ancak RNN’lerin sayısını artırmak daha fazla iyileşmeyi garanti etmemektedir.

Anahtar Kelimeler:

Parallel Gated Recurrent Unit Networks As An Encoder For Speech Recognition

2022

Dergi:

Avrupa Bilim ve Teknoloji Dergisi

Yazar:

DOI:

10.31590/ejosat.1103714

Özet:

Listen, Attend and Spell (LAS) network is one of the end-to-end approaches for speech recognition, which does not require an explicit language model. It consists of two parts; the encoder part which receives acoustic features as inputs, and the decoder network which produces one character at a time step, based on the encoder output and an attention mechanism. Multi-layer recurrent neural networks (RNN) are used in both decoder and encoder parts. Hence, the LAS architecture can be simplified as one RNN for the decoder, and another RNN for the encoder. Their shapes and layer sizes can be different. In this work, we examined the performance of using multi RNNs for the encoder part. Our baseline LAS network uses an RNN with a hidden size of 256. We used 2 and 4 RNNs with hidden sizes of 128 and 64 for each case. The main idea behind the proposed approach is to focus the RNNs to different patterns (phonemes in this case) in the data. At the output of the encoder, their outputs are concatenated and fed to the decoder. TIMIT database is used to compare the performance of the mentioned networks, using phoneme error rate as the performance metric. The experimental results showed that proposed approach can achieve a better performance than the baseline network. However, increasing the number of RNNs does not guarantee further improvements.

Anahtar Kelimeler:

Atıf Yapanlar

Bilgi: Bu yayına herhangi bir atıf yapılmamıştır.

Benzer Makaleler

1. Türkçe dilinde görüntü altyazısı: veritabanı ve model

2020

Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi

2. Tip 1 Diyabette Çok Katmanlı GRU Tabanlı Glikoz Tahmini

2023

Avrupa Bilim ve Teknoloji Dergisi

3. Derin Konvolüsyonel Kodlayıcı-Kod Çözücü ile Görüntü Hash Kodlarının Çıkartılarak Hızlı Görüntü Erişiminin Gerçekleştirilmesi

2023

Afyon Kocatepe Üniversitesi Fen Ve Mühendislik Bilimleri Dergisi

4. Yaya Özellik Tanıma için LM Filtre Temelli Derin Evrişimsel Sinir Ağı

2020

Politeknik Dergisi

5. Diferansiyel Gelişim Algoritma Tabanlı Uyarlamalı Sinirsel Bulanık Çıkarım Sistemi ile Kısa Dönem Rüzgar Hızı Kestirimi

2019

Bitlis Eren Üniversitesi Fen Bilimleri Dergisi

6. Jelatin Çözeltilerinin Dinamik Viskozitesine Yapay Sinir Ağı (YSA) Yaklaşımı: Esnek Hesaplama Çalışması

2020

Avrupa Bilim ve Teknoloji Dergisi

Alan : Fen Bilimleri ve Matematik; Mühendislik

Dergi Türü : Uluslararası

Metrikler

Makale : 3.175

Atıf : 5.634

2023 Impact/Etki : 0.178

Detaylı İncele

Özet
Eseri Dinleyin

Yazar : --

Dergi :

Sayı

Yıl

Tür

Atıf Sayısı

PDF Görüntüle

Benzer Makaleler
Bu Yayına Atıf Yapanlar

Benzer Makaleler	Yazar	#

Makale	Yazar	#

Kullanım Kılavuzu

Menü

Mendeley

Endnote

Konuşma Tanıma için Kodlayıcı Olarak Paralel Kapılı Tekrarlayan Birim Ağları

2022

Dergi:

Avrupa Bilim ve Teknoloji Dergisi

Yazar:

DOI:

10.31590/ejosat.1103714

Özet:

Anahtar Kelimeler:

Parallel Gated Recurrent Unit Networks As An Encoder For Speech Recognition

2022

Dergi:

Avrupa Bilim ve Teknoloji Dergisi

Yazar:

DOI:

10.31590/ejosat.1103714

Özet:

Anahtar Kelimeler:

Atıf Yapanlar

Bilgi: Bu yayına herhangi bir atıf yapılmamıştır.

Benzer Makaleler

Avrupa Bilim ve Teknoloji Dergisi

Metrikler