Sobiad Atıf Dizini

İndirme 3

Makale Detay

Benzer Makaleler

PDF Görüntüle

Dergi Bilgisi

Eseri Dinleyin

Alıntı Yap

Bu Sayfayı Yazdırın

Paylaş

Kelime Gömmelerini Kullanarak Türkçe Dili İçin Sözlük Metodu ile Yazım Düzeltme

2020

Dergi:

Avrupa Bilim ve Teknoloji Dergisi

Yazar:

DOI:

Özet:

Günümüzde oldukça büyük miktarda veri üretilmektedir. Üretilen bu büyük verinin çok önemli bir kısmı ise text verilerinden oluşmaktadır. Bu durum, text processing çalışmalarının daha da önem kazanmasını sağlamıştır. Ancak yapılan çalışmalar incelendiğinde başta İngilizce olmak üzere birçok dünya dili odaklı çalışmalar yapılırken Türkçe diline özgü çalışmaların yeterli sayıda olmadığı görülmüştür. Bu nedenle bu çalışmada hedef dil olarak Türkçe seçilmiştir. Etiketsiz verilerden oluşan ve yazım yanlışı bulunmayan yaklaşık 10.5 milyar kelimeden oluşan etiketsiz ve büyük Türkçe bir derlem üretilmiştir. Word2Vec metodu kullanılarak bu derlem üzerinde kelime vektörleri eğitilmiştir. Bu derlemi temel alarak “Sözlük Metodu” adı verilen yeni bir yöntem önerilmiştir, üretilen derlem içindeki kelimeler ile hemen hemen tüm Türkçe kelimeleri kapsayan bir sözlük oluşturulmuştur. Daha sonra çok sınıflı Türkçe bir dataset üzerinde metin sınıflandırma işlemi uygulanmıştır. Bu veriseti içerisindeki token kelimelerin vektörel değerleri sözlükten transfer öğrenme ile aktarılmıştır. Ancak sözlükte bulunmayan kelimelerin hatalı kelimeler olduğu düşünülerek bir derin sinir ağı mimarisi olan LSTM (Uzun Kısa Süreli Bellek) yöntemi ile bu kelimelerin yerine doğru veya yakın anlamlı kelimeler tahmin edilmeye çalışılmıştır. Bu işlemin ardından metin sınıflandırma uygulamasının doğruluk oranında %8.68 oranında gelişme olduğu görülmüştür. Üretilen Türkçe veriseti, derlem ve sözlük Türkçe metin işleme çalışmalarına katkı sağlamak amacıyla araştırmacılarla paylaşılacaktır.

Anahtar Kelimeler:

Spelling Correction With The Dictionary Method For The Turkish Language Using Word Embeddings

2020

Dergi:

Avrupa Bilim ve Teknoloji Dergisi

Yazar:

DOI:

10.31590/ejosat.araconf8

Özet:

Today, a massive amount of data is being produced, which is referred to as “big data.” A significant part of big data is composed of text data, which has made text processing all the more important. However, when text processing studies are examined, it can be seen that while there are many world language-oriented studies, especially the English language, there has been an insufficient level of studies published specific to the Turkish language. Therefore, Turkish was chosen as the target language for the study. A Turkish corpus of approximately 10.5 billion words was created, consisting of unlabeled data containing no spelling errors. Word vectors were trained using the Word2Vec method on this corpus. Based on this corpus, a new method was proposed called the “dictionary method,” with a dictionary created covering almost all known Turkish words. Then, text classification was applied to a multi-class Turkish dataset. This dataset contains 10 classes and approximately 1.5 million samples. Vector values of the token words in this dataset were transferred from the dictionary by transfer learning. However, words not found in the created dictionary were considered as incorrect; then, using LSTM (Long Short-Term Memory), which is a deep neural network (DNN) architecture, the proposed method attempts to predict correct or similar words as replacement words. Following this process, it was seen that the accuracy rate improved by 8.68%. Turkish dataset that is created, corpus and dictionary will be shared with researchers in order to contribute to Turkish text processing studies.

Anahtar Kelimeler:

Atıf Yapanlar

Bilgi: Bu yayına herhangi bir atıf yapılmamıştır.

Benzer Makaleler

1. Kelime Temsil Yöntemleri ile Kelime Benzerliklerinin İncelenmesi

2019

Çukurova Üniversitesi Mühendislik Fakültesi Dergisi

2. Türkçe Haber Metinlerinin Konvolüsyonel Sinir Ağları ve Word2Vec Kullanılarak Sınıflandırılması

2019

Bilişim Teknolojileri Dergisi

3. TF-IDF ve Doc2Vec Tabanlı Türkçe Metin Sınıflandırma Sisteminin Başarım Değerinin Ardışık Kelime Grubu Tespiti ile Arttırılması

2021

Avrupa Bilim ve Teknoloji Dergisi

4. MooDetecTR: Kelime Vektörleri Vasıtasıyla Türkçe Şarkı Sözleri için Ruh Hali Tespiti

2020

Konya Mühendislik Bilimleri Dergisi

5. Evrişimli Sinir Ağı Mimarilerine Dayalı Türkçe Duygu Analizi

2020

Avrupa Bilim ve Teknoloji Dergisi

6. KENDİNDEN DÜZENLENEN HARİTALAR İLE DERS İÇERİKLERİNİN SINIFLANDIRILMASI

2009

Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi

Avrupa Bilim ve Teknoloji Dergisi

Alan : Fen Bilimleri ve Matematik; Mühendislik

Dergi Türü : Uluslararası

Metrikler

Makale : 3.175

Atıf : 5.495

2023 Impact/Etki : 0.178

Detaylı İncele

Özet
Eseri Dinleyin

Yazar : --

Dergi :

Sayı

Yıl

Tür

Atıf Sayısı

PDF Görüntüle

Benzer Makaleler
Bu Yayına Atıf Yapanlar

Benzer Makaleler	Yazar	#

Makale	Yazar	#

Kullanım Kılavuzu

Menü

Mendeley

Endnote

Kelime Gömmelerini Kullanarak Türkçe Dili İçin Sözlük Metodu ile Yazım Düzeltme

2020

Dergi:

Avrupa Bilim ve Teknoloji Dergisi

Yazar:

DOI:

10.31590/ejosat.araconf8

Özet:

Anahtar Kelimeler:

Spelling Correction With The Dictionary Method For The Turkish Language Using Word Embeddings

2020

Dergi:

Avrupa Bilim ve Teknoloji Dergisi

Yazar:

DOI:

10.31590/ejosat.araconf8

Özet:

Anahtar Kelimeler:

Atıf Yapanlar

Bilgi: Bu yayına herhangi bir atıf yapılmamıştır.

Benzer Makaleler

Avrupa Bilim ve Teknoloji Dergisi

Metrikler