Sobiad Atıf Dizini

Atıf Sayısı 10

İndirme 2

Makale Detay

Atıf Yapanlar

Benzer Makaleler

PDF Görüntüle

Dergi Bilgisi

Eseri Dinleyin

Alıntı Yap

Bu Sayfayı Yazdırın

Paylaş

TF-IDF ve Doc2Vec Tabanlı Türkçe Metin Sınıflandırma Sisteminin Başarım Değerinin Ardışık Kelime Grubu Tespiti ile Arttırılması

2021

Dergi:

Avrupa Bilim ve Teknoloji Dergisi

Yazar:

DOI:

Özet:

TF-IDF terim ağırlıklandırma ölçümü kelimelerin metinler içinde geçme sıklığı bilgisine dayalıdır. Bu ölçüm kelimeler arasındaki anlamsal ilişkiyi barındırmamaktadır. Yapay sinir ağlarına dayalı olan Doc2Vec metodu kelimeler ve kelimeleri içeren dokümanlar arasındaki anlamsal ilişkiyi barındırmakta ve yönetilebilir boyutlu doküman vektörlerinin elde edilmesini sağlamaktadır. Ardışık kelime gurubu tespitinin metin madenciliği üzerindeki olumlu etkileri literatürde sunulan pek çok çalışma tarafından belirtilmiştir. Ardışık kelime gurubu tespiti doküman içindeki anlamsal bütünlüğün sağlanması açısından önemlidir. Bu çalışmada, hem geleneksel TF-IDF terim ağırlıklandırma ölçümünün, hem de YSA’lara dayalı bir yöntem olan Doc2Vec yönteminin kullanımı ile vektörleştirilen dokümanlar üzerinde temel makine öğrenmesi sınıflandırıcılarının ve topluluk öğrenmesi algoritmalarının başarım değerleri kıyaslanmıştır. Çalışmamızda temel sınıflandırıclar olarak Naive Bayes, K-En yakın komşuluk, Lojistik Regresyon, Karar Destek Makineleri, Karar Ağaçları, Çok Katmanlı Algılayıcılar ve topluluk öğrenmesi metotlarından Rassal Orman, Torbalama ve Adaboost algoritmaları kullanılmıştır. Ayrıca son olarak en başarılı üç sınıflandırma algoritması Çoğunluk oylaması ile birleştirilmiş ve elde edilen sonuçlar paylaşılmıştır. Sınıflandırıcılar farklı uzunluklarda haber dokümanlarını içeren 4 farklı Türkçe veri kümesi üzerinde uygulanmıştır. Çalışmamızın literatüre olan katkısı sınıflandırma aşamasına geçilmeden önce dokümanların içindeki ardışık kelime grubu tespitinin gerçekleştirilmesi ve dokümanların bu kelime öbeklerinin tek bir kelime gibi ele alınmasıyla vektörleştirildikten sonra, uygulanan sınıflandırıcıların başarım değerlerinin arttığının gösterilmesi olmuştur. Ardışık kelime grubu tespiti için kelimelerin birlikte geçme sıklığı prensibine dayalı olan bir prensip dışında, Türkçe Vikipedi’nin kelime bağlantıları da kullanılmış ve dokümanlar içinde az sayıda geçmesine rağmen anlamlı olan ardışık kelime öbeklerinin tespiti gerçekleştirilebilmiştir. Ardışık kelime grubu tespiti ile sınıflandırma deneylerinin hemen hemen tümünde daha yüksek başarım değerleri elde edilmiştir.

Anahtar Kelimeler:

TF-IDF and Doc2Vec-based Turkish Text Classification System Increases Success Value by Continuous Word Group Detection

2021

Dergi:

Avrupa Bilim ve Teknoloji Dergisi

Yazar:

DOI:

10.31590/ejosat.774144

Özet:

TF-IDF term weighting measurement is based on the knowledge of the frequency of words passing in texts. This measurement does not contain the meaningful relationship between the words. Based on artificial nerve networks, the Doc2Vec method hosts the meaningful relationship between words and words-containing documents and ensures the achievement of managed-dimensional document vectors. The positive effects of followed word group detection on text mining have been pointed out by many studies presented in literature. Identification of the consistent word group is important for ensuring the meaningful integrity within the document. This study compared the success values of both the traditional TF-IDF term weighting measurement and the basic machine learning classificers and community learning algorithms on the documents vectored by the use of the Doc2Vec method, a method based on YSA. The main classifiers in our study were Naive Bayes, K-Last Neighborhood, Logistics Regression, Decision Support Machines, Decision Tree, Multi-Last Detectors and Community Learning Methods using Rassal Forest, Torbalama and Adaboost algorithms. Also the last three most successful classification algorithms combined with the majority vote and the results obtained were shared. Classifiers have been applied on 4 different Turkish datasets containing news documents in different lengths. Before the contribution of our work to literature was passed to the classification phase, the realization of the sequential word group in the documents and after the document was vectored by the treatment of these word subjects as a single word, it was shown that the success values of the classifiers applied increased. In addition to a principle that is based on the principle of the frequency of passing together of words for the detection of the follow-up word group, the word links of the Turkish Wikipedia have also been used and the detection of the follow-up word subjects, which are meaningful despite the small number of passing in the documents, has been made possible. With consistent word group detection, higher success values have been achieved in almost all of the classification trials.

Anahtar Kelimeler:

Enhancing The Performance Of Tf-idf and Doc2vec Based Turkish Text Categorization System With Phrase Modeling

2021

Dergi:

Avrupa Bilim ve Teknoloji Dergisi

Yazar:

DOI:

10.31590/ejosat.774144

Özet:

TF-IDF term weighting measure is based on frequency of words in texts. This measure doesn’t capture the semantic relationship between words. Doc2Vec which is based on artificial neural networks can capture the semantic relations between the words and it enables to yield document vectors of a more manageable size. Consecutive word detection has been reported to have important effects on text mining by many studies. Consecutive word phrases are important for expressing the semantic integrity within the texts. In this study, the performances of traditional machine learning classifiers and ensemble learning algorithms are compared on four different Turkish datasets which are vectorized with both traditional TF-IDF term weighting measurement and Doc2Vec method. The classifiers have been applied on 4 different Turkish datasets containing news documents of different lengths. The contributions of our study are “to apply consecutive word detection process to the documents before the classification phase” and “to show that the performances of the applied classifiers’ results have been increased after the consecutive word detection phase is applied”. In addition to the approach based on frequency of words for consecutive word detection, we also use the url links of Turkish Wikipedia. By using consecutive word detection, higher performance values are presented in almost all classification experiments.

Atıf Yapanlar

Dikkat!
Yayınların atıflarını görmek için Sobiad'a Üye Bir Üniversite Ağından erişim sağlamalısınız. Kurumuzun Sobiad'a üye olması için Kütüphane ve Dokümantasyon Daire Başkanlığı ile iletişim kurabilirsiniz.

Kampüs Dışı Erişim
Eğer Sobiad Abonesi bir kuruma bağlıysanız kurum dışı erişim için Giriş Yap Panelini kullanabilirsiniz. Kurumsal E-Mail adresiniz ile kolayca üye olup giriş yapabilirsiniz.

Benzer Makaleler

1. Kavramlar Arası WordNet Tabanlı Anlamsal Benzerlik Değerlerinin Farklı Metriklerle Değerlendirilmesi

2020

Avrupa Bilim ve Teknoloji Dergisi

2. MooDetecTR: Kelime Vektörleri Vasıtasıyla Türkçe Şarkı Sözleri için Ruh Hali Tespiti

2020

Konya Mühendislik Bilimleri Dergisi

3. Haber Metinlerinden Sosyo-ekonomik ve Epidemiyolojik Konuların Metin Madenciliğine Dayalı Belirlenmesi

2021

Avrupa Bilim ve Teknoloji Dergisi

4. Nitelik Çıkarımı Yöntemlerinin Türkçe Metinlerin Sınıflandırılmasına Etkisi

2019

Çukurova Üniversitesi Mühendislik Fakültesi Dergisi

5. Music emotion classification for Turkish songs using lyrics

2018

Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi

6. Twitter duygu analizinde terim ağırlıklandırma yönteminin etkisi

2018

Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi

Avrupa Bilim ve Teknoloji Dergisi

Alan : Fen Bilimleri ve Matematik; Mühendislik

Dergi Türü : Uluslararası

Metrikler

Makale : 3.175

Atıf : 5.537

Detaylı İncele

Özet
Eseri Dinleyin

Yazar : --

Dergi :

Sayı

Yıl

Tür

Atıf Sayısı

PDF Görüntüle

Benzer Makaleler
Bu Yayına Atıf Yapanlar

Benzer Makaleler	Yazar	#

Makale	Yazar	#

Kullanım Kılavuzu

Menü

Mendeley

Endnote

TF-IDF ve Doc2Vec Tabanlı Türkçe Metin Sınıflandırma Sisteminin Başarım Değerinin Ardışık Kelime Grubu Tespiti ile Arttırılması

2021

Dergi:

Avrupa Bilim ve Teknoloji Dergisi

Yazar:

DOI:

10.31590/ejosat.774144

Özet:

Anahtar Kelimeler:

TF-IDF and Doc2Vec-based Turkish Text Classification System Increases Success Value by Continuous Word Group Detection

2021

Dergi:

Avrupa Bilim ve Teknoloji Dergisi

Yazar:

DOI:

10.31590/ejosat.774144

Özet:

Anahtar Kelimeler:

Enhancing The Performance Of Tf-idf and Doc2vec Based Turkish Text Categorization System With Phrase Modeling

2021

Dergi:

Avrupa Bilim ve Teknoloji Dergisi

Yazar:

DOI:

10.31590/ejosat.774144

Özet:

Atıf Yapanlar

Dikkat!
Yayınların atıflarını görmek için Sobiad'a Üye Bir Üniversite Ağından erişim sağlamalısınız. Kurumuzun Sobiad'a üye olması için Kütüphane ve Dokümantasyon Daire Başkanlığı ile iletişim kurabilirsiniz.

Kampüs Dışı Erişim
Eğer Sobiad Abonesi bir kuruma bağlıysanız kurum dışı erişim için Giriş Yap Panelini kullanabilirsiniz. Kurumsal E-Mail adresiniz ile kolayca üye olup giriş yapabilirsiniz.

Benzer Makaleler

Avrupa Bilim ve Teknoloji Dergisi

Metrikler

Kullanım Kılavuzu

Menü

Mendeley

Endnote

TF-IDF ve Doc2Vec Tabanlı Türkçe Metin Sınıflandırma Sisteminin Başarım Değerinin Ardışık Kelime Grubu Tespiti ile Arttırılması

2021

Dergi:

Avrupa Bilim ve Teknoloji Dergisi

Yazar:

DOI:

10.31590/ejosat.774144

Özet:

Anahtar Kelimeler:

TF-IDF and Doc2Vec-based Turkish Text Classification System Increases Success Value by Continuous Word Group Detection

2021

Dergi:

Avrupa Bilim ve Teknoloji Dergisi

Yazar:

DOI:

10.31590/ejosat.774144

Özet:

Anahtar Kelimeler:

Enhancing The Performance Of Tf-idf and Doc2vec Based Turkish Text Categorization System With Phrase Modeling

2021

Dergi:

Avrupa Bilim ve Teknoloji Dergisi

Yazar:

DOI:

10.31590/ejosat.774144

Özet:

Atıf Yapanlar

Dikkat! Yayınların atıflarını görmek için Sobiad'a Üye Bir Üniversite Ağından erişim sağlamalısınız. Kurumuzun Sobiad'a üye olması için Kütüphane ve Dokümantasyon Daire Başkanlığı ile iletişim kurabilirsiniz.

Kampüs Dışı ErişimEğer Sobiad Abonesi bir kuruma bağlıysanız kurum dışı erişim için Giriş Yap Panelini kullanabilirsiniz. Kurumsal E-Mail adresiniz ile kolayca üye olup giriş yapabilirsiniz.

Benzer Makaleler

Avrupa Bilim ve Teknoloji Dergisi

Metrikler

Dikkat!
Yayınların atıflarını görmek için Sobiad'a Üye Bir Üniversite Ağından erişim sağlamalısınız. Kurumuzun Sobiad'a üye olması için Kütüphane ve Dokümantasyon Daire Başkanlığı ile iletişim kurabilirsiniz.

Kampüs Dışı Erişim
Eğer Sobiad Abonesi bir kuruma bağlıysanız kurum dışı erişim için Giriş Yap Panelini kullanabilirsiniz. Kurumsal E-Mail adresiniz ile kolayca üye olup giriş yapabilirsiniz.