Elektronik posta, internet üzerinden gönderilen bir tür dijital mektuptur. Elektronik postalar aracılığı ile belge, resim, video, müzik gibi her türlü dosya gönderilip alınabilmektedir. Düşük maliyeti nedeniyle sıklıkla tercih edilmektedir. Elektronik postalar zaman ve para tasarrufu sağladığı için etkili bir iletişim yoludur. Düşük maliyetinden ve kullanımının kolaylığından dolayı reklam yapmak isteyenler tarafından etkin bir şekilde kullanılmaktadır. Bunun yanında siber saldırganlar da kurbanlarına bu tür elektronik postalar göndererek onlara zarar verebilmektedirler. Bu durumların önüne geçebilmek için, günümüzde makine öğrenmesi algoritmalarıyla spam elektronik postaları sınıflayan modeller tasarlanmaktadır. Bu çalışmanın amacı da spam tespiti konusunda literatürde sıklıkla yer alan Word2Vec ve Term Frequency – Inverse Document Frequency(TF-IDF) yöntemlerinin karşılaştırılmasını Türkçe bir veri seti üzerinde yapmak ve daha önce bahsedilen veri seti üzerinde yapılan çalışmalara göre başarı oranını artırmaktır. Bu amaç doğrultusunda, daha önce yapılan çalışmalar incelendiğinde, çalışmaların genellikle İngilizce veri setleri üzerinde yoğunlaştığı görülmektedir. Bu konudaki eksiği gidermek adına, Türkçe veri seti üzerinde yapılan bu çalışmada bahsedilen özellik çıkarma yöntemlerinin karşılaştırılması yapılarak iki farklı model oluşturulmuştur. Bu modellerde farklı sınıflayıcılar da kullanılarak en etkili yöntemin öne çıkarılması hedeflenmiştir.
Electronic mail is a type of digital mail sent via the internet. Through electronic mail, any kind of file, such as documents, images, videos, music, can be sent and received. It is often preferred because of its low cost. Electronic mail is an effective way of communication because it saves time and money. It is effectively used by those who want to make advertising due to its low cost and ease of use. In addition, cyber-aggressors can also hurt them by sending such e-mails to their victims. To avoid these situations, models are designed to classify spam e-mails with machine learning algorithms today. The aim of this study is to compare the methods of Word2Vec and Term Frequency - Inverse Document Frequency (TF-IDF) which are often included in the literature on spam detection on a Turkish data set and to increase the success rate according to the studies on the previously mentioned data set. For this purpose, when previous studies are studied, it appears that studies are usually focused on English-language datasets. In order to resolve the lack in this subject, two different models have been created by comparing the methods of extract of character referred to in this study on the Turkish data set. In these models, different classifiers are also aimed at highlighting the most effective method.
Electronic mail is a kind of digital letter sent over the Internet. A lot of documents such as, images, videos, and music can be transferred via electronic mail. E-mails are often preferred due to their cheapness and easy usage. E-mail is an effective way of communication as it saves time and money. E-mails are used due to its easy usage and low cost by the people who want to advertise their products. Also, hackers can hurt their victims by sending e-mails to them. Nowadays, to prevent these situations, classifiers of the spam electronic mails with some machine algorithms are designed. The aim of this study is to compare Word2Vec and Term Frequency – Inverse Document Frequency (TF-IDF) methods which are frequently included in the literature on Spam Detection, on a Turkish data set and to increase the success rate over previous studies on the related data set. For this purpose, when the previous studies are examined, it is seen that studies generally focus on English data sets. In order to eliminate the lack in this matter, by comparing the mentioned feature extraction methods, two different models are created on a Turkish data set in this study. It is aimed to highlight the most effective method by using different classifiers in these models.
Field : Fen Bilimleri ve Matematik; Mühendislik
Journal Type : Ulusal
Relevant Articles | Author | # |
---|
Article | Author | # |
---|