SMS, mobil cihaz kullanıcılarının iletişimlerinde kullandıkları önemli araçlardan biridir. Günümüzde kullanıcıların almış olduğu çoğu bilginin kaynağı cep telefonlarıdır. Teknolojideki gelişmelerle birlikte cep telefonlarına gelen mesajların içeriği geniş bir alana yayılmakla beraber istenilen kaynaktan gelip gelmediği önemli bir konu teşkil etmektedir. Metin sınıflandırma çalışmalarında Türkçe çalışmaların azlığı dikkat çekicidir. Bu çalışmada çok sayıda kullanıcının telefonlarına gelen mesajlar incelenmiş ve veri ön işleme gibi çeşitli iyileştirme aşamalarından geçirilerek bir araya getirilmiştir. Bu aşamalardan sonra mevcut mesaj içerikleri makine öğrenmesi teknikleri aracılığıyla metin sınıflandırma uygulanarak incelenmiştir. Elde edilen veriler normal, reklam ve spam olacak şekilde 3 farklı kategoriye ayrılmıştır. Ayrıca dengesiz olan veri setini dengeli hale getirmek için Synthetic Minority Oversampling Technique (SMOTE), Condensed Nearest Neighbour (CNN), Undersampling Technique ve Random Undersampling Technique (RUS) uygulanarak sınıflandırma performansları incelenmiştir. 4203 adet SMS’in yer aldığı veri seti üzerinde yapılan çalışma sonucunda en iyi sonucu veren (OACC değerine göre) sınıflandırmalar SMOTE’ta yaklaşık %80.1 ile Lojistik Regresyon, CNN’de yaklaşık %62.1 ile XGBoost ve RUS’ta yaklaşık %73.8 ile Lojistik Regresyon olmuştur.
SMS is one of the important tools that mobile device users use in communication. Today, most of the information that users get is the source of mobile phones. With the advances in technology, the content of the messages coming to the mobile phones is a significant issue where the content of the messages coming to the mobile phones is spread across a wide range of spaces and is from the desired source. The lack of Turkish studies in the text classification studies is remarkable. In this study, many users’ telephone messages were studied and collected through various improvement stages, such as pre-processing data. After these stages, the existing message content has been studied by applying text classification through machine learning techniques. The obtained data is divided into 3 different categories, so that it will be normal, advertising and spam. The classification performance has also been studied using Synthetic Minority Oversampling Technique (SMOTE), Condensed Nearest Neighbour (CNN), Undersampling Technique and Random Undersampling Technique (RUS) to balance the unbalanced data set. The best results (according to the OACC value) of the study on the data set containing 4203 SMS were classifications in SMOTE with approximately 80.1 per cent Logistics Regression, CNN with approximately 62.1 per cent XGBoost and RUS with approximately 73.8 per cent Logistics Regression.
Alan : Fen Bilimleri ve Matematik; Mühendislik
Dergi Türü : Ulusal
Benzer Makaleler | Yazar | # |
---|
Makale | Yazar | # |
---|