Saldırganlar kurbanlarının kredi kartı, e-posta, sosyal medya hesap bilgileri gibi hassas verileri ele geçirmek için sahte web siteleri tasarlamaktadırlar. Bu saldırılar son zamanlarda daha karmaşık hale gelmiş dikkatli kullanıcıları kolayca kandırabilen oldukça ikna edici tasarımlar geliştirmişlerdir. Giderek daha tehlikeli hale gelen bu soruna çözüm bulmak için yapılan çalışmalar sahte web sayfalarının verileri ile kimlik avı amacı ile hazırlanmış web sayfalarının makine öğrenmesi yöntemi kullanarak tahminini yapabilecek sistemler tasarlanmıştır. Bu çalışmada seçilen örnek web sitesi adresine ait belirlenmiş 6 özellik kullanılarak; bu web site adreslerinin kimlik avı amacı ile hazırlanıp hazırlanmadığı rastgele orman (random forest) algoritması kullanarak tespit edilmeye çalışılmaktadır. Çalışmada seçilen veri seti, Uluslararası Siber Olaylara Müdahale Merkezinin resmi web sitesinde yer alan açık kaynak verileri kullanılmıştır. Toplamda 12.275 adet web sitesi çalışma için değerlendirilmiştir. Veri seti, internet URL ve alan adlarının belirlenen 6 özelliğin kategorilendirilmesi ve etiketlenmesi ile oluşturulmuştur. Etiketler (Kimlik avı=1, Şüpheli=0, Meşru=-1) python dilinde geliştirilmiş betikler ve tablolama programlarından yararlanılarak belirlenmiştir. Çalışma sonucunda kullanılan yöntem 95% başarı performansı göstermiştir.
Attackers are designing fake websites to capture the victims’ credit card, e-mail, social media account information, such as sensitive data. These attacks have recently developed quite convincing designs that can easily cheat careful users that have become more complex. The studies conducted to find a solution to this problem that is becoming increasingly dangerous have been designed systems that can make the predictions using the machine learning method of the data of fake web pages and the web pages prepared for the purpose of identity hunting. This study uses the identified 6 features of the sample website address; this website addresses are attempted to be identified using the random forest algorithm where they are prepared for identity hunting purposes or not. The data set selected in the study was used by open source data on the official website of the International Cyber Events Intervention Center. A total of 12,275 websites have been evaluated for work. The data set is created by categorizing and labelling the 6 specific features of the Internet URLs and domain names. The labels (Identity Hunt=1, Suspicious=0, Legitimate=-1) are determined by the use of phrases and tabling programs developed in Python. The method used in the study resulted in 95% success performance.
Attackers are designing fake websites to collect sensitive data such as credit card, email, social media account information of their victims. These attacks keep getting more sophisticated day by day. This leads to highly convincing website designs that can easily trick users and steal their information. In order to prevent this increasingly dangerous problem from spreading, systems with machine learning capabilities have been developed to predict if a web page or web site is created exclusively for phishing or not. In this study, using the determined 6 features of the selected sample website address 12.275. It is tried to determine whether this website address is prepared for phishing purposes or not by using a random forest algorithm. The selected data set in this study have been collected from open-source datas which is published on the official website of the Computer Emergency Response Team of Turkey. The data set was created by categorizing and labeling internet urls and domain names according to 6 determined features. Tags (Phishing=1, Suspect=0, Legitimate=-1) were determined using scripts and tabulation programs developed on python programming language. As a conclusion of the study, used method has shown 95 % success performance.
Field : Fen Bilimleri ve Matematik; Mühendislik
Journal Type : Uluslararası
Relevant Articles | Author | # |
---|
Article | Author | # |
---|