Web sitelerin sayısı hızlı bir şekilde artmakta ve bu sitelerde bulunabilecek zararlı içeriği engellemek ya da yararlı bilgilere daha kolay ulaşmak için, Web sayfalarını içerikleri doğrultusunda sınıflandırmak bir çözüm olarak ortaya çıkmaktadır. Sınıflandırma sayesinde, belirli sitelerin erişimine izin verilebilir veya bunları engellemek için Web siteleri filtrelenebilir. Bu çalışmada, farklı makine öğrenmesi yöntemleri ve yapay sinir ağları kullanılarak Web sitesi sınıflandırma problemi incelenmiştir. Bu sınıflandırma probleminin çözümü için, İkili Sınıflandırma ve Çoklu Sınıflandırma olarak iki farklı yaklaşım uygulanmış, her iki yaklaşım da çalışma kapsamında toplanan Web siteleri üzerinde test edilip, başarımları karşılaştırılmıştır. Tüm deneysel sonuçlar göz önüne alındığında İkili Sınıflandırma yaklaşımının, sadece istenilen bir Web site sınıfının filtrelenmesi görevini yerine getirmek için kullanıldığında daha etkili olacağı tespit edilmiştir. Başarıma bakıldığında ikili sınıflandırıcılar için en iyi performans gösteren algoritma Lojistik Regresyondur. Çoklu Sınıflandırma yaklaşımında uygulanan algoritmaları arasından ise en yüksek başarıma sahip yöntem Destek Vektör Makineleri (SVM) olmuştur. Ayrıca, Çoklu Sınıflandırma problemi için farklı kelime vektörleştirme yöntemleri denenmiş ve performansları karşılaştırılmıştır. İkili ve Çoklu sınıflandırma yaklaşımlarında kullanılan algoritmalarının ayrı ayrı ve farklı vektörleştirme yöntemleri ile denenmesi, Web sayfalarının sınıflandırılması ve içerik filtrelenmesi problemlerini birlikte ele alınmasını sağlamış olup, alandaki benzer çalışmalardan farkı ortaya konmuştur.
As the number of Web sites is growing rapidly, classifying Web pages with respect to their contents proposes itself as a possible solution to prevent accessing malicious content that may be found on these sites or to access useful information in a easier way. With such a classification, access to specific sites may be allowed or these sites may be filtered and thus access to them may be prevented. In this study, the Web site classification problem is examined by using different machine learning methods and artificial neural networks. In order to solve this classification problem, two different approaches are proposed, namely Binary Classification and Multiple Classification. Both approaches are tested and their performance are compared by using a number of Web sites collected for this study. Considering all experimental results, it has been found that the Binary Classification approach is more effective only when it is used to perform the task of filtering a desired website class. In terms of performance, Logistic Regression is the best performance algorithm for binary classifiers. Among the algorithms applied in the Multiple Classification approach, Support Vector Machines (SVM) is found as the most successful method. Furthermore, different word vectorization methods have been employed and their performance have been compared within the Multiple Classification problem. Algorithms used in Binary and Multi-class Classification approaches have been separately tested using different vectorization methods. By this way the classification and content filtering problems on Web pages have been approached together, thus differentiating this study from similar researches in the domain.
As the number of Web sites is growing rapidly, classifying Web pages with respect to their contents proposes itself as a possible solution to prevent accessing malicious content that may be found on these sites or to access useful information in an easier way. With such a classification, access to specific sites may be allowed or these sites may be filtered and thus access to them may be prevented. In this study, the Web site classification problem is examined by using different machine learning methods and artificial neural networks. In order to solve this classification problem, two different approaches are proposed, namely Binary Classification and Multiple Classification. Both approaches are tested and their performances are compared by using a number of Web sites collected for this study. Considering all experimental results, it has been found that the Binary Classification approach is more effective only when it is used to perform the task of filtering a desired Web site class. In terms of performance, Logistic Regression is the best performing algorithm for binary classifiers. Among the algorithms applied in the Multiple Classification approach, Support Vector Machines (SVM) is found as the most successful method. Furthermore, different word vectorization methods have been employed and their performances have been compared within the Multiple Classification problem. Algorithms used in Binary and Multi-class Classification approaches have been separately tested by using different vectorization methods. By this way the classification and content filtering problems on Web pages have been approached together, thus differentiating this study from similar researches in the domain.
Alan : Sosyal, Beşeri ve İdari Bilimler
Dergi Türü : Ulusal
Benzer Makaleler | Yazar | # |
---|
Makale | Yazar | # |
---|