Son yıllarda hızla artan büyüklükteki veri setlerinden bilgi keşfetmek oldukça değerlidir. Veri madenciliği yöntemleri, sınıflandırma problemlerinde, büyük ve karmaşık veri setlerindeki gizli örüntünün ortaya çıkarılarak verilerin belli bir sınıfa atanması amacıyla kullanılır. Bu çalışmada, kurumların başarım değerlendirilmesi sürecine istatistiksel bakış açısı kazandırmak amacıyla veri madenciliği yöntemleri ile Analitik Hiyerarşi Süreci (AHP) ve CODAS yöntemleri kullanılarak bir melez sınıflandırma yaklaşımı önerilmiştir. Uygulama amacıyla bir kurum verisi ele alınmıştır. Veri seti ön işleme aşamasından geçirilerek, veri setindeki değişkenler, uzman bilgisi dikkate alınarak AHP yöntemi ile ağırlıklandırılmıştır. Ağırlıklandırılmış gerçek veri setine, veri madenciliği sınıflandırma yöntemlerinden Lojistik Regresyon (LR), K-En Yakın Komşu (KNN) algoritması, Destek Vektör Makineleri (SVM) ve Rastgele Orman (RF) algoritması uygulanmıştır. Sınıflandırma yöntemleri, 5-kat çapraz doğrulama sonucu elde edilen doğruluk, kesinlik, duyarlılık ve F1-skor performans ölçütlerine göre hesaplanmıştır. Elde edilen performans ölçütleri, çok ölçütlü karar verme yöntemi olan CODAS’a göre değerlendirilmiştir. Yapılan melez sınıflandırma yaklaşımına göre, Ar-Ge ve Tasarım merkezlerinin faaliyetlerinin değerlendirilmesi konusunda RF yönteminin daha iyi sınıflandırma performansına sahip olduğu görülmüştür.
In recent years, it is very valuable to discover information from data sets of rapidly increasing size. Data mining methods are used in classification problems to assign data to a certain class by revealing the hidden pattern in large and complex data sets. In this study, a hybrid classification approach is proposed by using data mining methods with Analytic Hierarchy Process (AHP) and CODAS methods in order to gain a statistical perspective on the performance evaluation process of the instutitions. An instutition data is taken as a basis for the application. The data set is preprocessed and the variables in the data set are weighted by AHP method by taking into account expert knowledge. Logistic Regression (LR), K-Nearest Neighbour (KNN) algorithm, Support Vector Machines (SVM) and Random Forest (RF) algorithm, data mining classification methods, were applied to the weighted real data set. The classification methods were calculated according to the accuracy, precision, sensitivity and F1-score performance measures obtained from 5-fold cross-validation. The obtained performance criteria were evaluated according to the CODAS, a multi-criteria decision making method. As a result of the hybrid classification approach, it was seen that the RF method has better classification performance about the evaluation of the activities of R&D and Design centers.
Alan : Fen Bilimleri ve Matematik
Dergi Türü : Ulusal
Benzer Makaleler | Yazar | # |
---|
Makale | Yazar | # |
---|