İkili ya da kesikli değerlere sahip veri kümelerine odaklanan birçok birliktelik kural madenciliği çalışması vardır. Ancak, gerçek dünya uygulamalarındaki veriler genellikle nicel değerlerden oluşmaktadır. Nicel veriler için keşfedilecek kurallarda hangi niteliklerin olacağı ve hangilerinin kuralın solunda hangilerinin sağında olacağının belirlenmesi, ilgili nicel aralıkların en uygun şekilde otomatik ayarlanması kuralların yoğun nesne kümeleri üretilmeden tek aşamada anlaşılabilir, doğru, güvenilir, ilginç, sürpriz vb. özelliklere sahip olacak şekilde bulunması ve tüm bu işlemlerin her veri tabanı için önceden belirlenmesi gereken metriklere ihtiyaç duyulmadan ayarlanması zor bir problemdir. Yakın zamanda bazı araştırmacılar, nicel birliktelik kural madenciliğini, farklı kriterleri aynı anda en iyi şekilde karşılayacak şekilde, çok amaçlı bir problem olarak düşünmüşlerdir. Bu makalede nicel birliktelik kural madenciliği problemi için anlaşılabilirlik, ilginçlik ve performansı en üst düzeye çıkarmayı amaçlayan çok amaçlı evrimsel algoritmalardan baskın olmayan sıralama genetik algoritma-II temelli QAR-CIP-NSGA-II’nin parametre analizi yapılmıştır. Bu amaçla nitelikleri nicel değerler alan beş gerçek dünya verisinde QAR-CIP-NSGA-II’nin değerlendirme sayısı, popülasyon sayısı, mutasyon olasılığı, genlik ve eşik değeri gibi parametrelerinin elde edilen kural sayısı, ortalama destek, güven, lift, kesinlik faktörü, netconf ve kapsanan kayıt sayısını nasıl değiştirdiği kapsamlı bir şekilde bildiğimiz kadarıyla ilk kez bu çalışmada gerçekleştirilmiştir. Detaylı analiz sonuçları karşılaştırmalı tablolar ile sunulmuştur ve yorumlanmıştır.
There are many coalition rules mining work that focus on data sets with double or cut values. However, the data in real-world practices are usually made up of quantum values. Determination of which qualities will be in the rules to be discovered for quantum data and which of them will be on the right side of the rule, the automatic settlement of the relevant quantum intervals as appropriate; the rules can be understood, accurate, reliable, interesting, surprising, etc. It is a difficult problem to find properties and all of these processes to be adjusted without the need for the metrics that must be pre-defined for each database. Recently, some researchers have considered quantitative cohesion rule mining as a multi-purpose problem, in a way that best meets different criteria at the same time. In this article, the Quantitative Connectivity Rule is based on the analysis of the parameters of QAR-CIP-NSGA-II based on the ranking genetic algorithm-II, which is not dominated by multi-purpose evolutionary algorithms aimed at maximizing the understandability, interest and performance of the mining problem. For this purpose; in the five real world data with qualitative values, QAR-CIP-NSGA-II’s assessment number, population number, mutation probability, width and marginal value, as far as we fully know how it changes the number of rules obtained, the average support, trust, lift, accuracy factor, netconf and the number of covered records. Detailed analysis results are presented and interpreted with comparative tables.
There are many association rules mining studies that focus on datasets with binary or discrete values. However, the data in real-world applications are generally composed of quantitative values. In association rules discovered within quantitative data, it is very hard to determine which attributes will be included in the rules to be discovered and which ones will be on the left of the rule and which ones on the right; to automatically adjust of most relevant ranges for numerical attributes; to rapidly discover the reduced high-quality rules directly without generating the frequent itemsets; to ensure the rules to be comprehensible, surprising, interesting, accurate, confidential, and etc.; to adjust all of these processes without the need for the metrics to be pre-determined for each dataset. Recently, some researchers have considered quantitative association rule mining as a multi-objective problem that best meets different criteria at the same time. In this paper, the parameter analysis of non-dominated sorting genetic algorithm-II based QAR-CIP-NSGA-II, which aims to maximize comprehensibility, interestingness, and performance for quantitative association rule mining problem, has been performed. For this purpose, to the best of our knowledge the effects of the parameters of QAR-CIP-NSGA-II such as the number of evaluations, population number, mutation probability, amplitude and threshold value to the number of rules obtained, average support, confidence, lift, certainty factor, netconf, and the number of records covered in five real-world data whose attributes consist of quantitative values have been carried out for the first time in this study. Detailed sensitivity analysis results are presented and interpreted in comparative tables.
Alan : Eğitim Bilimleri; Fen Bilimleri ve Matematik
Dergi Türü : Uluslararası
Benzer Makaleler | Yazar | # |
---|
Makale | Yazar | # |
---|