Farklı veri setleri üzerinde yapılan uygulamalar sonucunda modellenmesi zor olan değişkenlerin varlığında klasik regresyon yöntemlerine alternatif olarak makine öğrenmesi regresyon yöntemlerinin kullanımı tavsiye edilmektedir. Sağlık harcaması modellenmesi zor olan bir değişken olup, literatürde makine öğrenmesi regresyon yöntemleri karşılaştırılarak bu değişkenin modellendiği bir çalışmaya rastlanmamıştır. Bu çalışmada kişi başı sağlık harcamasının tahmini amacıyla bir çoklu regresyon modeli oluşturulmuştur. Farklı hiperparametre değerleri belirlendiğinde elde edilen Lasso Regresyon, Rastgele Ağaç Regresyonu ile Destek Vektör Makinesi Regresyon performans sonuçları karşılaştırılmıştır. Çalışmada hiperparametre değeri olarak Lasso Regresyon için lamda (λ) değeri, Rastgele Ağaç Regresyonu için ağaç sayısı, Destek Vektör Regresyonu için epsilon () değeri esas alınmıştır. Sonuçlar 5 ile 50 arasında değişen “k” parça çapraz geçerlilik uygulanarak performe edildiğinde makine öğrenmesi regresyon yöntemlerine ait performans sonuçlarının R2, RMSE ve MAE değerleri bakımından istatistiksel olarak anlamlı farklılıklar gösterdiği (p<0.001) tespit edilmiştir. Tahmin performanslarına ait yüzey ve çubuk grafikleri ile istatistiksel test sonuçları incelendiğinde farklı hiperparametre değerlerine göre Rastgele Ağaç Regresyonun (R2 ˃ 0.7500, RMSE ≤ 0.6000 ve MAE ≤ 0.4000) daha iyi tahmin sonuçlarına sahip olduğu belirlenmiştir. Çalışma sonuçlarının, sağlık harcamasının modellendiği araştırmalar için makine öğrenmesi regresyon yöntemleri kullanıldığında en uygun hiperparametre değerlerinin belirlenmesi konusunda katkı sağlaması beklenmektedir.
In the presence of variables that are difficult to model as a result of applications on different data sets, it is recommended to use machine learning regression methods as an alternative to the classic regression methods. Health spending is a variable that is difficult to model, and in literature machine learning has not been found in a study in which this variable is modeled by comparing the methods of regression. In this study, a multi-regression model was created in order to predict the health expenditure per person. The results of the performance of the Lasso Regression, which is achieved when the different hyperparameter values are determined, are compared with the support vector machine Regression with the random tree Regression. The study was based on the value of lamda (λ) for Lasso Regression as the hyperparameter value, the number of trees for random tree Regression, the value of epsilon () for support vector Regression. When the results are performed by the application of cross validity of the "k" piece ranging from 5 to 50, it was found that the performance results of the machine learning regression methods showed statistically significant differences in terms of R2, RMSE and MAE values (p<0.001). When the statistical test results were studied with the surface and strip graphs of the forecast performance, it was determined that random tree regression (R2
Alan : Mühendislik
Dergi Türü : Ulusal
Benzer Makaleler | Yazar | # |
---|
Makale | Yazar | # |
---|