Comparison of machine learning algorithms for financial evaluations
Tarih
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
Özet
Bu tez çalışmasında makine öğrenmesi teknikleri ile kurumsal franchise şube açılışı için yapılan kurumsal başvurulara yönelik kredi skorlama çalışması yapılmıştır. Özellikle risklerin fazla olduğu alanlarda finansal değerlendirme, kredi notları, iş başvuruları ya da imtiyaz onaylanması gibi başvuranların iki gruba a) iyi b) kötü olarak ayrılmasıdır. Finansal ve diğer ticari sektörler arttıkça, Başvuru sahiplerini değerlendirme yöntemlerinin önemi gün geçtikçe artmaktadır. Ortaya çıkan problem çoğunlukla bir sınıflandırma problemidir ve modellerin performansı verilerin nasıl organize edildiğine bağlıdır. Bu çalışmada ilk önce özel bir firmadan anonim olarak temin edien 20880 örnek ve 72 özellik içeren bir "Franchise Mağaza" açılış başvuru onay veri kümesi kullanılmıştır. Ancak, sonuçların karşılaştırılması amacıyla açık, 1000 örnek, 24 özellik sahip olan Alman kredi veri kümesi adı verilen ikinci bir veri kümesi daha karşılaştırmalar için de aynı algoritmaların üzerinde test edilmiştir. Kredi kabul veri kümelerinde görülen dengesiz pozitif/negatif yapı bizi veri kümelerinin dengesiz ve dengeli formları olarak iki tür veri kümesi ile algoritmaları test etmeye yönlendirmiştir. Bu tez, başarılı ve doğru bir finansal değerlendirme için kredi puanlama ve franchise onay işlemlerine odaklanmaktadır. Normal şartlarda bu operasyonlarda, birkaç özellik seçilmekte ve sınıflandırmada kullanılmaktadır. Tez kapsamında bunun için PCA ve SVD gibi iki boyutlu azaltma teknikleri incelenmiştir. Ardından, altı adet güncel NB, LR, DT, RF, MLP, SVM artı taban seviyesi olarak dummy bir sınıflayıcı olarak bilinen yenilikçi öğrenme algoritmaları, bir ağ araştırması kullanarak hiperparametre optimizasyonu araştırılmıştır. Ayrıca, modellerin veri kümelerin gerçekten iyi performans gösterdiğinden emin olmak için hassasiyet, hatırlama ve f-ölçüsü de göz önünde bulundurulmuştur. Elde edilen sonuçlar, algoritmaların Franchise onay veri setinin en iyi sonucu olan veri kümelerinde gösterdiğini ve PCA altındaki MLP ve SVM'nin sırasıyla % 99,8 ve% 99,7 ile en iyi performansı gösterdiği, verilerin dengeli değerlendirilebildiğini ortaya koymuştur. Her veri kümesinde de % 100 recall oranı ile sonuçlar elde edilmiştir. Alman kredi verilerinin en iyi sonucu, PCA kapsamında % 86.4 ile en iyi recall değeri % 73 ile Random Forest yönetmi en iyi sonucu vermiştir.
Evaluation in any form is a crucial aspect in any business, especially in finances where risks are involved. Evaluation be it in credit scoring, job application or franchise approval is the grouping of applicants in to two classes, a) good and b) bad. As the financial and other business sectors increases, a method to evaluate applicants becomes a challenging task that needs to be addresses wisely and effectively. This is mostly a classification problem and the performance of the models is highly dependent on how the data is organized. The study first used a franchise approval dataset with 20880 instances and 72 features, but with the impressing nature of the results a second dataset called the German credit Dataset with 1000 instances and 24 features was also applied for better comparisons. The unbalanced nature of our datasets triggered us to use two forms of data namely unbalanced and balanced forms of the datasets. This thesis focuses on credit scoring and franchise approval operations for a sound financial evaluation. In these operations normally, fewer features are selected and used in classification, for this, two dimensionality reduction techniques like PCA and SVD were used. Then, six (6) state of the art machine learning algorithms namely NB, LR, DT, RF, MLP, SVM plus a dummy classifier as baseline were investigated and hyperparameter optimization using grid search, since even a bit of increase in accuracy is a huge accomplishment for any business. Furthermore, precision, recall, and f-measure were also considered, to make sure the models really performed well on our datasets. Generally, results indicated that the algorithms performed well on our datasets with the best result for the Franchise approval dataset going to the balanced form of the data where MLP and SVM under PCA performed the best with 99.8% and 99.7% respectively, with a recall rate of 100% for both. The best result for the German credit data on the other hand goes to RF under PCA with 86.4% with the best recall rate of 73%.









