Resampling Neural Network Untuk Penanganan Class Imbalance Pada Prediksi Klaim Asuransi

Hudori Hudori

Abstract

Algoritma Neural Network memiliki kelebihan akan tingkat akurasi perhitungan yang lebih baik dari algoritma lain karena proses perhitungan dilakukan berulang-ulang sehingga membutuhkan waktu yang lebih lama dalam memproses atau men-training data. Namun algoritma ini juga sangat sensitive terhadap dataset yang memiliki class yang sangat tidak seimbang. Penanganan ketidakseimbangan kelas (class imbalance) yang terjadi pada dataset dapat diatasi dengan teknik resampling. Tulisan ini membandingkan tiga metode resampling untuk menangani ketidak-seimbangan class yang diterapkan pada algoritma Neural Network sebagai salah satu algoritma data mining untuk prediksi Claim Kecelakaan Diri Penumpang Berdasarkan Karakteristik Kendaraan Tertanggung. Metode ini dibangun dan diuji menggunakan data transaksi yang real dari sebuah perusahaan asuransi terkemuka di dunia yang meminta sebuah perusahaan crowdsourching untuk menyelenggarakan kompetisi pembangunan model prediksi Claim Kecelakaan Diri Penumpang Berdasarkan Karakteristik Kendaraan Tertanggung. Pada umumnya data transaksi, data ini juga masih memiliki sifat berdimensi tinggi, heterogen dan nilai kosong pada beberapa variable.

Keywords

Neural Network; Imbalance Class; Resampling; Claim Prediction

References

Afzal, W., & Torkar, R. (2008). Lessons from applying experimentation in software engineering prediction systems.

Akdon dan Riduwan. 2005. Rumus dan Data dalam Aplikasi Statistika, Bandung: Alfabeta

Andrea Dal Pozzolo (2011). Comparison of Data Mining Techniques for Insurance Claim Prediction. Universita degli Studi di Bologna.

Cateni, S., Colla, V., & Vannucci, M. (2014). A method for resampling imbalanced datasets in binary classification tasks for real-world problems. Neurocomputing.

Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research.

Chu-Siu Li (). Risk Clasification and Claim Prediction : An Empirical Analysis from Vehicle Damage Insurance in Taiwan.

Dubey, R., Zhou, J., Wang, Y., Thompson, P. M., & Ye, J. (2014). Analysis of sampling techniques for imbalanced data: An n=648 ADNI study. NeuroImage.

Dr. Kasmir, SE. MM. (2013). Bank dan Lembaga Keuangan lainnya, PT Raja Grafindo Persada

Freund, R. J., J, W. W., & L, M. D. (2003). Statistical Methods (Vol. 2). Academic Press.

Harsih Rianto (2015) : Resampling Logistic Regression Untuk Penanganan Ketidakseimbangan Class Pada Prediksi Cacat Software. Nusa Mandiri. Jakarta

Inna Kolyshkina and Marcel van Rooyen (2005). Text mining for insurance claim cost prediction. The Institute of Actuaries of Australia

Ganganwar, V. (2012). An overview of classification algorithms for imbalanced datasets. International Journal of Emerging Technology and Advanced Engineering.

Janez Demsar (2006). Statistical Comparisons of Classifiers over Multiple Data Sets. Journal of Machine Learning Research 7 (2006) 1–30

Larose, D. T. (2005). Discovering Knowladge In Data: An Introduction to Data Mining. Discovering Knowledge in Data: An Introduction to Data Mining.

Lijia Guo, Ph.D., ASA (2003). Applying Data Mining Techniques in Property~Casualty Insurance. University of Central Florida

Maimon and Rokach (2010). Introduction to Knowledge Discovery and Data Mining

Pelayo, L., & Dick, S. (2007). Applying novel resampling strategies to software defect prediction. Annual Conference of the North American Fuzzy Information Processing Society - NAFIPS.

Seymour Geisser (1993). Predictive Inference. Chapman & Hall, Inc

Sofia Aftab (2013). Data Mining in Insurance Claims (DMICS) Two-way mining for extreme values. 978-1-4799-0615-4/13 ©2013 IEEE

Thanathamathee, P., & Lursinsap, C. (2013). Handling imbalanced data sets with synthetic boundary data generation using bootstrap re-sampling and AdaBoost techniques. Pattern Recognition Letters.

Ripley & Venables (2012). Modern Applied Statistics with S. 4th Edition. Springer

Vercellis, C. (2011). Business Intelligence: Data Mining and Optimization for Decision Making. Methods. John Wiley & Sons.

Witten, I. H., Frank, E., & Hall, M. A. (2011). Data Mining Practical Mechine Learning Tools and Techniques Third Edition.

Wu, X., & Kumar, V. (2010). The Top Ten Algorithms in Data Mining. Taylor & Francis Group.

Yen, S. J., & Lee, Y. S. (2009). Cluster-based under-sampling approaches for imbalanced data distributions. Expert Systems with Applications, 36.

Yu, C. H. (2010). Resampling methods : Concepts, Applications, and Justification What is resampling? Types of resampling.

Zhang, H., & Wang, Z. (2011). A normal distribution-based over-sampling approach to imbalanced data classification. In Artificial Intelligence and Lecture Notes in Bioinformatics.

Article metrics

Abstract views : 413 | views : 282

Refbacks

  • There are currently no refbacks.