Kombinasi Metode Sampling pada Pengklasifikasian Data Tidak Seimbang Menggunakan Algoritma SVM

Annisa Fadhillah Pulungan, Desilia Selvida

Abstract


Kelas tidak seimbang telah menjadi masalah pada pembelajaran mesin dan data mining selama beberapa tahun ini. Kelas tidak seimbang adalah kelas yang memiliki data yang tidak terdistribusi secara merata pada setiap kelasnya dimana terdapat satu kelas yang memiliki jumlah data yang lebih banyak dibanding kelas lainnya. Rasio ketidakseimbangan  ini akan menyebabkan bias dalam kumpulan data pelatihan yang akan mempengaruhi kinerja pada pembelajaran mesin. Dimana menyebabkan terjadinya kesalahan klasifikasi pada kelas minoritas sehingga kelas minoritas dinyatakan sebagai kelas mayoritas. penelitian ini mencoba untuk menggunakan metode Oversampling, Undersampling dan kombinasi Oversampling-Undersampling pada data tidak seimbang sebagai pra-pemrosesan data untuk selanjutnya dilakukan klasifikasi menggunakan algoritma Support Vector Machine (SVM). Pada penelitian ini diperoleh kesimpulan bahwa penerapan metode Oversampling, Undersampling dan kombinasi Oversampling-Undersampling memiliki kemampuan yang baik dalam menangani ketidakseimbangan kelas dataset Credit Card Fraud walaupun pada nilai AUC, Oversampling memiliki nilai yang lebih rendah dibanding metode Undersampling dan kombinasi Over-Undersampling.

 


Keywords


klasifikasi; undersampling; oversampling; confusion matrix, support vector machine

Full Text:

PDF

References


Siringoringo, R. (2018). Jurnal ISD : Klasifikasi Data tidak Seimbang Menggunakan Algoritma SMOTE dan KNN, 3(1), 44-49.

Gagah Gumelar, Norlaila2, Quratul Ain, Riza Marsuciati, Silvi Agustanti Bambang, Andi Sunyoto, & M. Syukri Mustafa. (2021). Kombinasi Algoritma Sampling dengan Algoritma Klasifikasi untuk Meningkatkan Performa Klasifikasi Dataset Imbalance. Prosiding SISFOTEK, 5(1), 250 - 255.

Rustam, Zuherman & Utami, Dea & Hidayat, Rahmat & Pandelaki, Jacub & Nugroho, Widyo. (2019). Hybrid Preprocessing Method for Support Vector Machine for Classification of Imbalanced Cerebral Infarction Datasets. International Journal on Advanced Science, Engineering and Information Technology. 9. 685.

Vuttipittayamongkol P., Elyan E., Petrovski A., Jayne C. (2018) Overlap-Based Undersampling for Improving Imbalanced Data Classification. In: Yin H., Camacho D., Novais P., Tallón-Ballesteros A. (eds) Intelligent Data Engineering and Automated Learning – IDEAL 2018. IDEAL 2018. Lecture Notes in Computer Science, vol 11314. Springer, Cham. https://doi.org/10.1007/978-3-030-03493-1_72.

Wenhao Xie, Gongqian Liang, Zhonghui Dong, Baoyu Tan, Baosheng Zhang, "An Improved Oversampling Algorithm Based on the Samples’ Selection Strategy for Classifying Imbalanced Data", Mathematical Problems in Engineering, vol. 2019, ArticleID 3526539, 13 pages, 2019. https://doi.org/10.1155/2019/3526539

Rustam, Z., Utami, D. A., Hidayat, R., Pandelaki, J., & Nugroho, W. A. (2019). Hybrid preprocessing method for support vector machine for classification of imbalanced cerebral infarction datasets. International Journal on Advanced Science Engineering Information Technology, 9(2).

Syukron, Akhmad & Subekti, Agus. (2018). Penerapan Metode Random Over-Under Sampling dan Random Forest Untuk Klasifikasi Penilaian Kredit. Jurnal Informatika. 5. 175-185. 10.31311/ji.v5i2.4158.

Fujiwara K, Huang Y, Hori K, Nishioji K, Kobayashi M, Kamaguchi M, Kano M. Over- and Under-sampling Approach for Extremely Imbalanced and Small Minority Data Problem in Health Record Analysis. Front Public Health. 2020 May 19;8:178. doi: 10.3389/fpubh.2020.00178. PMID: 32509717; PMCID: PMC7248318.

Bekkar, Mohamed & Djema, Hassiba & Alitouche, T.A.. (2013). Evaluation measures for models assessment over imbalanced data sets. Journal of Information Engineering and Applications. 3. 27-38.




DOI: https://doi.org/10.30743/infotekjar.v6i2.4920

Refbacks

  • There are currently no refbacks.


Copyright (c) 2022 Annisa Fadhillah Pulungan, Desilia Selvida

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

InfoTekJar (Jurnal Nasional Informatika dan Teknologi Jaringan)

Program Studi Teknik Informatika - Universitas Islam Sumatera Utara
Website : http://jurnal.uisu.ac.id/index.php/infotekjar/index
Email : infotekjar@ft.uisu.ac.id

InfoTekJar : Jurnal Nasional Informatika dan Teknologi Jaringan) is licensed under a Creative Commons Attribution 4.0 International License