Abstract:
Model-model pembelajaran mesin tersupervisi umunya diasumsikan untuk dilatih dengan
dataset seimbang, padahal banyak permasalahan klasifikasi di dunia nyata berasal dari dataset
timpang, seperti contohnya deteksi transaksi penipuan (fraud). Dataset timpang dapat menyebabkan
model klasifikasi biner menjadi kurang sensitif terhadap kategori minoritas (fraud) –
yang tentunya tidak diharapkan terjadi pada detektor fraud. Salah satu cara untuk mengatasi
masalah tersebut adalah dengan menggunakan teknik pengambilan ulang sampel pada kategori
minoritas yang disebut SMOTE-NC (Synthetic Minority Oversampling Technique for Nominal
and Continuous) – khususnya untuk data tipe numerik dan kategorial. Eksperimen dilakukan
untuk menguji efek penggunaan SMOTE-NC dalam meningkatkan performa dan efisiensi data
training pada empat jenis model pembelajaran mesin – Regresi Logistik dan SVC (Support
Vector Classifier) Linier sebagai model linier, serta Pohon Keputusan dan Random Forest sebagai
model non-linier. Secara umum SMOTE-NC meningkatkan performa model dengan trade-off
antara precision dan recall, sehingga model mampu mendeteksi lebih banyak transaksi fraud
yang sesungguhnya, tetapi juga lebih banyak salah memprediksi transaksi non-fraud sebagai
fraud.