dc.description.abstract |
Model-model pembelajaran mesin tersupervisi yang digunakan untuk melakukan klasifikasi umumnya dibentuk dengan data yang seimbang, padahal banyak masalah klasifikasi di dunia ini memiliki data yang tidak seimbang (imbalanced dataset), misalnya dalam kasus penyakit. Data yang digunakan pada eksperimen ini adalah data penyakit jantung koroner dan kanker paru-paru. Data yang tidak seimbang dapat menyebabkan model klasifikasi mengalami kesulitan dalam memprediksi kelas minoritas yang dapat menyebabkan model yang diperoleh tidak berperforma baik dalam matriks kebingungan (confusion matrix), yang terdiri dari ukuran recall, precision, accuracy, dan F1-score. Beberapa metode untuk mengatasi masalah tersebut adalah mengganti nilai ambang batas (threshold value) pada model tertentu, menggunakan teknik pengambilan ulang sampel (resampling) pada data training, dan menggunakan model berbobot (weighted model). Eksperimen dilakukan untuk melihat efek dari berbagai metode terhadap hasil klasifikasi ketika menggunakan data tidak seimbang dengan harapan dapat menyeimbangkan nilai precision dan recall. |
en_US |