Abstract:
Permasalahan feature selection merupakan permasalahan pada pemilihan features yang dianggap paling relevan dalam melakukan prediksi suatu keluaran. Dalam feature selection dilakukan pemilihan sekumpulan features yang paling berpengaruh atau yang disebut feature subset, dimana pada konteks ini, features dianggap sebagai kata-kata penting dalam ulasan. Banyaknya jumlah kata dalam ulasan membuat pencarian solusi optimal untuk pemilihan feature subset menjadi sangat sulit dan memakan waktu lama.
Untuk menyelesaikan permasalahan feature selection pada penelitian ini, metode pendekatan yang digunakan adalah algoritma metaheuristik. Salah satu algoritma metaheuristik adalah Genetic Algorithm (GA) yang digunakan dalam penelitian ini. Algoritma ini terinspirasi dari teori evolusi yang dikemukakan oleh Charles Darwin. Proses evolusi terjadi dengan kegiatan pertukaran gen dalam kromosom, mutasi nilai gen, hingga seleksi alam dari kromosom terbaik. Nilai gen dalam kromosom berisi nilai indeks dari feature unik, dimana setiap kromosom mewakili kombinasi feature subset. Proses crossover dibantu dengan pemakaian feature importance sedangkan proses mutasi dibantu dengan penerapan sebuah ukuran yang diusulkan dalam penelitian ini, yaitu nilai proporsi kecenderungan. GA memerlukan metode untuk memeriksa keakuratan feature subset. Metode yang digunakan adalah algoritma decision tree. Pada studi kasus terhadap data dari website sociolla.com, diterapkan 24 kombinasi parameter GA dalam mendapatkan feature subset. Model prediksi menggunakan feature subset terpilih memiliki keakuratan yang lebih baik dibandingkan model serupa yang menggunakan seluruh features maupun model prediksi dengan features subset acak. Berdasarkan two-sample t-test, didapatkan kesimpulan bahwa model prediksi dengan feature subset terpilih memiliki rata-rata akurasi yang lebih tinggi secara signifikan dibandingkan model prediksi lainnya (nilai α = 0,05), dengan rata-rata kenaikan akurasi model untuk kasus “cleanser” sebesar 7,1 persen dan rata-rata kenaikan akurasi model untuk kasus “treatment” sebesar 11,1 persen.