Abstract:
Feature selection merupakan proses untuk memilih sejumlah fitur relevan yang
berpengaruh terhadap output yang diinginkan dari sebuah model. Di dalam kasus model
prediksi repurchase intention pada penelitian ini, ulasan pelanggan merupakan dokumen
yang direpresentasikan sebagai kumpulan kata-kata. Kata dalam konteks feature selection
merupakan sebuah fitur. Banyaknya jumlah ulasan pelanggan menyebabkan
meningkatnya jumlah kata (fitur) yang perlu diseleksi sehingga feature selection
merupakan masalah yang cukup kompleks untuk dilakukan dan diperlukan sebuah metode
pendekatan untuk membantu melakukan feature selection dalam membangun model
prediksi repurchase intention dari ulasan pelanggan.
Penelitian ini bertujuan untuk menerapkan algoritma Binary Particle Swarm
Optimization (BPSO) untuk melakukan feature selection dalam membangun sebuah model
prediksi repurchase intention dari ulasan pelanggan serta mengetahui fitur (kata) mana
yang berpengaruh di dalam model prediksi repurchase intention. Algoritma BPSO
merupakan modifikasi dari algortima Particle Swarm Optimization (PSO) yang meniru
proses mencari makanan pada kehidupan populasi burung. Algoritma k-Nearest Neighbors
(k-NN) digunakan untuk mengukur performansi model prediksi repurchase intention. Pada
penelitian ini juga dilakukan sebuah usulan untuk melakukan pengurangan kata (fitur) awal
berdasarkan frekuensi terbesar dengan menggunakan prinsip Pareto (80/20 rule) serta
mengurutkan kata (fitur) berdasarkan kecenderungan sentimen kata tersebut dengan
menggunakan metode Sentiment Orientation-Pointwise Mutual Information (SO-PMI).
Berdasarkan hasil feature selection pada dua dataset ulasan pelanggan yang
diambil dari website sociolla.com (dataset moisturizer 1 dengan 2.614 ulasan dan dataset
moisturizer 2 dengan 5.334 ulasan), algoritma BPSO mampu mengurangi dari 341 fitur
menjadi 229 fitur serta meningkatkan akurasi model prediksi dari 78,44% menjadi 81,31%
pada dataset moisturizer 1 dan mampu mengurangi dari 605 fitur menjadi 389 fitur serta
meningkatkan akurasi model prediksi dari 78,66% menjadi 79,87% pada dataset
moisturizer 2. Dengan menggunakan two-sample t-test (α = 5%), dapat ditarik kesimpulan
bahwa terjadi perbedaan rata-rata yang signifikan secara statistik terhadap peningkatan
akurasi sebelum dan setelah feature selection pada kedua dataset moisturizer.