Abstract:
Digitalisasi membawa pengaruh besar dalam keberlangsungan hidup manusia. Cara manusia
mendapatkan informasi berubah, dari yang awalnya mengandalkan media cetak seperti koran
dan majalah, kini beralih ke media digital seperti situs web dan aplikasi. Pemrosesan teks atau
analisis data teks menjadi semakin penting, memungkinkan kita untuk mengekstrak informasi
berharga dari berbagai sumber digital. Namun, data teks perlu dimodelkan sedemikiran rupa
sehingga dapat diproses oleh komputer. Pemodelan data teks menjadi vektor dalam ruang
berdimensi, memiliki permasalahan yaitu high dimensional dan sparsity.
Beberapa teknik reduksi dimensi yang cukup umum antara lain, Principal Component Ana-
lysis (PCA), Latent Semantic Analysis (LSA) dan t-Distributed Stochastic Neighbor Embedding
(t-SNE). Namun pada penelitian ini dilakukan eksperimen implementasi reduksi dimensi dengan
teknik klasterisasi, pendekatan fuzzy clustering (soft clustering). Fuzzy clustering memungkinkan
suatu objek menjadi anggota pada lebih dari satu kelompok (klaster) dengan persentase atau
derajat keanggotaan yang berbeda pada setiap kelompoknya. Pendekatan ini dapat membantu
representasi yang lebih baik dari data teks, karena kata-kata yang terkandung dalam data
bisa serupa untuk berbagai topik. Interpretasi dimensi yang awalnya adalah kata unik dalam
kumpulan dokumen diubah menjadi derajat keanggotaan pada klaster. Sehingga membuat
dataset tidak bersifat sparse dan dimensi nya lebih kecil.
Data eksperimen yang digunakan merupakan data ulasan film, program televisi, dan video
lainnya. Data ulasan film dari platform online IMDb didapatkan dari Kaggle. Dataset ini
merupakan data yang digunakan oleh peneliti-peneliti di program studi dan penelitian kecerdasan
buatan (artificial intelligence) di Universitas Stanford, Andrew L. Maas dan kawan-kawan.
Berdasarkan eksperimen yang telah dilakukan, diperoleh bahwa reduksi dimensi dengan
pendekatan fuzzy clustering berhasil mengurangi jumlah dimensi pada data dan mengatasi
permasalahan sparsity. Selain itu dilakukan perbandingan performa model klasifikasi yang
dilatih menggunakan data yang direduksi dan tidak direduksi. Hasil eksperimen menunjukan
bahwa performa kedua model klasifikasi tidak memiliki perbedaan yang signifikan. Namun, perlu
dilakukan penelitian lebih lanjut untuk memastikan hasil yang lebih optimal.