Abstract:
Film merupakan salah satu sarana hiburan yang dapat dinikmati oleh setiap orang dari
berbagai kalangan, usia maupun jenis kelamin, tak hanya menjadi sarana hiburan terkadang
film dapat dijadikan sebagai sarana komunikasi untuk menyalurkan perasaan atau pikiran yang
tersirat, maka dari itu film kerap disebut sebagai salah satu media massa. Terdapat beberapa
faktor yang membuat seseorang memutuskan untuk menonton film tertentu salah satunya
yaitu review atau ulasan mengenai film tertentu, beberapa website dapat digunakan untuk
membagikan ulasan mengenai film tertentu seperti IMDB, flixster dan rotten tomatoes. Situs
rotten tomatoes bekerja dengan mengumpulkan semua ulasan dari berbagai kritikus, kemudian
ulasan tersebut akan ditampilkan dalam bentuk persentase, persentase dalam website rotten
tomatoes ditunjukkan sebagai proporsi kritukus yang memberikan penilaian positif terhadap
suatu film. Terdapat pola yang membuat persentase tersebut semakin meninggi seperti ulasan
yang diberikan dengan memiliki sentimen yang positif. Melalui analisis ini, diharapkan para
seniman dapat meningkatkan kualitas film dari ulasan yang buruk dan mempertahankan kualitas
film dari ulasan yang baik.
Pada penelitian ini, dilakukan beberapa hal yaitu analisis untuk melihat pola review, dan
membuat model klasifikasi untuk nantinya dapat mengklasifikasi sentimen positif dan negatif, pola
yang dihasilkan berupa kata-kata kunci untuk masing-masing sentimen. Dalam penelitian ini pun
memanfaatkan proses web scraping untuk pengumpulan data dan text mining untuk pemrosesan
data. Untuk melihat review sentimen positif dan negatif dengan melihat berdasarkan nilai
yang dilakukan feature extraction dengan menggunakan vector space model yang menggunakan
bobot TF-IDF, dengan melihat nilai IDF yang tinggi. Selanjutnya, untuk menampilkan hasil
dari kata-kata yang berhubungan untuk sentimen positif maupun negatif dilakukan visualisasi
data dengan menggunakan barchart dan wordcloud. Setelah dilakukan proses feature extraction
dengan mengubah data teks menjadi data numerik menggunakan TF-IDF, dilakukan pembuatan
model menggunakan tiga model klasifikasi yaitu decision tree, logistic regression dan random
forest. Untuk mengukur seberapa baik model yang telah yang telah dibuat, digunakan metode
K-Fold Cross Validation untuk mengevaluasi kinerja model, serta menggunakan metrik evaluasi
seperti accruacy, recall, precision, f1-Score dan specifity.
Dengan menggunakan tiga percobaan model tersebut didapatkan model klasifikasi dengan
logistic regression memperoleh hasil nilai rata-rata pada evaluasi model, pada metode K-Fold
Cross Validation dengan K sebanyak 5 maka model berhasil mengklasifikasi data dengan benar
sebanyak 69% pada akurasi. Presisi dan recall masing-masing sebesar 58%. Nilai F1-Score juga
mencapai 58%, mencerminkan keseimbangan yang kurang baik untuk mengukur prediksi positif
yang benar-benar positif yang disebut presisi dan model dapat mengindikasi dari total kelas
positif yang sebenarnya yang disebut recall, walaupun hasil kurang baik namun dari percobaan
yang telah dilakukan percobaan ini yang paling baik, dan spesifisitas dimana model cukup efektif
dalam mengidentifikasi kelas negatif dengan benar yaitu sebesar 75%, model klasifikasi dibangun
menggunakan data preprocessing secara unigram. Pada penelitian ini pun dibangun perangkat
lunak untuk menampilkan hasil analisis yang telah dilakukan, dan pengguna dapat memasukkan
input teks review sehingga program dapat mengeluarkan hasil sentimennya.