Abstract:
Film merupakan media komunikasi yang bersifat audio visual untuk menyampaikan suatu
pesan atau cerita kepada penontonnya dan dijadikan sebagai media hiburan. Film yang dibuat
ada karena kumpulan orang dibalik layar. Perusahaan film berlomba-lomba untuk membuat
film yang memperoleh keuntungan maksimum. Terdapat banyak kemungkinan faktor yang
dapat dijadikan film dapat memperoleh keuntungan maksimum. Penelitian ini adalah analisis
kesuksesan film dengan data mining untuk memperoleh faktor-faktor yang dapat memprediksi
kesuksesan sebuah film. Penelitian ini merupakan eksperimen untuk membandingkan beberapa
metode machine learning seperti regresi dalam memprediksi kesuksesan sebuah film. Penelitian
ini menggunakan bahasa pemrograman Python dan memanfaatkan beberapa library untuk
melakukan data mining.
Data mining adalah proses menemukan suatu pola dari kumpulan data yang besar. Dengan
data mining, manusia dapat menemukan sebuah informasi / pemahaman baru dari data. Kumpulan
proses data mining adalah Data cleaning untuk menghilangkan noise dan data yang tidak
konsisten. Data integration adalah proses menggabungkan data dari beberapa sumber. Data
transformation adalah mengubah bentuk data menjadi lebih mudah dan relevan untuk kebutuhan
analisis. Data Selection adalah proses memilih data yang relevan untuk kebutuhan analisis.
Data Mining adalah tahap untuk menggunakan metode Machine Learning untuk menemukan
pola dari sebuah data. Pattern Evaluation adalah tahap untuk memeriksa pola yang dihasilkan
apakah menghasilkan kebenaran.
Penelitian ini menghasilkan informasi berupa hasil visualisasi data dari dataset film yang
dianalisis. Perangkat lunak membaca dataset yang berupa data film dari tahun 2006 sampai 2016
lalu melakukan sekumpulan proses data mining seperti membersihkan data dengan menghilangkan
noise, melakukan pengumpulan data tambahan media sosial seperti Youtube, melakukan
integrasi data dengan menggabungkan dataset dengan data tambahan, melakukan pemilihan
fitur, melakukan prediksi keuntungan menggunakan fitur yang sudah dipilih sebelumnya dan
melakukan evaluasi terhadap model prediksi yang dibuat. Selain itu, perangkat lunak melakukan
clustering untuk mengelompokkan data film pada dataset berdasarkan aktor dan genre.
Berdasarkan penelitian dan hasil evaluasi data yang dilakukan, dapat disimpulkan bahwa
faktor yang dapat berpengaruh dalam kesuksesan film adalah jumlah penonton yang menyukai
film tersebut (votes), besar biaya yang dikeluarkan untuk membuat film (budget) dan jumlah
penonton trailer film pada situs Youtube. Selain itu, dapat disimpulkan bahwa selera penonton
(votes) lebih berpengaruh dalam memperoleh kesuksesan film dibanding dengan selera kritikus
(review).