Abstract:
Internet saat ini telah menjadi salah satu sarana utama untuk melakukan komunikasi, pencarian
informasi, bahkan untuk melakukan transaksi jual beli barang. Hal ini menyebabkan data yang
diproses menjadi sangat banyak dan tidak beraturan. Karena banyaknya pengguna dan data
yang dioper di dalam internet maka muncullah kebutuhan untuk mengolah data yang sangat
bervariasi dalam jumlah yang sangat besar dan dengan kebutuhan akan kecepatan pemrosesan
yang tinggi menjadi pokok permasalahan yang dihadapi saat ini.
Sebuah sistem terdistribusi adalah salah satu dampak kemajuan teknologi yang dapat
mengolah big data dengan komputasi secara paralel terdistribusi. Hadoop adalah contoh
kerangka kerja yang dapat menjalankan perangkat lunak dengan sistem yang terdistribusi.
Hadoop adalah salah satu kerangka kerja yang dirancang untuk memproses dan menganalisis
data yang sangat banyak. Hadoop memiliki komponen-komponen yang dapat mengolah data
menggunakan banyak komputer dalam satu waktu secara paralel, sehingga waktu yang dieksekusi
selama pemrosesan data menjadi minimum.
Untuk dapat mengetahui dan mengambil informasi berharga yang tersembunyi dalam big
data, dibutuhkan teknik data mining/machine-learning untuk melakukan proses pembuatan
model spesifik yang nantinya bisa digunakan untuk memprediksi kemunculan data berikutnya.
Hal ini dapat berguna untuk suatu perusahaan dalam melakukan predictive analysis untuk
menaikkan nilai perusahaan tersebut.
Pada skripsi ini, telah berhasil dikembangkan sebuah perangkat lunak yang berjalan di dalam
lingkungan Hadoop berbasiskan MapReduce yang mampu melakukan pembuatan model klasifikasi
naive bayes sekaligus melakukan pengujian terhadap model tersebut menggunakan big data.
Pada eksperimen yang telah dilakukan menggunakan cluster hadoop yang ada pada laboratorium
milik FTIS (Fakultas Teknologi Informasi dan Sains), ditetapkan 2 variabel eksperimen, yaitu (1)
ukuran big data dan (2) ukuran blok. Dari hasil eksperimen yang telah dilakukan diketahui bahwa
ukuran big data yang diumpankan pada perangkat lunak sangat bergantung pada spesifikasi
perangkat keras milik cluster Hadoop, sehingga dapat mempengaruhi waktu eksekusi. Lalu,
ukuran blok pada HDFS (Hadoop Distributed File System) juga mempengaruhi waktu eksekusi
perangkat lunak yang berjalan pada sistem terdistribusi Hadoop.