Klasifikasi big data dengan algoritma naive bayes pada sistem terdistribusi hadoop

Septrianto, Mohamad Fahrizal

Klasifikasi big data dengan algoritma naive bayes pada sistem terdistribusi hadoop

Septrianto, Mohamad Fahrizal

URI: http://hdl.handle.net/123456789/3971

Date: 2017

Abstract:

Internet saat ini telah menjadi salah satu sarana utama untuk melakukan komunikasi, pencarian informasi, bahkan untuk melakukan transaksi jual beli barang. Hal ini menyebabkan data yang diproses menjadi sangat banyak dan tidak beraturan. Karena banyaknya pengguna dan data yang dioper di dalam internet maka muncullah kebutuhan untuk mengolah data yang sangat bervariasi dalam jumlah yang sangat besar dan dengan kebutuhan akan kecepatan pemrosesan yang tinggi menjadi pokok permasalahan yang dihadapi saat ini. Sebuah sistem terdistribusi adalah salah satu dampak kemajuan teknologi yang dapat mengolah big data dengan komputasi secara paralel terdistribusi. Hadoop adalah contoh kerangka kerja yang dapat menjalankan perangkat lunak dengan sistem yang terdistribusi. Hadoop adalah salah satu kerangka kerja yang dirancang untuk memproses dan menganalisis data yang sangat banyak. Hadoop memiliki komponen-komponen yang dapat mengolah data menggunakan banyak komputer dalam satu waktu secara paralel, sehingga waktu yang dieksekusi selama pemrosesan data menjadi minimum. Untuk dapat mengetahui dan mengambil informasi berharga yang tersembunyi dalam big data, dibutuhkan teknik data mining/machine-learning untuk melakukan proses pembuatan model spesifik yang nantinya bisa digunakan untuk memprediksi kemunculan data berikutnya. Hal ini dapat berguna untuk suatu perusahaan dalam melakukan predictive analysis untuk menaikkan nilai perusahaan tersebut. Pada skripsi ini, telah berhasil dikembangkan sebuah perangkat lunak yang berjalan di dalam lingkungan Hadoop berbasiskan MapReduce yang mampu melakukan pembuatan model klasifikasi naive bayes sekaligus melakukan pengujian terhadap model tersebut menggunakan big data. Pada eksperimen yang telah dilakukan menggunakan cluster hadoop yang ada pada laboratorium milik FTIS (Fakultas Teknologi Informasi dan Sains), ditetapkan 2 variabel eksperimen, yaitu (1) ukuran big data dan (2) ukuran blok. Dari hasil eksperimen yang telah dilakukan diketahui bahwa ukuran big data yang diumpankan pada perangkat lunak sangat bergantung pada spesifikasi perangkat keras milik cluster Hadoop, sehingga dapat mempengaruhi waktu eksekusi. Lalu, ukuran blok pada HDFS (Hadoop Distributed File System) juga mempengaruhi waktu eksekusi perangkat lunak yang berjalan pada sistem terdistribusi Hadoop.