Abstract:
Big data adalah istilah untuk set data yang sangat besar atau kompleks sehingga aplikasi
pengolahan data tradisional tidak memadai untuk mengolahnya. Analisis big data
bisa sangat berguna untuk berbagai bidang ,misalnya analisis trend bisnis, mencegah penyakit
,memerangi kejahatan dan sebagainya. Penelitian ini bertujuan untuk mengembangkan
perangkat lunak yang dapat melakukan analisis cluster dalam big data menggunakan
algoritma agglomerative clustering. Algoritma agglomerative yang digunakan
akan menghasilkan sebuah dendrogram, yaitu sebuah pohon yang merepresentasikan
hierarchy dari sebuah set data.
Perangkat lunak yang dikembangkan dalam makalah akan mencoba mengolah big
data dengan cara membagi data set ke beberapa partitisi . Untuk membagi data menjadi
beberapa partisi digunakan framework MapReduce. Di setiap partisi data akan diproses
secara terdistribusi, kemudian hasilnya akan dikumpulkan dan diproses lebih lanjut
untuk mendapatkan hasil akhir. Proses terdistribusi ini diharapkan dapat mengurangi
waktu komputasi perangkat lunak. Perangkat lunak ini akan dikembangkan dengan
menggunakan kerangka MapReduce dalam sistem terdistribusi Hadoop.
Perangkat lunak yang telah dibangun menerima masukan berupa satu atau lebih
file teks yang berisi data yang akan diproses dan mengeluarkan keluaran berupa file
teks yang berisi cluster - cluster. Perangkat lunak memiliki waktu komputasi yang
lebih kecil jika dibandingkan dengan perangkat lunak yang tidak terdistribusi. Dari
segi keakuratan, perangkat lunak dapat membuat cluster - cluster yang cukup akurat
dari sebuah set data.