Abstract:
Big data adalah istilah yang menggambarkan kumpulan data dalam jumlah yang sangat besar, baik data
yang terstruktur maupun data yang tidak terstruktur. Kumpulan data tersebut menyimpan informasi yang
bisa dianalisis dan diproses untuk memberikan wawasan kepada organisasi atau perusahaan. Big data
dapat mencapai petabyte dan menghabiskan banyak tempat penyimpanan.
Big data perlu direduksi untuk menghemat tempat penyimpanan. Algoritma Hierarchical Agglomerative
Clustering dapat digunakan untuk mereduksi data. Dengan bantuan sistem terdistribusi seperti
Hadoop, proses reduksi data dapat dilakukan secara paralel dan lebih cepat. Sayangnya, teknologi Hadoop
masih dapat dikatakan ’terlalu lambat’ dalam melakukan proses reduksi data karena hasil sementara dari
setiap tahap akan disimpan di disk sampai dibutuhkan kembali di tahap selanjutnya.
Untuk mempercepat proses reduksi data, Hadoop dapat digantikan dengan Spark. Spark adalah sistem
terdistribusi, mirip seperti Hadoop. Tetapi, yang membedakan antara Hadoop dengan Spark adalah pada
cara penyimpanan sementara saat melakukan proses reduksi data. Hadoop menggunakan disk sebagai
tempat penyimpanan sementaranya, sedangkan Spark menggunakan memori sebagai tempat penyimpanan
sementaranya. Pembacaan dan penulisan akan lebih cepat saat menggunakan memori dibandingkan
dengan menggunakan disk, sehingga Spark akan lebih cepat dibandingkan dengan Hadoop.
Perangkat lunak dibuat untuk mengimplementasikan algoritma Hierarchical Agglomerative Clustering
dalam Spark. Pengujian juga dilakukan dengan membandingkan waktu eksekusi algoritma Hierarchical
Agglomerative Clustering saat diimplementasikan pada Hadoop dan saat diimplementasikan pada
Spark. Waktu eksekusi dicatat untuk ukuran data 1GB, 2GB, 3GB, 5GB, 10GB, 15GB, dan 20GB.
Berdasarkan hasil pengujian, Spark memiliki waktu eksekusi yang lebih cepat dibandingkan dengan
Hadoop pada jumlah partisi yang besar. Waktu eksekusi Spark menurun ketika jumlah partisi ditingkatkan,
sedangkan waktu eksekusi Hadoop menurun ketika jumlah partisi ditingkatkan. Waktu eksekusi terbaik
Spark masih lebih cepat dibandung waktu eksekusi terbaik Hadoop.