Reduksi big data dengan algoritma clustering agglomerative untuk sistem terdistribusi spark

Ariel, Matthew

Reduksi big data dengan algoritma clustering agglomerative untuk sistem terdistribusi spark

Ariel, Matthew

URI: http://hdl.handle.net/123456789/10843

Date: 2019

Abstract:

Big data adalah istilah yang menggambarkan kumpulan data dalam jumlah yang sangat besar, baik data yang terstruktur maupun data yang tidak terstruktur. Kumpulan data tersebut menyimpan informasi yang bisa dianalisis dan diproses untuk memberikan wawasan kepada organisasi atau perusahaan. Big data dapat mencapai petabyte dan menghabiskan banyak tempat penyimpanan. Big data perlu direduksi untuk menghemat tempat penyimpanan. Algoritma Hierarchical Agglomerative Clustering dapat digunakan untuk mereduksi data. Dengan bantuan sistem terdistribusi seperti Hadoop, proses reduksi data dapat dilakukan secara paralel dan lebih cepat. Sayangnya, teknologi Hadoop masih dapat dikatakan ’terlalu lambat’ dalam melakukan proses reduksi data karena hasil sementara dari setiap tahap akan disimpan di disk sampai dibutuhkan kembali di tahap selanjutnya. Untuk mempercepat proses reduksi data, Hadoop dapat digantikan dengan Spark. Spark adalah sistem terdistribusi, mirip seperti Hadoop. Tetapi, yang membedakan antara Hadoop dengan Spark adalah pada cara penyimpanan sementara saat melakukan proses reduksi data. Hadoop menggunakan disk sebagai tempat penyimpanan sementaranya, sedangkan Spark menggunakan memori sebagai tempat penyimpanan sementaranya. Pembacaan dan penulisan akan lebih cepat saat menggunakan memori dibandingkan dengan menggunakan disk, sehingga Spark akan lebih cepat dibandingkan dengan Hadoop. Perangkat lunak dibuat untuk mengimplementasikan algoritma Hierarchical Agglomerative Clustering dalam Spark. Pengujian juga dilakukan dengan membandingkan waktu eksekusi algoritma Hierarchical Agglomerative Clustering saat diimplementasikan pada Hadoop dan saat diimplementasikan pada Spark. Waktu eksekusi dicatat untuk ukuran data 1GB, 2GB, 3GB, 5GB, 10GB, 15GB, dan 20GB. Berdasarkan hasil pengujian, Spark memiliki waktu eksekusi yang lebih cepat dibandingkan dengan Hadoop pada jumlah partisi yang besar. Waktu eksekusi Spark menurun ketika jumlah partisi ditingkatkan, sedangkan waktu eksekusi Hadoop menurun ketika jumlah partisi ditingkatkan. Waktu eksekusi terbaik Spark masih lebih cepat dibandung waktu eksekusi terbaik Hadoop.