Abstract:
Data dalam waktu cepat dapat terkumpul dapat menjadi Big Data. Big data dapat dianalisis untuk mendapatkan informasi atau pengetahuan yang berharga. Namun, dibutuhkan komputer dengan kekuatan komputasi yang sangat tinggi untuk menganalisis data dengan ukuran yang sangat besar. Sistem terdistribusi adalah solusi dari masalah tersebut. Salah satu jenis sistem terdistribusi adalah Distributed Computing System. Distributed Computing System merupakan sistem terdistribusi yang digunakan untuk komputasi dengan kebutuhan kinerja yang tinggi. Hadoop adalah salah satu framework yang banyak dipakai saat ini. Hadoop merupakan platform yang dapat menyediakan penyimpanan dan kemampuan komputasi terdistribusi. Seiring berjalannya waktu, Framework lainnya juga mulai bermunculan. Salah satunya adalah Apache Spark.
Apache Spark adalah sebuah framework cluster computing yang dapat dimanfaatkan untuk mengolah Big Data dengan cepat. Apache Spark dapat berjalan diatas infrastruktur Hadoop untuk meningkatkan fungsionalitas. MLlib merupakan library yang mengimplementasikan teknik analisis machine learning. Teknik machine learning yang dimiliki MLlib meliputi statistic, classification, regression, collaborative filtering, clustering, dimensionality reduction, dan feature extraction. Fungsi-fungsi pada MLlib dapat dipanggil melalui API yang disediakan Spark.
Perangkat lunak demo berhasil dikembangkan pada skripsi ini. Perangkat Lunak ini memiliki tujuan untuk dapat mengolah data dengan menggunakan beberapa fungsi dari library MLlib. Perangkat lunak demo berjalan pada lingkungan cluster hadoop. Skripsi ini menjelaskan konsep dan cara kerja Spark serta menunjukan cara pemanggilan fungsi-fungsi MLlib. Selain itu, modifikasi dilakukan pada fungsi K-means MLlib agar dapat menghasilkan suatu pola bagi pengguna. Pengujian fungsional dan uji performa dilakukan untuk menguji fungsi-fungsi library MLlib. Uji performa dilakukan dengan variasi ukuran data masukkan yaitu 1gb, 3gb, dan 5gb. Berdasarkan hasil pengujian yang sudah dilakukan, dapat disimpulkan bahwa kinerja dari fungsi-fungsi MLlib sangat baik untuk komputasi pada ukuran data yang besar.