Abstract:
Data yang terkumpul di dunia saat ini memiliki berbagai macam tipe dengan setiap tipe tersebut diolah menggunakan cara yang berbeda, seperti data graf yang terdiri dari sisi dan simpul memerlukan algoritma-algoritma graf untuk mendapatkan informasi. Data graf dapat berupa data komunikasi telepon, hubungan pertemanan, atau rute transportasi yang berukuran besar. Untuk mengolah data berukuran besar tersebut dengan cepat, teknologi sistem terdistribusi seperti Hadoop dan Spark dikembangkan. Teknologi tersebut digunakan untuk membagi beban pemrosesan ke perangkat-perangkat lain. Hadoop dan Spark menggunakan sistem terdistribusi untuk mengolah data berukuran besar dengan cara pengolahan data yang berbeda.
Data graf besar dapat dianalisis dengan menggunakan library GraphX yang berupa library untuk menangani data graf. GraphX dapat digunakan untuk melakukan operasi dasar seperti membuat graf dari data yang disediakan dan menghitung banyak simpul dan sisi atau menjalankan algoritma analisis seperti page rank, connected components, shortest paths, subgraph, dan triangle count. Graf yang ditangani oleh GraphX terbentuk dari dua buah resilient distributed dataset atau RDD untuk himpunan simpul dan himpunan sisi.
Sebuah eksperimen dilakukan untuk mengukur performansi library GraphX dalam menganalisis data penerbangan dari Biro Transportasi Amerika Serikat. Eksperimen dilakukan dengan memanggil algoritma-algoritma graf yang sudah diimplementasikan pada GraphX pada set data uji dengan ukuran yang berbeda-beda. Hasil eksperimen menunjukkan bahwa waktu eksekusi untuk setiap algoritma tersebut berbeda-beda dan tergantung pada cara kerja algoritma serta ukuran data. Waktu eksekusi tersebut cenderung mengalami peningkatan seiring dengan bertambahnya ukuran data.