Abstract:
Perkembangan internet membuat perkembangan kebutuhan informasi yang semakin kompleks juga. Data yang diolah semakin beragam, besar dan lama untuk diakses bila menggunakan basis data tradisional sehingga diperlukan teknologi baru untuk mengatasi masalah ini. Salah satu solusi yang dapat digunakan untuk mengatasi permasalahan tersebut adalah dengan menerapkan sistem terdistribusi. Apache Hadoop merupakan salah satu sistem terdistribusi. Hadoop dikembangkan karena penyimpanan dan pengolahan data yang tradisional tidak dapat menangani perkembangan data saat ini.
Perangkat lunak yang dibangun pada sistem terdistribusi harus dapat memiliki kemampuan untuk melakukan analisis atau pengolahan data. Model pemrograman MapReduce dapat digunakan dalam sistem terdistribusi Hadoop untuk melakukan analisis data, dimana map berperan sebagai memetakan input data dan reduce melakukan operasi sumarisasi dan agregasi.
Desain pola MapReduce berperan sebagai kerangka saat pembuatan pekerjaan MapReduce. Kerangka ini membantu dalam pengimplementasian perangkat lunak analisis data dalam Hadoop. Terdapat beberapa pola yang ada yaitu, pola sumarisasi, organisasi data dan Metapattern. Pola sumarisasi berguna untuk operasi statistik, pola organisasi data berguna untuk mengubah struktur data dan pola metapattern berguna untuk optimisasi desain pola MapReduce.
Pada penelitian ini dilakukan implementasi desain pola MapReduce untuk analisis data yang bergantung terhadap tipe data, masalah yang dihadapi dan hasil akhir yang ingin dicapai. Pola satu dengan yang lain memecahkan masalah yang berbeda-beda, sehingga waktu eksekusi program MapReduce dapat berbeda-beda. Semakin banyak objek data yang digunakan berdampak pada waktu komputasi dalam mengeksekusi program akan semakin besar.