Abstract:
Perkembangan internet membuat pertumbuhan data setiap tahunnya semakin banyak. Data yang
diperoleh semakin tidak terstruktur, banyak, dan semakin sulit diproses hanya menggunakan
pemrosesan tradisional, sehingga muncul istilah big data. Big data dapat dianalisis untuk
mendapatkan informasi dan pengetahuan yang berguna untuk menarik kesimpulan, dibutuhkan
teknologi untuk menangani data yang jumlahnya sangat besar dan dilakukan komputasi statistik
untuk menarik kesimpulan. R merupakan salah satu bahasa yang dapat digunakan untuk
melakukan komputasi statistik dan Apache Hadoop digunakan untuk melakukan penyimpanan
dan komputasi secara terdistribusi.
RHadoop merupakan salah satu cara untuk mengintegrasikan R dan Hadoop. RHadoop
merupakan projek open source yang terdiri dari 5 package untuk menganalisis data dengan
Hadoop melalui R. Pada skripsi ini, akan dilakukan studi bahasa R untuk komputasi statistika
dan RHadoop sebagai integrasi antara R dan Hadoop. Terdapat 2 package dari RHadoop yang
akan digunakan yaitu rmr dan rhdfs. Rhdfs menyediakan konektivitas antara HDFS dengan R,
sehingga pengguna dapat melakukan operasi baca, tulis, dan modifikasi data yang tersimpan
pada HDFS. Rmr menyediakan konektivitas antara MapReduce dengan R, sehingga pengguna
dapat melakukan analisis statistik dalam R melalui MapReduce.
Pada skripsi ini, telah berhasil dibangun beberapa fungsi statistik dalam bentuk R script
untuk analisis big data menggunakan RHadoop. Pada eksperimen yang telah dilakukan menggunakan
cluster Hadoop. Eksperimen dilakukan dengan tujuan mengukur kinerja dan skalabilitas
dari setiap fungsi yang telah dibangun terhadap data csv dengan variasi ukuran 1GB, 5GB,
10Gb, dan 20GB. Dari eksperimen yang telah dilakukan diketahui bahwa terdapat 1 fungsi yang
kinerjanya tidak baik karena tidak menjamin skalabilitas yaitu fungsi kuartil, sedangkan fungsi
lainnya memiliki kinerja yang baik sehingga dapat digunakan untuk analisis big data. Fungsi
kuartil tidak menjamin skalabilitas karena data harus diurutkan terlebih dahulu sebelum dicari
nilai kuartilnya. Pada skripsi ini juga telah berasil dilakukan analisis studi kasus menggunakan
fungsi-fungsi yang telah dibangun.