Studi dan implementasi R pada sistem tersebar hadoop untuk analisis big data

Tanuwijaya, Adrian Stefanus

dc.contributor.advisor	Moertini, Veronica Sri
dc.contributor.author	Tanuwijaya, Adrian Stefanus
dc.date.accessioned	2021-05-21T06:23:04Z
dc.date.available	2021-05-21T06:23:04Z
dc.date.issued	2020
dc.identifier.other	skp39878
dc.identifier.uri	http://hdl.handle.net/123456789/11509
dc.description	1707 - FTIS	en_US
dc.description.abstract	Perkembangan internet membuat pertumbuhan data setiap tahunnya semakin banyak. Data yang diperoleh semakin tidak terstruktur, banyak, dan semakin sulit diproses hanya menggunakan pemrosesan tradisional, sehingga muncul istilah big data. Big data dapat dianalisis untuk mendapatkan informasi dan pengetahuan yang berguna untuk menarik kesimpulan, dibutuhkan teknologi untuk menangani data yang jumlahnya sangat besar dan dilakukan komputasi statistik untuk menarik kesimpulan. R merupakan salah satu bahasa yang dapat digunakan untuk melakukan komputasi statistik dan Apache Hadoop digunakan untuk melakukan penyimpanan dan komputasi secara terdistribusi. RHadoop merupakan salah satu cara untuk mengintegrasikan R dan Hadoop. RHadoop merupakan projek open source yang terdiri dari 5 package untuk menganalisis data dengan Hadoop melalui R. Pada skripsi ini, akan dilakukan studi bahasa R untuk komputasi statistika dan RHadoop sebagai integrasi antara R dan Hadoop. Terdapat 2 package dari RHadoop yang akan digunakan yaitu rmr dan rhdfs. Rhdfs menyediakan konektivitas antara HDFS dengan R, sehingga pengguna dapat melakukan operasi baca, tulis, dan modifikasi data yang tersimpan pada HDFS. Rmr menyediakan konektivitas antara MapReduce dengan R, sehingga pengguna dapat melakukan analisis statistik dalam R melalui MapReduce. Pada skripsi ini, telah berhasil dibangun beberapa fungsi statistik dalam bentuk R script untuk analisis big data menggunakan RHadoop. Pada eksperimen yang telah dilakukan menggunakan cluster Hadoop. Eksperimen dilakukan dengan tujuan mengukur kinerja dan skalabilitas dari setiap fungsi yang telah dibangun terhadap data csv dengan variasi ukuran 1GB, 5GB, 10Gb, dan 20GB. Dari eksperimen yang telah dilakukan diketahui bahwa terdapat 1 fungsi yang kinerjanya tidak baik karena tidak menjamin skalabilitas yaitu fungsi kuartil, sedangkan fungsi lainnya memiliki kinerja yang baik sehingga dapat digunakan untuk analisis big data. Fungsi kuartil tidak menjamin skalabilitas karena data harus diurutkan terlebih dahulu sebelum dicari nilai kuartilnya. Pada skripsi ini juga telah berasil dilakukan analisis studi kasus menggunakan fungsi-fungsi yang telah dibangun.	en_US
dc.language.iso	Indonesia	en_US
dc.publisher	Program Studi Teknik Informatika Fakultas Teknologi Informasi dan Sains - UNPAR	en_US
dc.subject	R	en_US
dc.subject	Hadoop	en_US
dc.subject	RHadoop	en_US
dc.subject	Sistem Tersebar	en_US
dc.subject	Statistika	en_US
dc.title	Studi dan implementasi R pada sistem tersebar hadoop untuk analisis big data	en_US
dc.type	Undergraduate Theses	en_US
dc.identifier.nim/npm	NPM2015730014
dc.identifier.nidn/nidk	NIDN0414076203
dc.identifier.kodeprodi	KODEPRODI618#Teknik Informatika