Studi dan implementasi R pada sistem tersebar hadoop untuk analisis big data

Show simple item record

dc.contributor.advisor Moertini, Veronica Sri
dc.contributor.author Tanuwijaya, Adrian Stefanus
dc.date.accessioned 2021-05-21T06:23:04Z
dc.date.available 2021-05-21T06:23:04Z
dc.date.issued 2020
dc.identifier.other skp39878
dc.identifier.uri http://hdl.handle.net/123456789/11509
dc.description 1707 - FTIS en_US
dc.description.abstract Perkembangan internet membuat pertumbuhan data setiap tahunnya semakin banyak. Data yang diperoleh semakin tidak terstruktur, banyak, dan semakin sulit diproses hanya menggunakan pemrosesan tradisional, sehingga muncul istilah big data. Big data dapat dianalisis untuk mendapatkan informasi dan pengetahuan yang berguna untuk menarik kesimpulan, dibutuhkan teknologi untuk menangani data yang jumlahnya sangat besar dan dilakukan komputasi statistik untuk menarik kesimpulan. R merupakan salah satu bahasa yang dapat digunakan untuk melakukan komputasi statistik dan Apache Hadoop digunakan untuk melakukan penyimpanan dan komputasi secara terdistribusi. RHadoop merupakan salah satu cara untuk mengintegrasikan R dan Hadoop. RHadoop merupakan projek open source yang terdiri dari 5 package untuk menganalisis data dengan Hadoop melalui R. Pada skripsi ini, akan dilakukan studi bahasa R untuk komputasi statistika dan RHadoop sebagai integrasi antara R dan Hadoop. Terdapat 2 package dari RHadoop yang akan digunakan yaitu rmr dan rhdfs. Rhdfs menyediakan konektivitas antara HDFS dengan R, sehingga pengguna dapat melakukan operasi baca, tulis, dan modifikasi data yang tersimpan pada HDFS. Rmr menyediakan konektivitas antara MapReduce dengan R, sehingga pengguna dapat melakukan analisis statistik dalam R melalui MapReduce. Pada skripsi ini, telah berhasil dibangun beberapa fungsi statistik dalam bentuk R script untuk analisis big data menggunakan RHadoop. Pada eksperimen yang telah dilakukan menggunakan cluster Hadoop. Eksperimen dilakukan dengan tujuan mengukur kinerja dan skalabilitas dari setiap fungsi yang telah dibangun terhadap data csv dengan variasi ukuran 1GB, 5GB, 10Gb, dan 20GB. Dari eksperimen yang telah dilakukan diketahui bahwa terdapat 1 fungsi yang kinerjanya tidak baik karena tidak menjamin skalabilitas yaitu fungsi kuartil, sedangkan fungsi lainnya memiliki kinerja yang baik sehingga dapat digunakan untuk analisis big data. Fungsi kuartil tidak menjamin skalabilitas karena data harus diurutkan terlebih dahulu sebelum dicari nilai kuartilnya. Pada skripsi ini juga telah berasil dilakukan analisis studi kasus menggunakan fungsi-fungsi yang telah dibangun. en_US
dc.language.iso Indonesia en_US
dc.publisher Program Studi Teknik Informatika Fakultas Teknologi Informasi dan Sains - UNPAR en_US
dc.subject R en_US
dc.subject Hadoop en_US
dc.subject RHadoop en_US
dc.subject Sistem Tersebar en_US
dc.subject Statistika en_US
dc.title Studi dan implementasi R pada sistem tersebar hadoop untuk analisis big data en_US
dc.type Undergraduate Theses en_US
dc.identifier.nim/npm NPM2015730014
dc.identifier.nidn/nidk NIDN0414076203
dc.identifier.kodeprodi KODEPRODI618#Teknik Informatika


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search UNPAR-IR


Advanced Search

Browse

My Account