Reduksi big data dengan algoritma clustering agglomerative untuk sistem terdistribusi spark

Show simple item record

dc.contributor.advisor Moertini, Veronica Sri
dc.contributor.author Ariel, Matthew
dc.date.accessioned 2020-05-08T04:55:57Z
dc.date.available 2020-05-08T04:55:57Z
dc.date.issued 2019
dc.identifier.other skp39345
dc.identifier.uri http://hdl.handle.net/123456789/10843
dc.description 1666 - FTIS en_US
dc.description.abstract Big data adalah istilah yang menggambarkan kumpulan data dalam jumlah yang sangat besar, baik data yang terstruktur maupun data yang tidak terstruktur. Kumpulan data tersebut menyimpan informasi yang bisa dianalisis dan diproses untuk memberikan wawasan kepada organisasi atau perusahaan. Big data dapat mencapai petabyte dan menghabiskan banyak tempat penyimpanan. Big data perlu direduksi untuk menghemat tempat penyimpanan. Algoritma Hierarchical Agglomerative Clustering dapat digunakan untuk mereduksi data. Dengan bantuan sistem terdistribusi seperti Hadoop, proses reduksi data dapat dilakukan secara paralel dan lebih cepat. Sayangnya, teknologi Hadoop masih dapat dikatakan ’terlalu lambat’ dalam melakukan proses reduksi data karena hasil sementara dari setiap tahap akan disimpan di disk sampai dibutuhkan kembali di tahap selanjutnya. Untuk mempercepat proses reduksi data, Hadoop dapat digantikan dengan Spark. Spark adalah sistem terdistribusi, mirip seperti Hadoop. Tetapi, yang membedakan antara Hadoop dengan Spark adalah pada cara penyimpanan sementara saat melakukan proses reduksi data. Hadoop menggunakan disk sebagai tempat penyimpanan sementaranya, sedangkan Spark menggunakan memori sebagai tempat penyimpanan sementaranya. Pembacaan dan penulisan akan lebih cepat saat menggunakan memori dibandingkan dengan menggunakan disk, sehingga Spark akan lebih cepat dibandingkan dengan Hadoop. Perangkat lunak dibuat untuk mengimplementasikan algoritma Hierarchical Agglomerative Clustering dalam Spark. Pengujian juga dilakukan dengan membandingkan waktu eksekusi algoritma Hierarchical Agglomerative Clustering saat diimplementasikan pada Hadoop dan saat diimplementasikan pada Spark. Waktu eksekusi dicatat untuk ukuran data 1GB, 2GB, 3GB, 5GB, 10GB, 15GB, dan 20GB. Berdasarkan hasil pengujian, Spark memiliki waktu eksekusi yang lebih cepat dibandingkan dengan Hadoop pada jumlah partisi yang besar. Waktu eksekusi Spark menurun ketika jumlah partisi ditingkatkan, sedangkan waktu eksekusi Hadoop menurun ketika jumlah partisi ditingkatkan. Waktu eksekusi terbaik Spark masih lebih cepat dibandung waktu eksekusi terbaik Hadoop. en_US
dc.language.iso Indonesia en_US
dc.publisher Program Studi Teknik Informatika Fakultas Teknologi Informasi dan Sains - UNPAR en_US
dc.subject Big Data en_US
dc.subject Reduksi Data en_US
dc.subject Hierarchical Agglomerative Clustering en_US
dc.subject Spark en_US
dc.subject Hadoop en_US
dc.title Reduksi big data dengan algoritma clustering agglomerative untuk sistem terdistribusi spark en_US
dc.type Undergraduate Theses en_US
dc.identifier.nim/npm NPM2015730010
dc.identifier.nidn/nidk NIDN0414076203
dc.identifier.kodeprodi KODEPRODI618#Teknik Informatika


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search UNPAR-IR


Advanced Search

Browse

My Account