Web crawling terdistribusi pada lingkungan Hadoop

Show simple item record

dc.contributor.advisor Karya, Gede
dc.contributor.author Gabriella
dc.date.accessioned 2019-02-13T02:45:57Z
dc.date.available 2019-02-13T02:45:57Z
dc.date.issued 2018
dc.identifier.other skp36632
dc.identifier.uri http://hdl.handle.net/123456789/7515
dc.description 1505 - FTIS en_US
dc.description.abstract Web crawler merupakan program yang melakukan web scanning dan data indexing dengan metode tertentu. Salah satu metode crawling yakni distributed web crawling yang memanfaatkan banyak agen crawler dengan tujuan mempercepat proses crawling. Data hasil crawling dapat berukuran besar, atau yang sering disebut sebagai big data, sehingga diperlukan media penyimpanan yang dapat mengolah big data. Untuk mengatasi masalah ini, dapat digunakan Hadoop ecosystem, seperti: HDFS dan HBase. Oleh karena itu, pada penelitian ini dikembangkan aplikasi distributed web crawler pada lingkungan Hadoop Cluster (HBase). Penelitian juga mencakup ekperimen untuk menjawab pertanyaan: (1) bagaimana pengaruh banyaknya crawler terhadap kecepatan crawling; dan (2) bagaimana kecepatan pemrosesan data menggunakan Hadoop. Untuk menyelesaikan permasalahan ini, dilakukan analisis dan perancangan arsitektur dan algoritma distributed crawling. Setelah itu, dikembangkan aplikasi web crawler yang terdiri atas situs induk, server crawler, dan agen crawler terdistribusi. Berikutnya, disiapkan Hadoop Cluster (HDFS dan HBase) untuk pengujian dan pengumpulan URL seed untuk data uji. Langkah terakhir yang dilakukan yakni melaksanakan pengujian dan eksperimen performa distributed crawler. Pengujian dilakukan untuk memastikan perangkat lunak telah berfungsi sebagaimana mestinya. Pengujian ini dilakukan berdasarkan usecase dan skenario yang diperoleh dari analisis kebutuhan perangkat lunak. Berdasarkan pengujian fungsional tersebut, didapati perangkat lunak sudah berjalan sebagaimana mestinya. Eksperimen dilakukan untuk melihat performa crawler; dilakukan dengan menjalankan aplikasi web crawler pada empat komputer yang tergabung dalam cluster Hadoop; satu master dan tiga slave, dimana masing-masing komputer menjalankan lima agen crawler. Ada dua eksperimen yang dilakukan, yakni eksperimen crawling dan eksperimen searching. Eksperimen crawling dilakukan untuk melihat bagaimana pengaruh banyaknya crawler dan node komputer pada cluster Hadoop yang digunakan terhadap kecepatan crawling. Eksperimen searching dilakukan untuk melihat bagaimana pengaruh banyaknya node komputer pada cluster Hadoop yang digunakan terhadap kecepatan pencarian. Pada eksperimen crawling, didapatkan rata-rata kecepatan crawling bertambah sebesar 1.16 kali untuk setiap penambahan satu node dan lima agen. Pada eksperimen searching, didapatkan rata-rata peningkatan kecepatan pencarian adalah sebesar 1.19 kali untuk setiap penambahan satu node. Berdasarkan kedua hasil eksperimen tersebut, dapat disimpulkan bahwa semakin banyak agen dan komputer dalam cluster Hadoop yang digunakan, maka semakin cepat pula proses crawling. Selain itu, semakin banyak komputer dalam cluster Hadoop yang digunakan, semakin cepat pula waktu pencarian. en_US
dc.language.iso Indonesia en_US
dc.publisher Program Studi Teknik Informatika Fakultas Teknologi Informasi dan Sains - UNPAR en_US
dc.subject web crawler en_US
dc.subject distributed en_US
dc.subject Hadoop en_US
dc.title Web crawling terdistribusi pada lingkungan Hadoop en_US
dc.type Undergraduate Theses en_US
dc.identifier.nim/npm NPM2014730013
dc.identifier.nidn/nidk NIDN0415037501
dc.identifier.kodeprodi KODEPRODI618#Teknik Informatika


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search UNPAR-IR


Advanced Search

Browse

My Account