Web crawling terdistribusi pada lingkungan Hadoop

Gabriella

dc.contributor.advisor	Karya, Gede
dc.contributor.author	Gabriella
dc.date.accessioned	2019-02-13T02:45:57Z
dc.date.available	2019-02-13T02:45:57Z
dc.date.issued	2018
dc.identifier.other	skp36632
dc.identifier.uri	http://hdl.handle.net/123456789/7515
dc.description	1505 - FTIS	en_US
dc.description.abstract	Web crawler merupakan program yang melakukan web scanning dan data indexing dengan metode tertentu. Salah satu metode crawling yakni distributed web crawling yang memanfaatkan banyak agen crawler dengan tujuan mempercepat proses crawling. Data hasil crawling dapat berukuran besar, atau yang sering disebut sebagai big data, sehingga diperlukan media penyimpanan yang dapat mengolah big data. Untuk mengatasi masalah ini, dapat digunakan Hadoop ecosystem, seperti: HDFS dan HBase. Oleh karena itu, pada penelitian ini dikembangkan aplikasi distributed web crawler pada lingkungan Hadoop Cluster (HBase). Penelitian juga mencakup ekperimen untuk menjawab pertanyaan: (1) bagaimana pengaruh banyaknya crawler terhadap kecepatan crawling; dan (2) bagaimana kecepatan pemrosesan data menggunakan Hadoop. Untuk menyelesaikan permasalahan ini, dilakukan analisis dan perancangan arsitektur dan algoritma distributed crawling. Setelah itu, dikembangkan aplikasi web crawler yang terdiri atas situs induk, server crawler, dan agen crawler terdistribusi. Berikutnya, disiapkan Hadoop Cluster (HDFS dan HBase) untuk pengujian dan pengumpulan URL seed untuk data uji. Langkah terakhir yang dilakukan yakni melaksanakan pengujian dan eksperimen performa distributed crawler. Pengujian dilakukan untuk memastikan perangkat lunak telah berfungsi sebagaimana mestinya. Pengujian ini dilakukan berdasarkan usecase dan skenario yang diperoleh dari analisis kebutuhan perangkat lunak. Berdasarkan pengujian fungsional tersebut, didapati perangkat lunak sudah berjalan sebagaimana mestinya. Eksperimen dilakukan untuk melihat performa crawler; dilakukan dengan menjalankan aplikasi web crawler pada empat komputer yang tergabung dalam cluster Hadoop; satu master dan tiga slave, dimana masing-masing komputer menjalankan lima agen crawler. Ada dua eksperimen yang dilakukan, yakni eksperimen crawling dan eksperimen searching. Eksperimen crawling dilakukan untuk melihat bagaimana pengaruh banyaknya crawler dan node komputer pada cluster Hadoop yang digunakan terhadap kecepatan crawling. Eksperimen searching dilakukan untuk melihat bagaimana pengaruh banyaknya node komputer pada cluster Hadoop yang digunakan terhadap kecepatan pencarian. Pada eksperimen crawling, didapatkan rata-rata kecepatan crawling bertambah sebesar 1.16 kali untuk setiap penambahan satu node dan lima agen. Pada eksperimen searching, didapatkan rata-rata peningkatan kecepatan pencarian adalah sebesar 1.19 kali untuk setiap penambahan satu node. Berdasarkan kedua hasil eksperimen tersebut, dapat disimpulkan bahwa semakin banyak agen dan komputer dalam cluster Hadoop yang digunakan, maka semakin cepat pula proses crawling. Selain itu, semakin banyak komputer dalam cluster Hadoop yang digunakan, semakin cepat pula waktu pencarian.	en_US
dc.language.iso	Indonesia	en_US
dc.publisher	Program Studi Teknik Informatika Fakultas Teknologi Informasi dan Sains - UNPAR	en_US
dc.subject	web crawler	en_US
dc.subject	distributed	en_US
dc.subject	Hadoop	en_US
dc.title	Web crawling terdistribusi pada lingkungan Hadoop	en_US
dc.type	Undergraduate Theses	en_US
dc.identifier.nim/npm	NPM2014730013
dc.identifier.nidn/nidk	NIDN0415037501
dc.identifier.kodeprodi	KODEPRODI618#Teknik Informatika