Studi dan eksplorasi mempekerjakan Web Crawler Apache Nutch

Rinda, Agina

dc.contributor.advisor	Karya, Gede
dc.contributor.author	Rinda, Agina
dc.date.accessioned	2019-08-23T06:15:11Z
dc.date.available	2019-08-23T06:15:11Z
dc.date.issued	2018
dc.identifier.other	skp37300
dc.identifier.uri	http://hdl.handle.net/123456789/9000
dc.description	1553 - FTIS	en_US
dc.description.abstract	Web crawler merupakan perangkat lunak yang dapat melakukan web scanning dan indexing untuk membantu search engine dalam mengumpulkan informasi yang dibutuhkan oleh manusia dengan waktu yang singkat. Web crawler Apache Nutch merupakan salah satu web crawler yang dapat digunakan untuk melakukan penjelajahan ke banyak URL. Web crawler Apache Nutch yang menjadi objek penelitian dijalankan di atas lingkungan terdistribusi Hadoop. Hadoop merupakan framework yang dapat menyimpan jumlah data yang sangat besar, salah satunya data yang dihasilkan dari hasil crawling. Pada lingkungan Hadoop, media penyimpanan yang dapat digunakan oleh web crawler Apache Nutch sebagai media penyimpanan dan membantu dalam mengolah data yang berukuran besar adalah Not Only SQL (NoSQL) HBase. Pengembangan web crawler dapat dilakukan dengan dua cara, yaitu cara pertama dengan mengembangkan aplikasi web crawler sendiri menggunakan algoritma sesuai dengan teknik web crawling tertentu atau cara kedua dengan memanfaatkan web crawler yang bersifat open source, salah satunya web crawler Apache Nutch. Pada penelitian ini, web crawler yang digunakan adalah web crawler Apache Nutch yang dipekerjakan melalui Nutch REST API. Untuk dapat mempekerjakan web crawler Apache Nutch melalui Nutch REST API dibangun aplikasi Java sebagai REST API Client yang diberi nama Agen Crawler yang mengimplementasikan pemanggilan Nutch REST API dan juga aplikasi situs induk J2EE yang berfungsi untuk mengakses konten hasil crawling. Pengujian dilakukan dengan dua jenis pengujian, yaitu pengujian fungsional terhadap situs induk J2EE dan eksperimen performa web crawler Apache Nutch. Pengujian fungsional dilakukan terhadap situs induk J2EE untuk memastikan bahwa semua fungsi dan fitur yang ada pada situs induk berjalan dengan semestinya. Pengujian performa dilakukan pada web crawler Apache Nutch untuk mendapatkan performa web crawler Apache Nutch dalam proses crawling di atas lingkungan terdistribusi Hadoop. Pengujian performa dilakukan menggunakan empat komputer dan dilakukan secara bertahap dengan penambahan jumlah web crawler Apache Nutch dan penambahan region server. Berdasarkan hasil pengujian performa, didapatkan bahwa semakin banyak region server yang digunakan, maka semakin banyak URL yang dapat dilakukan crawl oleh web crawler Apache Nutch, dan waktu pencarian kata terhadap konten hasil crawling juga semakin cepat. Hasil dari eksperimen performa web crawler Apache Nutch tersebut dibandingkan dengan hasil eksperimen performa yang sudah dilakukan dari penelitian web crawler lainnya, yaitu terhadap penelitian incremental web crawler, focused web crawler, dan distributed web crawler. Berdasarkan analisis perbandingan terhadap hasil eksperimen crawling penelitian web crawler tersebut, didapatkan kesimpulan bahwa untuk performa focused web crawler pada 3 region server lebih baik dibandingkan web crawler lainnya. Tetapi pada saat region server ditambah menjadi 5, web crawler Apache Nutch mengungguli web crawler lainnya (jika dihitung menggunakan rumus growth).	en_US
dc.language.iso	Indonesia	en_US
dc.publisher	Program Studi Teknik Informatika Fakultas Teknologi Informasi dan Sains - UNPAR	en_US
dc.subject	Web crawler Apache Nutch	en_US
dc.subject	Hadoop	en_US
dc.subject	HBase	en_US
dc.subject	Nutch REST API	en_US
dc.subject	region server	en_US
dc.title	Studi dan eksplorasi mempekerjakan Web Crawler Apache Nutch	en_US
dc.type	Undergraduate Theses	en_US
dc.identifier.nim/npm	NPM2014730062
dc.identifier.nidn/nidk	NIDN0415037501
dc.identifier.kodeprodi	KODEPRODI618#Teknik Informatika