Abstract:
Web crawler merupakan program yang melakukan web scanning dan data indexing dengan metode
tertentu. Salah satu metode crawling yakni distributed web crawling yang memanfaatkan banyak
agen crawler dengan tujuan mempercepat proses crawling. Data hasil crawling dapat berukuran
besar, atau yang sering disebut sebagai big data, sehingga diperlukan media penyimpanan yang
dapat mengolah big data. Untuk mengatasi masalah ini, dapat digunakan Hadoop ecosystem,
seperti: HDFS dan HBase. Oleh karena itu, pada penelitian ini dikembangkan aplikasi distributed
web crawler pada lingkungan Hadoop Cluster (HBase). Penelitian juga mencakup ekperimen
untuk menjawab pertanyaan: (1) bagaimana pengaruh banyaknya crawler terhadap kecepatan
crawling; dan (2) bagaimana kecepatan pemrosesan data menggunakan Hadoop.
Untuk menyelesaikan permasalahan ini, dilakukan analisis dan perancangan arsitektur dan
algoritma distributed crawling. Setelah itu, dikembangkan aplikasi web crawler yang terdiri atas
situs induk, server crawler, dan agen crawler terdistribusi. Berikutnya, disiapkan Hadoop Cluster
(HDFS dan HBase) untuk pengujian dan pengumpulan URL seed untuk data uji. Langkah
terakhir yang dilakukan yakni melaksanakan pengujian dan eksperimen performa distributed
crawler.
Pengujian dilakukan untuk memastikan perangkat lunak telah berfungsi sebagaimana mestinya.
Pengujian ini dilakukan berdasarkan usecase dan skenario yang diperoleh dari analisis
kebutuhan perangkat lunak. Berdasarkan pengujian fungsional tersebut, didapati perangkat
lunak sudah berjalan sebagaimana mestinya. Eksperimen dilakukan untuk melihat performa
crawler; dilakukan dengan menjalankan aplikasi web crawler pada empat komputer yang tergabung
dalam cluster Hadoop; satu master dan tiga slave, dimana masing-masing komputer
menjalankan lima agen crawler. Ada dua eksperimen yang dilakukan, yakni eksperimen crawling
dan eksperimen searching. Eksperimen crawling dilakukan untuk melihat bagaimana pengaruh
banyaknya crawler dan node komputer pada cluster Hadoop yang digunakan terhadap kecepatan
crawling. Eksperimen searching dilakukan untuk melihat bagaimana pengaruh banyaknya node
komputer pada cluster Hadoop yang digunakan terhadap kecepatan pencarian.
Pada eksperimen crawling, didapatkan rata-rata kecepatan crawling bertambah sebesar 1.16
kali untuk setiap penambahan satu node dan lima agen. Pada eksperimen searching, didapatkan
rata-rata peningkatan kecepatan pencarian adalah sebesar 1.19 kali untuk setiap penambahan
satu node. Berdasarkan kedua hasil eksperimen tersebut, dapat disimpulkan bahwa semakin
banyak agen dan komputer dalam cluster Hadoop yang digunakan, maka semakin cepat pula
proses crawling. Selain itu, semakin banyak komputer dalam cluster Hadoop yang digunakan,
semakin cepat pula waktu pencarian.