dc.description.abstract |
Web crawler merupakan perangkat lunak yang dapat melakukan web scanning dan indexing
untuk membantu search engine dalam mengumpulkan informasi yang dibutuhkan oleh manusia
dengan waktu yang singkat. Web crawler Apache Nutch merupakan salah satu web crawler yang
dapat digunakan untuk melakukan penjelajahan ke banyak URL. Web crawler Apache Nutch
yang menjadi objek penelitian dijalankan di atas lingkungan terdistribusi Hadoop. Hadoop
merupakan framework yang dapat menyimpan jumlah data yang sangat besar, salah satunya
data yang dihasilkan dari hasil crawling. Pada lingkungan Hadoop, media penyimpanan yang
dapat digunakan oleh web crawler Apache Nutch sebagai media penyimpanan dan membantu
dalam mengolah data yang berukuran besar adalah Not Only SQL (NoSQL) HBase.
Pengembangan web crawler dapat dilakukan dengan dua cara, yaitu cara pertama dengan
mengembangkan aplikasi web crawler sendiri menggunakan algoritma sesuai dengan teknik
web crawling tertentu atau cara kedua dengan memanfaatkan web crawler yang bersifat open
source, salah satunya web crawler Apache Nutch. Pada penelitian ini, web crawler yang
digunakan adalah web crawler Apache Nutch yang dipekerjakan melalui Nutch REST API. Untuk
dapat mempekerjakan web crawler Apache Nutch melalui Nutch REST API dibangun aplikasi
Java sebagai REST API Client yang diberi nama Agen Crawler yang mengimplementasikan
pemanggilan Nutch REST API dan juga aplikasi situs induk J2EE yang berfungsi untuk
mengakses konten hasil crawling.
Pengujian dilakukan dengan dua jenis pengujian, yaitu pengujian fungsional terhadap situs
induk J2EE dan eksperimen performa web crawler Apache Nutch. Pengujian fungsional dilakukan
terhadap situs induk J2EE untuk memastikan bahwa semua fungsi dan fitur yang ada pada situs
induk berjalan dengan semestinya. Pengujian performa dilakukan pada web crawler Apache
Nutch untuk mendapatkan performa web crawler Apache Nutch dalam proses crawling di atas
lingkungan terdistribusi Hadoop. Pengujian performa dilakukan menggunakan empat komputer
dan dilakukan secara bertahap dengan penambahan jumlah web crawler Apache Nutch dan
penambahan region server. Berdasarkan hasil pengujian performa, didapatkan bahwa semakin
banyak region server yang digunakan, maka semakin banyak URL yang dapat dilakukan crawl
oleh web crawler Apache Nutch, dan waktu pencarian kata terhadap konten hasil crawling juga
semakin cepat.
Hasil dari eksperimen performa web crawler Apache Nutch tersebut dibandingkan dengan
hasil eksperimen performa yang sudah dilakukan dari penelitian web crawler lainnya, yaitu
terhadap penelitian incremental web crawler, focused web crawler, dan distributed web crawler.
Berdasarkan analisis perbandingan terhadap hasil eksperimen crawling penelitian web crawler
tersebut, didapatkan kesimpulan bahwa untuk performa focused web crawler pada 3 region server
lebih baik dibandingkan web crawler lainnya. Tetapi pada saat region server ditambah menjadi
5, web crawler Apache Nutch mengungguli web crawler lainnya (jika dihitung menggunakan
rumus growth). |
en_US |