Abstract:
Web crawler merupakan perangkat lunak yang melakukan web scanning dan pengindeksan
Uniform Resource Locator (URL) secara periodis. Salah satu permasalahan dari web crawler
tradisional adalah ketidak efektifan proses crawling dikarenakan pengubahan konten web setiap
periode tidak diperhitungkan untuk menentukan periode waktu web scanning selanjutnya. Pada
penelitian ini dibangun web crawler yang menerapkan salah satu teknik web crawling, yaitu
incremental web crawling untuk menyelesaikan permasalahan tersebut.
Perangkat incremental web crawling dibangun berdasarkan rancangan dari A.K. Sharma
dan Ashutosh Dixit yang menerapkan algoritma Self Adjusting Refresh Time Calculator Module
(SARTCM). Algoritma tersebut digunakan untuk menentukan periode waktu web scanning
URL selanjutnya berdasarkan probabilitas pengubahan konten web URL setiap periode crawling.
Informasi pengubahan konten web dan pengubahan periode waktu crawling pada setiap versi
sebuah URL disimpan pada basis data NoSQL HBase yang memiliki fitur versioning untuk
penyimpanan sebuah data dengan banyak versi. Untuk meningkatan kecepatan akses data, basis
data HBase dibangun di atas Hadoop untuk melakukan penyimpanan terdistribusi.
Terdapat dua perangkat lunak yang dibangun pada penelitian ini, yaitu perangkat lunak situs
induk dan agen crawler. Situs induk dibangun menggunakan platform Java 2 Platform, Enterprise
Edition (J2EE) yang memiliki fitur untuk memasukkan URL untuk di-crawl, memasukkan
informasi crawler, mencari konten berdasarkan URL yang di-crawl, melihat log pencarian
dan proses crawling, melihat status URL. Agen crawler digunakan untuk melakukan proses
incremental web crawling. Pengujian fungsional dilakukan untuk menguji fitur pada situs induk,
dapat disimpulkan bahwa situs induk berhasil dibangun dan seluruh fungsi berjalan dengan baik.
Pengujian performa dilakukan untuk menguji tingkat scalability pada HBase yang diterapkan
pada agen crawler dan situs induk, dapat disimpulkan dari salah satu skenario pengujian bahwa
semakin banyak region server digunakan, maka baris data URL yang dihasilkan akan semakin
besar.