Incremental web crawling pada lingkungan Hadoop

Abianti, Melinda Nur

Incremental web crawling pada lingkungan Hadoop

Abianti, Melinda Nur

URI: http://hdl.handle.net/123456789/7514

Date: 2018

Abstract:

Web crawler merupakan perangkat lunak yang melakukan web scanning dan pengindeksan Uniform Resource Locator (URL) secara periodis. Salah satu permasalahan dari web crawler tradisional adalah ketidak efektifan proses crawling dikarenakan pengubahan konten web setiap periode tidak diperhitungkan untuk menentukan periode waktu web scanning selanjutnya. Pada penelitian ini dibangun web crawler yang menerapkan salah satu teknik web crawling, yaitu incremental web crawling untuk menyelesaikan permasalahan tersebut. Perangkat incremental web crawling dibangun berdasarkan rancangan dari A.K. Sharma dan Ashutosh Dixit yang menerapkan algoritma Self Adjusting Refresh Time Calculator Module (SARTCM). Algoritma tersebut digunakan untuk menentukan periode waktu web scanning URL selanjutnya berdasarkan probabilitas pengubahan konten web URL setiap periode crawling. Informasi pengubahan konten web dan pengubahan periode waktu crawling pada setiap versi sebuah URL disimpan pada basis data NoSQL HBase yang memiliki fitur versioning untuk penyimpanan sebuah data dengan banyak versi. Untuk meningkatan kecepatan akses data, basis data HBase dibangun di atas Hadoop untuk melakukan penyimpanan terdistribusi. Terdapat dua perangkat lunak yang dibangun pada penelitian ini, yaitu perangkat lunak situs induk dan agen crawler. Situs induk dibangun menggunakan platform Java 2 Platform, Enterprise Edition (J2EE) yang memiliki fitur untuk memasukkan URL untuk di-crawl, memasukkan informasi crawler, mencari konten berdasarkan URL yang di-crawl, melihat log pencarian dan proses crawling, melihat status URL. Agen crawler digunakan untuk melakukan proses incremental web crawling. Pengujian fungsional dilakukan untuk menguji fitur pada situs induk, dapat disimpulkan bahwa situs induk berhasil dibangun dan seluruh fungsi berjalan dengan baik. Pengujian performa dilakukan untuk menguji tingkat scalability pada HBase yang diterapkan pada agen crawler dan situs induk, dapat disimpulkan dari salah satu skenario pengujian bahwa semakin banyak region server digunakan, maka baris data URL yang dihasilkan akan semakin besar.