Incremental web crawling pada lingkungan Hadoop

Show simple item record

dc.contributor.advisor Karya, Gede
dc.contributor.author Abianti, Melinda Nur
dc.date.accessioned 2019-02-13T02:35:17Z
dc.date.available 2019-02-13T02:35:17Z
dc.date.issued 2018
dc.identifier.other skp36633
dc.identifier.uri http://hdl.handle.net/123456789/7514
dc.description 1506 - FTIS en_US
dc.description.abstract Web crawler merupakan perangkat lunak yang melakukan web scanning dan pengindeksan Uniform Resource Locator (URL) secara periodis. Salah satu permasalahan dari web crawler tradisional adalah ketidak efektifan proses crawling dikarenakan pengubahan konten web setiap periode tidak diperhitungkan untuk menentukan periode waktu web scanning selanjutnya. Pada penelitian ini dibangun web crawler yang menerapkan salah satu teknik web crawling, yaitu incremental web crawling untuk menyelesaikan permasalahan tersebut. Perangkat incremental web crawling dibangun berdasarkan rancangan dari A.K. Sharma dan Ashutosh Dixit yang menerapkan algoritma Self Adjusting Refresh Time Calculator Module (SARTCM). Algoritma tersebut digunakan untuk menentukan periode waktu web scanning URL selanjutnya berdasarkan probabilitas pengubahan konten web URL setiap periode crawling. Informasi pengubahan konten web dan pengubahan periode waktu crawling pada setiap versi sebuah URL disimpan pada basis data NoSQL HBase yang memiliki fitur versioning untuk penyimpanan sebuah data dengan banyak versi. Untuk meningkatan kecepatan akses data, basis data HBase dibangun di atas Hadoop untuk melakukan penyimpanan terdistribusi. Terdapat dua perangkat lunak yang dibangun pada penelitian ini, yaitu perangkat lunak situs induk dan agen crawler. Situs induk dibangun menggunakan platform Java 2 Platform, Enterprise Edition (J2EE) yang memiliki fitur untuk memasukkan URL untuk di-crawl, memasukkan informasi crawler, mencari konten berdasarkan URL yang di-crawl, melihat log pencarian dan proses crawling, melihat status URL. Agen crawler digunakan untuk melakukan proses incremental web crawling. Pengujian fungsional dilakukan untuk menguji fitur pada situs induk, dapat disimpulkan bahwa situs induk berhasil dibangun dan seluruh fungsi berjalan dengan baik. Pengujian performa dilakukan untuk menguji tingkat scalability pada HBase yang diterapkan pada agen crawler dan situs induk, dapat disimpulkan dari salah satu skenario pengujian bahwa semakin banyak region server digunakan, maka baris data URL yang dihasilkan akan semakin besar. en_US
dc.language.iso Indonesia en_US
dc.publisher Program Studi Teknik Informatika Fakultas Teknologi Informasi dan Sains - UNPAR en_US
dc.subject web crawler en_US
dc.subject incremental web crawling en_US
dc.subject Hadoop en_US
dc.subject NoSQL HBase en_US
dc.subject J2EE en_US
dc.title Incremental web crawling pada lingkungan Hadoop en_US
dc.type Undergraduate Theses en_US
dc.identifier.nim/npm NPM2014730012
dc.identifier.nidn/nidk NIDN0415037501
dc.identifier.kodeprodi KODEPRODI618#Teknik Informatika


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search UNPAR-IR


Advanced Search

Browse

My Account