Studi dan eksplorasi mempekerjakan Web Crawler Apache Nutch

Show simple item record

dc.contributor.advisor Karya, Gede
dc.contributor.author Rinda, Agina
dc.date.accessioned 2019-08-23T06:15:11Z
dc.date.available 2019-08-23T06:15:11Z
dc.date.issued 2018
dc.identifier.other skp37300
dc.identifier.uri http://hdl.handle.net/123456789/9000
dc.description 1553 - FTIS en_US
dc.description.abstract Web crawler merupakan perangkat lunak yang dapat melakukan web scanning dan indexing untuk membantu search engine dalam mengumpulkan informasi yang dibutuhkan oleh manusia dengan waktu yang singkat. Web crawler Apache Nutch merupakan salah satu web crawler yang dapat digunakan untuk melakukan penjelajahan ke banyak URL. Web crawler Apache Nutch yang menjadi objek penelitian dijalankan di atas lingkungan terdistribusi Hadoop. Hadoop merupakan framework yang dapat menyimpan jumlah data yang sangat besar, salah satunya data yang dihasilkan dari hasil crawling. Pada lingkungan Hadoop, media penyimpanan yang dapat digunakan oleh web crawler Apache Nutch sebagai media penyimpanan dan membantu dalam mengolah data yang berukuran besar adalah Not Only SQL (NoSQL) HBase. Pengembangan web crawler dapat dilakukan dengan dua cara, yaitu cara pertama dengan mengembangkan aplikasi web crawler sendiri menggunakan algoritma sesuai dengan teknik web crawling tertentu atau cara kedua dengan memanfaatkan web crawler yang bersifat open source, salah satunya web crawler Apache Nutch. Pada penelitian ini, web crawler yang digunakan adalah web crawler Apache Nutch yang dipekerjakan melalui Nutch REST API. Untuk dapat mempekerjakan web crawler Apache Nutch melalui Nutch REST API dibangun aplikasi Java sebagai REST API Client yang diberi nama Agen Crawler yang mengimplementasikan pemanggilan Nutch REST API dan juga aplikasi situs induk J2EE yang berfungsi untuk mengakses konten hasil crawling. Pengujian dilakukan dengan dua jenis pengujian, yaitu pengujian fungsional terhadap situs induk J2EE dan eksperimen performa web crawler Apache Nutch. Pengujian fungsional dilakukan terhadap situs induk J2EE untuk memastikan bahwa semua fungsi dan fitur yang ada pada situs induk berjalan dengan semestinya. Pengujian performa dilakukan pada web crawler Apache Nutch untuk mendapatkan performa web crawler Apache Nutch dalam proses crawling di atas lingkungan terdistribusi Hadoop. Pengujian performa dilakukan menggunakan empat komputer dan dilakukan secara bertahap dengan penambahan jumlah web crawler Apache Nutch dan penambahan region server. Berdasarkan hasil pengujian performa, didapatkan bahwa semakin banyak region server yang digunakan, maka semakin banyak URL yang dapat dilakukan crawl oleh web crawler Apache Nutch, dan waktu pencarian kata terhadap konten hasil crawling juga semakin cepat. Hasil dari eksperimen performa web crawler Apache Nutch tersebut dibandingkan dengan hasil eksperimen performa yang sudah dilakukan dari penelitian web crawler lainnya, yaitu terhadap penelitian incremental web crawler, focused web crawler, dan distributed web crawler. Berdasarkan analisis perbandingan terhadap hasil eksperimen crawling penelitian web crawler tersebut, didapatkan kesimpulan bahwa untuk performa focused web crawler pada 3 region server lebih baik dibandingkan web crawler lainnya. Tetapi pada saat region server ditambah menjadi 5, web crawler Apache Nutch mengungguli web crawler lainnya (jika dihitung menggunakan rumus growth). en_US
dc.language.iso Indonesia en_US
dc.publisher Program Studi Teknik Informatika Fakultas Teknologi Informasi dan Sains - UNPAR en_US
dc.subject Web crawler Apache Nutch en_US
dc.subject Hadoop en_US
dc.subject HBase en_US
dc.subject Nutch REST API en_US
dc.subject region server en_US
dc.title Studi dan eksplorasi mempekerjakan Web Crawler Apache Nutch en_US
dc.type Undergraduate Theses en_US
dc.identifier.nim/npm NPM2014730062
dc.identifier.nidn/nidk NIDN0415037501
dc.identifier.kodeprodi KODEPRODI618#Teknik Informatika


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search UNPAR-IR


Advanced Search

Browse

My Account