Focused web crawling pada lingkungan Hadoop

Show simple item record

dc.contributor.advisor Karya, Gede
dc.contributor.author Maradenia, Jovanka Helen
dc.date.accessioned 2019-02-13T01:52:43Z
dc.date.available 2019-02-13T01:52:43Z
dc.date.issued 2018
dc.identifier.other skp36635
dc.identifier.uri http://hdl.handle.net/123456789/7511
dc.description 1508 - FTIS en_US
dc.description.abstract World Wide Web merupakan sebuah wadah informasi yang sangat luas dan dapat diakses dimana saja. Penggunaan umum dari web crawler yaitu terkait search engine. Search engine menggunakan web crawler untuk mengumpulkan informasi apa saja yang ada pada halaman web publik di internet dan melihat trend pasar atas dasar pencarian kata. Ketika pengguna internet mengetik topik pencarian pada search engine, search engine dapat mengembalikan halaman web yang relevan. Focused web crawler merupakan web crawler yang memiliki tugas untuk menyimpan halaman yang relevan dengan topik pencarian. Focused web crawler menghitung nilai relevansi antara halaman web dan topik yang pengguna ingin cari. Sehingga ketika pengguna ingin mencari sebuah topik, web crawler akan mengembalikan halaman web yang relevan dengan apa yang pengguna inginkan. Jumlah halaman web yang disimpan pada saat crawling dapat berukuran sangat besar. Untuk itu diperlukan wadah penyimpanan yang besar. Hadoop merupakan sebuah framework yang menangani data yang berukuran raksasa. Komponen utama dari Hadoop yaitu Hadoop Distributed File System (HDFS), yang dapat menghubungkan beberapa komputer agar dapat saling bekerja sama dalam menyimpan dan mengolah suatu data. Sehingga jika ada salah satu komputer yang mati, data tetap terjaga karena HDFS membuat replika data pada masing-masing komputer. Hadoop sendiri memiliki HBase(Hadoop Database) yang berbasis NoSQL(Not Only SQL). Hasil crawling kemudian disimpan pada tabel penyimpanan HBase yang berjalan pada Hadoop. Tahapan crawling dimulai dengan penelusuran halaman web menggunakan algoritma pencarian Breadth-First Search (BFS). BFS dimulai dari akar (atau halaman web) dan mengunjungi node tetangga terlebih dahulu sebelum mengunjungi node tetangga pada level berikutnya. Sedangkan untuk menghitung nilai relevansi menggunakan Vector Space Model. Vector Space Model merepresentasikan halaman web dan topik sebagai vektor, yang kemudian jarak antar vektor tersebut disimpan sebagai nilai relevansi. Untuk meningkatkan nilai relevansi maka digunakan algoritma stemming untuk menghapus imbuhan kata pada bahasa Indonesia, meskipun masih banyak kata dalam bahasa Indonesia yang tidak dapat di-stemming menggunakan aturan stemming Bahasa Indonesia. Perangkat lunak yang dibangun yaitu antarmuka berupa situs induk dan agen crawler. Situs induk dibangun agar pengguna dapat memasukkan informasi url yang ingin di-crawl dan dapat memantau hasil dan status url tersebut. Sedangkan agen crawler bertugas untuk menelusuri url yang disimpan sebelumnya oleh pengguna. Pengujian fungsional perangkat lunak dilakukan untuk menguji fitur-fitur pada aplikasi situs induk dan agen crawler. Berdasarkan hasil pengujian fungsional, dapat disimpulkan bahwa aplikasi berhasil dibangun dan seluruh fungsi dapat berjalan dengan baik. Pengujian eksperimen dilakukan untuk melihat performa agen crawler pada saat dijalankan pada lingkungan terdistribusi Hadoop. Pengujian dilakukan dengan menggunakan empat komputer. Dari hasil pengujian yang didapatkan semakin banyak komputer dan agen crawler dipakai, maka crawling semakin cepat. Semakin banyak komputer yang aktif, waktu pencarian semakin kecil. en_US
dc.language.iso Indonesia en_US
dc.publisher Program Studi Teknik Informatika Fakultas Teknologi Informasi dan Sains - UNPAR en_US
dc.subject Focused Web Crawler en_US
dc.subject Breadth-First Search en_US
dc.subject Vector Space Model en_US
dc.subject Stemming en_US
dc.subject Data Besar en_US
dc.subject HBase en_US
dc.subject Hadoop en_US
dc.title Focused web crawling pada lingkungan Hadoop en_US
dc.type Undergraduate Theses en_US
dc.identifier.nim/npm NPM2014730029
dc.identifier.nidn/nidk NIDN0415037501
dc.identifier.kodeprodi KODEPRODI618#Teknik Informatika


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search UNPAR-IR


Advanced Search

Browse

My Account