Abstract:
Pencarian dan temu kembali informasi merupakan aktivitas untuk mencari suatu informasi/
dokumen tertentu dalam suatu koleksi dokumen/koleksi informasi yang besar. Informasi
yang biasa orang-orang cari dapat berupa data seperti teks,gambar,video, dan audio. Sistem
pencarian akan menerima suatu kata kunci dari pengguna yang disebut query. Sistem nantinya
akan mengambil semua dokumen/informasi yang berkaitan dengan query dengan cara membaca
dokumen/informasi yang telah terindeks. Indeks merupakan daftar setiap kata yang muncul di
koleksi dokumen beserta daftar dokumen yang mengandung salah satu dari setiap kata di indeks.
Salah satu proses pada pengindeksan yaitu melakukan term weighting.Term weighting dilakukan
untuk menilai suatu kata bernilai pada suatu kokeksi atau dokumen atau tidak. Semakin tinggi
nilai dari bobot suatu kata berarti semakin sering digunakan pada koleksi dokumen.
Sistem pencarian banyak sekali dipakai orang untuk mencari informasi. Namun terdapat
kemungkinan bahwa hasil yang diterima oleh pengguna dari sistem pencarian kurang memuaskan.
Hasil pencarian tidak memuaskan apabila dokumen/informasi terkait dengan kata kunci tidak
pada urutan atas. Terdapat solusi untuk mengatasi permasalahan tersebut yaitu dengan
menggunakan fitur relevance feedback. Relevance feedback adalah fitur pada sistem pencarian
yang nantinya akan mengembalikan hasil yang lebih relevan dari sebelumnya. Umpan balik
yang diterima oleh sistem adalah dokumen-dokumen yang dianggap relevan oleh sistem atau
pengguna. Ada dua cara relevance feedback yang bisa diimplementasikan pada sistem pencarian
yaitu rochio feedback dan probabilistic feedback. Rochio feedback merupakan algoritma yang
ditujukan untuk memaksimalkan nilai kemiripan antara query masukkan dengan dokumen yang
relevan. Probabilistic feedback merupakan algoritma pengklasifikasian statistik dimana dapat
memprediksi probabilitas suatu query dengan koleksi dokumen.
Terdapat dua cara pengukuran performa sistem pencarian yaitu precision dan recall. Precision
merupakan hasil pembagian dari jumlah dokumen relevan yang ditemukan dengan jumlah
dokumen yang ditemukan yang menggambarkan kemampuan sistem untuk tidak memanggil
dokumen yang tidak relevan. Sedangkan recall merupakan hasil pembagian dari jumlah dokumen
relevan yang ditemukan dengan jumlah dokumen relevan yang menggambarkan kemampuan
sistem untuk mengambil dokumen yang relevan.
Telah dibuat suatu sistem pencarian dengan memanfaatkan kedua algoritma relevance feedback.
Untuk membuat sistem pencarian diperlukan fitur untuk membaca dokumen, mengindeks
dokumen-dokumen yang telah terbaca, dan melakukan pencarian pada indeks. Selain membuat
sistem pencarian, nantinya akan dibuat sistem untuk menguji performa dari sistem pencarian
tersebut. Untuk membangun kedua sistem tersebut, akan dimanfaatkan library perangkat lunak
mesin pencarian open-source bernama Lucene. Lucene akan menyediakan alat-alat yang dapat
membantu dalam pembangunan sistem mesin pencarian dan sistem pengujian performa mesin
pencarian.
Pada skripsi ini telah dilakukan pengujian untuk sistem pencarian dengan memanfaatkan
kedua algoritma relevance feedback. Berdasarkan pengujian yang dilakukan, ditemukan bahwa
cara relevance feedback yang paling terbaik ada pada rochio relevance feedback jika sistem diukur
dengan precision dan recall. Selain itu, ditemukan bahwa dalam 1 detik pengindeksan dapat
mengindeks lebih dari 1000 dokumen.