Abstract:
Pencarian dan temu kembali informasi (PTKI) adalah kegiatan pencarian satu atau beberapa
dokumen dalam suatu koleksi yang besar. Sistem PTKI menerima satu kata kunci atau lebih
dari pengguna sistem yang disebut dengan query. Sistem PTKI kemudian mengembalikan
koleksi dokumen yang relevan berdasarkan query yang diterima. Sistem PTKI mengambil semua
dokumen yang relevan dengan cara membaca indeks yang telah dibuat dari koleksi dokumen.
Indeks adalah daftar setiap kata yang pernah muncul di koleksi dokumen beserta daftar dokumen
yang mengandung salah satu dari setiap kata di indeks.
Terdapat kemungkinan bahwa hasil pencarian yang dilakukan oleh pengguna kurang memuaskan.
Hasil pencarian dianggap kurang memuaskan apabila dokumen-dokumen yang diinginkan
tidak muncul di urutan awal sehingga urutan pencarian diawali dengan dokumen-dokumen yang
tidak relevan. Terdapat berbagai cara memperbaiki hasil pencarian. Salah satunya adalah
menggunakan fitur relevance feedback apabila disediakan oleh mesin pencarian. Relevance feedback
adalah fitur mesin pencarian untuk memberikan hasil pencarian baru berdasarkan umpan
balik dari pengguna. Umpan balik yang diterima adalah daftar dokumen relevan yang ditandai
oleh pengguna. Hasil pencarian baru akan menyerupai dokumen-dokumen yang telah ditandai.
Dengan relevance feedback, pengguna hanya perlu mencari dokumen yang paling mirip dengan
apa yang ingin dicari tanpa harus mengetahui query yang tepat.
Ada dua pengukuran yang digunakan untuk mengevaluasi performa sistem PTKI: precision
dan recall. Precision adalah nilai yang mengukur kemampuan mesin pencarian memberikan
pengguna dokumen-dokumen yang relevan. Recall adalah nilai yang mengukur kemampuan
mesin pencarian mengambil semua dokumen yang relevan.
Skripsi ini membuat sistem PTKI yang melakukan pencarian web dan mengaplikasikan fitur
term reweighting relevance feedback. Untuk membuat sistem PTKI ini, diperlukan perangkat
lunak untuk mengumpulkan dokumen, mengindeks dokumen yang telah dikumpulkan, dan
melakukan pencarian pada indeks. Pada skripsi ini dibuat perangkat lunak yang mengumpulkan
halaman web sekaligus mengindeksnya, perangkat lunak pencarian berbasis web, dan perangkat
lunak untuk pengujian algoritma. Perangkat lunak pengumpul halaman web dan pengindeksan
digunakan oleh pengurus mesin pencarian. Perangkat lunak mesin pencarian digunakan oleh
pengguna. Perangkat lunak pengujian digunakan oleh pembuat perangkat lunak.
Untuk membangun sistem, skripsi ini memanfaatkan sebuah library perangkat lunak mesin
pencarian open-source bernama Lucene. Lucene menyediakan alat-alat untuk membangun
mesin pencarian teks lengkap. Selain Lucene, sistem ini menggunakan library Crawler4j yang
menyediakan peralatan untuk melakukan crawling dan Apache Tomcat untuk menjalankan
halaman web yang menggunakan program Java sebagai back-end.
Pada skripsi ini, dilakukan pengujian-pengujian untuk memeriksa performa algoritma relevance
feedback, crawler, dan pengindeks. Berdasarkan pengujian yang dilakukan, ditemukan
bahwa relevance feedback dapat meningkatkan kualitas hasil pencarian lebih dari 100 persen jika
query diberi bobot yang besar. Lalu, kecepatan crawling dipengaruhi oleh kecepatan internet,
besar halaman web yang di-crawl, dan jumlah crawler yang digunakan sampai tercapai jumlah
tertentu. Terakhir, ditemukan bahwa dalam 1 detik pengindeks dapat mengindeks lebih dari
1000 dokumen.