Abstract:
Plagiarisme merupakan sebuah kegiatan menggunakan ide dan hasil karya orang lain tanpa
memberikan kredit yang benar. Plagiarisme bisa melibatkan menyalin teks kata per kata,
parafrase ide orang lain tanpa memberi sumber, atau menyajikan karya orang lain sebagai karya
sendiri. Pendeteksian plagiarisme pada umumnya memakan banyak waktu karena konteks dan
bahasa dari tulisan. Keberadaan komputer memberikan sebuah alternatif dimana pendeteksian
plagiarisme dilakukan secara otomatis oleh komputer. Proses pedeteksian plagiarisme oleh
komputer akan memerlukan sebuah pemodelan data teks untuk membantu komputer memahami
data teks.
Pada penelitian ini dibuat sebuah perangkat lunak pendeteksian kemiripan teks dengan
pemodelan metode n-gram. Metode n-gram merupakan sebuah metode pemodelan teks yang
biasa digunakan dalam Natural Language Processing. Metode ini berfungsi dengan cara memecah
sebuah kalimat menjadi n buah token yang disebut n-gram. Setelah kalimat dipecah
menjadi n-gram, pemodelan dapat dilakukan untuk membentuk dua jenis model, himpunan
dan vektor. Model dari sebuah kalimat lalu dapat dihitung kemiripannya dengan model dari
kalimat lain sehingga diketahui kemiripan antara kedua kalimat tersebut, namun metode ini
hanya menghitung kemiripan dan bukan plagiarisme. Perangkat lunak tidak dapat mengecek
plagiarisme dikarenakan oleh kelemahan metode n-gram sendiri yang tidak dapat mengatasi
parafrase dan perubahan urutan kata dalam kalimat.
Teknik pendeteksian kemiripan dilakukan melalui beberapa tahap, pertama adalah text preprocessing
dimana data teks masukan dibersihkan terlebih dahulu. Setelah data teks dibersihkan,
dilakukan pemecahan teks menjadi kalimat lalu diikuti oleh pemodelan dengan menggunakan
metode n-gram. Hasil pemodelan digunakan untuk menghitung kemiripan antara setiap pasangan
kalimat antara teks. Teknik perhitungan yang digunakan dalam uji coba adalah cosine similarity,
dice coefficient dan jaccard index. Setelah nilai kemiripan antara kalimat ditemukan, digunakan
sebuah teknik perhitungan yang dibuat di penelitian ini untuk menghitung nilai kemiripan antara
dua dokumen. Uji coba dilakukan dalam beberapa tahap untuk mengevaluasi algoritma. Data
untuk melakukan uji coba perlu dibuat secara manual untuk membentuk beberapa buah data
yang mirip tapi tidak mengalami parafrase atau perubahan urutan kata.
Data teks dibuat menjadi beberapa kelompok, masing-masing kelompok digunakan dalam
tahapan yang berbeda. Satu kelompok merupakan data kecil yang dibuat secara manual untuk
melakukan preprocessing dan pemodelan dengan n-gram. Satu kelompok lain adalah data teks
essai dengan dua buah data dummy untuk menguji teknik perhitungan kesamaan dokumen.
Kelompok terakhir adalah 5 buah data teks original dengan dibuat 8 buah imitasi berbeda untuk
masing-masing data original untuk uji coba penentuan nilai n dari n-gram dan teknik perhitungan
kemiripan antara kalimat. Hasil uji coba menunjukan bahwa nilai 6 untuk n dan jaccard index
untuk perhitungan kemiripan model kalimat memberi hasil paling baik sehingga kedua hal
ini digunakan pada perangkat lunak hasil akhir. Perangkat lunak berbasis web menerima
masukan berupa dua buah file pdf. Kedua file ini dibaca dan dibersihkan oleh algoritma sebelum
dimodelkan dengan metode n-gram. Hasil pemodelan dihitung kemiripannya dan ditampilkan
di perangkat lunak. Selain nilai kemiripan dokumen, ditampilkan juga kalimat-kalimat yang
dideteksi memiliki tingkat kemiripan yang tinggi.