Abstract:
Mencari referensi dalam menyusun sebuah makalah penelitian merupakan salah satu hal penting untuk meningkatkan kualitas dari makalah penelitian. Namun dengan adanya perkembangan teknologi yang memudahkan setiap orang dalam mengakses informasi memungkin terjadinya tindakan plagiarisme. Plagiarisme merupakan perbuatan yang secara sengaja maupun tidak sengaja untuk memperoleh nilai untuk suatu karya ilmiah dengan mengutip suatu sumber tanpa menyertakan sumbernya. Pendeteksian plagiarisme akan dilakukan pada makalah penelitian berbahasa Indonesia dan berfokus pada bidang informatika. Untuk mendeteksi tindakan plagiarisme, teknik klasterisasi dapat digunakan. Dengan klasterisasi, dokumen makalah penelitian yang memiliki pembahasan yang mirip akan dikelompokan kedalam satu kelompok yang sama. Dengan begitu ketika ada dokumen yang ingin dicek tindakan plagiarismenya, dokumen tersebut hanya perlu dibandingkan dengan klaster yang sudah terbentuk. Teknik klasterisasi yang digunakan adalah K-means dan DBSCAN. Untuk menghitung kemiripan antara suatu dokumen dengan dokumen lain akan digunakan teknik pengukuran cosine similarity dan jaccard similarity. Sebelum dokumen dokumen tersebut dikelompokan, akan dilakukan dulu tahap teks preprocessing. Pada tahap ini data yang berupa teks akan dibersihkan sehingga bebas dari bagian-bagian yang kurang penting. Kemudian teks yang sudah melalui tahap teks preprocessing akan dimodelkan menggunakan n-gram untuk membantu proses analisis selanjutnya. Setelah teks sudah dimodelkan, baru teks tersebut akan diklasterisasi. Kemudian klaster akan dievaluasi berdasarkan klaster yang terbentuk menggunakan teknik silhouette coefficient. Teknik perhitungan silhouette coefficient menghitung seberapa cocok suatu data berada pada suatu klaster. Setelah melakukan eksperimen dalam mencari teknik klasterisasi terbaik, didapatkan teknik klasterisasi menggunakan K-means dengan menggunakan pengukuran kedekatan cosine simila rity, lalu menggunakan nilai n=4 pada n-gram, dan klaster berjumlah dua merupakan teknik klasterisasi terbaik dengan nilai silhouette coefficient 0.2036. Penggunaan klastersisasi DBSCAN sebenarnya dapat menghasilkan nilai silhouette coefficient yang lebih tinggi, tetapi data yang menjadi noise sangatlah banyak sehingga data pembandingnya hanya digunakan sedikit. Setelah mendapatkan klaster terbaik, maka klaster tersebut akan menjadi sebuah model yang akan digunakan untuk menghitung tingkat plagiarisme dari dokumen lain. Kesimpulan yang dapat diambil dari penelitian ini adalah model yang dihasilkan untuk meng hitung tingkat plagiarisme suatu dokumen sudah cukup baik. Namun model mungkin dapat ditingkatkan kembali jika menggunakan data yang lebih detail dan terstruktur.