Abstract:
Pada saat ini, perkembangan kecerdasan buatan sangat pesat, salah satunya berupa kecerdasan buatan yang dapat menulis kembali esai yang telah ditulis. Contoh kecerdasan buatan yang dapat menulis kembali esai yang telah ditulis yaitu QuiltBot AI, ChatGPT, Bing AI, Google Bard, dan lain-lain. Teknologi tersebut dapat menipu sistem pendeteksi plagiarisme dengan mengganti suatu kata dengan arti lain dengan makna sama atau menyusun ulang kalimat. Selain itu, hasil parafrasa esai oleh kecerdasan buatan bukanlah hasil pendapat atau ide seseorang pada suatu karya ilmiah, sehingga dianggap tidak sah. Dianggap tidak sah karena mengklaim hasil karya tulis ilmiah orang lain yang diparafrasakan oleh kecerdasan buatan sebagai milik sendiri. Hasil parafrasa esai dari kecerdasan buatan tidak dapat diperiksa hanya dengan menggunakan pemeriksaan similarity yang sederhana, karena kata-kata yang digunakan oleh kecerdasan buatan dapat berbeda dengan esai yang asli. Namun, hal ini dapat ditangani dengan menggunakan word embedding dan algoritma klasifikasi. Hal tersebut disebabkan oleh kemampuan word embedding dalam mempelajari kemiripan makna antar kata. Sedangkan, algoritma klasifikasi dapat melakukan prediksi dari dokumen dengan menggunakan fitur vektor word embedding. Pada penelitian ini, dilakukan pembangunan sebuah aplikasi berbasis web yang dapat mende teksi suatu parafrasa esai dengan menggunakan teknik word embedding dan algoritma klasifikasi, serta Python Django framework. Teknik word embedding yang digunakan yaitu word2vec dan fastText. Sedangkan, algoritma klasifikasi yang digunakan yaitu Support Vector Machine dan Logistic Regression. Teknik word embedding dan algoritma klasifikasi yang digunakan pada perangkat lunak yaitu teknik dan algoritma yang dapat memberikan nilai evaluasi paling baik. Penelitian ini dimulai dengan pengumpulan data berupa karya tulis ilmiah berbahasa Inggris dengan topik Informatika dari website sciencedirect. Kemudian, karya tulis ilmiah dilakukan proses pembersihan seperti membuang bagian yang menjelaskan persamaan, tabel, dan daftar referensi. Karya tulis ilmiah yang telah dibersihkan, diparafrasa dengan menggunakan Azure Open AI dengan model GPT-3.5 Turbo untuk membuat data parafrasa dari karya tulis ilmiah. Setelah itu, model word embedding dibangun dari seluruh data karya tulis ilmiah, baik asli maupun parafrasa, yang kemudian diubah menjadi data numerik untuk melatih model klasifikasi. Lalu, dilakukan pembangunan model klasifikasi dengan menggunakan model word embedding terbaik dari setiap teknik. Diperoleh model word embedding terbaik yaitu dengan teknik word2vec, sedangkan model klasifikasi terbaik yaitu dengan teknik Logistic Regression. Kemudian, model-model terbaik tersebut diintegrasikan pada sebuah perangkat lunak berbasis web dengan menggunakan Python Django framework. Hasil pengujian menunjukkan bahwa model word2vec memiliki nilai relatedness sebesar 0.2426. Sedangkan, model Logistic Regression memiliki nilai akurasi sebesar 0.922, precision sebesar 0.923, recall sebesar 0.923, f1-score sebesar 0.923, dan AUC sebesar 0.976. Hasil dari pengujian tersebut menunjukkan bahwa model word embedding dan klasifikasi dapat memprediksi data parafrasa esai dengan tingkat kesalahan prediksi yang kecil yaitu hanya sebesar 7.8%.