Analisis klasifikasi teks menggunakan metode Support Vector Machine

Ramadhan, Alwy Bathia

Analisis klasifikasi teks menggunakan metode Support Vector Machine

Ramadhan, Alwy Bathia

URI: http://hdl.handle.net/123456789/16790

Date: 2022

Abstract:

Perkembangan teknologi mengakibatkan bertambahnya jumlah pengguna internet, hal tersebut diiringi dengan peningkatan jumlah data teks atau dokumen. Data teks tersebut bisa berupa ulasan, opini, dan berita yang dapat dimanfaatkan untuk berbagai kebutuhan dengan mengambil informasi dari data teks tersebut. Salah satu cara untuk mendapatkan informasi dari data teks dalam jumlah besar adalah dengan mengklasifikasikan teks tersebut ke dalam sentimen yang berbeda. Kendala yang dialami dalam mengklasifikasikan teks adalah jumlah data yang sangat besar sehingga sulit untuk diklasifikasikan secara manual. Di sini peran algoritma pembelajaran mesin untuk mempermudah penelitian klasifikasi teks. Menurut penelitian sebelumnya dari beberapa algoritma klasifikasi seperti Logistic Regression (LR), Pohon Keputusan, Naive Bayes, Random Forest, dan Support Vector Machine (SVM), dimana SVM mampu memberikan kinerja prediktif tekstual yang terbaik di antara metode lainnya. Hal tersebut dikarenakan SVM memiliki keunggulan dalam menangani data yang tidak terstruktur dan memiliki dimensi tinggi. Pada skripsi ini digunakan dua himpunan data, yaitu pesan Twitter mewakili data tidak terstruktur dan ulasan Shopee mewakili data terstruktur yang masing-masing berjumlah 3000 data teks. Dari hasil yang didapat pada penelitian ini, algoritma SVM mampu mengklasifikasikan data teks terstruktur dan tidak terstruktur dengan cukup baik. Hal ini dapat dilihat dari nilai f1-score yang didapat, yaitu 61% untuk data pesan Twitter dan 81,43% untuk data ulasan Shopee. Penggunaan fungsi kernel dan jumlah data juga mempengaruhi perform SVM. Untuk kedua himpunan data teks ini didapat fungsi kernel RBF dan Linear memiliki hasil performa yang lebih baik dibandingkan kernel Polinomial dan performa akan semakin baik jika memperbanyak jumlah data latih.