Abstract:
Perkembangan teknologi mengakibatkan bertambahnya jumlah pengguna internet, hal tersebut
diiringi dengan peningkatan jumlah data teks atau dokumen. Data teks tersebut bisa berupa
ulasan, opini, dan berita yang dapat dimanfaatkan untuk berbagai kebutuhan dengan mengambil
informasi dari data teks tersebut. Salah satu cara untuk mendapatkan informasi dari data teks
dalam jumlah besar adalah dengan mengklasifikasikan teks tersebut ke dalam sentimen yang
berbeda. Kendala yang dialami dalam mengklasifikasikan teks adalah jumlah data yang sangat
besar sehingga sulit untuk diklasifikasikan secara manual. Di sini peran algoritma pembelajaran
mesin untuk mempermudah penelitian klasifikasi teks. Menurut penelitian sebelumnya dari
beberapa algoritma klasifikasi seperti Logistic Regression (LR), Pohon Keputusan, Naive Bayes,
Random Forest, dan Support Vector Machine (SVM), dimana SVM mampu memberikan kinerja
prediktif tekstual yang terbaik di antara metode lainnya. Hal tersebut dikarenakan SVM memiliki
keunggulan dalam menangani data yang tidak terstruktur dan memiliki dimensi tinggi. Pada
skripsi ini digunakan dua himpunan data, yaitu pesan Twitter mewakili data tidak terstruktur
dan ulasan Shopee mewakili data terstruktur yang masing-masing berjumlah 3000 data teks.
Dari hasil yang didapat pada penelitian ini, algoritma SVM mampu mengklasifikasikan data teks
terstruktur dan tidak terstruktur dengan cukup baik. Hal ini dapat dilihat dari nilai f1-score
yang didapat, yaitu 61% untuk data pesan Twitter dan 81,43% untuk data ulasan Shopee.
Penggunaan fungsi kernel dan jumlah data juga mempengaruhi perform SVM. Untuk kedua
himpunan data teks ini didapat fungsi kernel RBF dan Linear memiliki hasil performa yang
lebih baik dibandingkan kernel Polinomial dan performa akan semakin baik jika memperbanyak
jumlah data latih.