Abstract:
Klasifikasi adalah proses menemukan model atau fungsi yang mendeskripsikan dan membedakan
kategori. Dokumen perlu diklasifikasi agar tersusun secara sistematis dalam kategori
yang ditentukan. Metode penting untuk memberi kategori kepada sekian banyak dokumen yang
senantiasa mengalami banyak perkembangan dari waktu ke waktu yaitu klasifikasi teks. Ada
banyak metode atau teknik klasifikasi untuk dokumen, masing-masing teknik klasifikasi memiliki
kekurangan dan kelebihan. Penelitian ini mencari algoritma untuk melakukan klasifikasi yang
paling akurat untuk dokumen teks dengan membandingkan pengelompokan dokumen-dokumen
untuk menemukan metode algoritma pengklasifikasian yang paling baik. Dokumen yang digunakan
adalah dataset berita, dengan banyaknya jumlah dokumen yang tersebar menimbulkan
kesulitan dalam mengelompokkan dokumen tersebut berdasarkan kategorinya. Oleh karena itu
penulis melakukan penelitian untuk mengklasifikasikan dokumen berita ke dalam 5 kategori
(Teknologi, Kesehatan, Politik, Ekonomi dan Olahraga).
Pada penelitian ini kumpulan dokumen akan dibersihkan dengan text preprocessing. Setelah
dibersihkan melalui text preprocessing, dokumen akan dimodelkan dengan menggunakan Vector
Space Model yang akan menjadi sebuah vektor. Vektor terdiri dari banyaknya kata dari seluruh
dokumen yang ada agar terbentuk matriks document-term dan terbentuk fitur dari teks Term
Frequency-Inverse Document Frequency (TF-IDF). Matriks document-term mempunyai dimensi
yang cukup besar. Maka untuk mengurangi dimensi matriks vektor dan merepresentasikan
dokumen ke dalam konsep akan digunakan Latent Semantic indexing dengan metode Singular
Value Decomposition (SVD). Hasil dari fitur TF-IDF dan Latent Semantic Indexing nantinya akan
digunakan untuk melakukan klasifikasi. Klasifikasi dokumen akan dilakukan dengan metode
Naive Bayes, Support Vector Machine (SVM), dan K-Nearest Neighbor (KNN). Hasil klasifikasi
dokumen dari beberapa metode tersebut akan dibandingkan dengan parameter F-Measure dan
Accuracy. Eksperimen yang dilakukan yaitu membandingkan algoritma klasifikasi yang paling
akurat dan mencari nilai k yang paling terbaik pada metode KNN dan SVD.
Hasil pengujian pada penelitian ini menunjukkan bahwa algoritma Naive Bayes dengan fitur
TF-IDF, algoritma Support Vector Machine dengan fitur TF-IDF dan algoritma Support Vector
Machine dengan metode LSI dapat mengklasifikasi teks dengan tingkat keberhasilan 90% lebih.
Metode LSI bekerja baik ketika digunakan pada algoritma KNN karena didapatkan penaikkan
nilai F-Measure dan Accuracy. Hal ini menunjukkan bahwa algoritma TFIDF-Naive Bayes,
TFIDF-SVM dan LSI-SVM dalam mengklasifikasikan dataset berita yang digunakan cukup
optimal dan metode LSI sangat berpengaruh terhadap metode KNN.