Perbandingan klasifikasi teks dengan pemodelan vector space model dan Latent Semantic Indexing

Sterenlie

Perbandingan klasifikasi teks dengan pemodelan vector space model dan Latent Semantic Indexing

Sterenlie

URI: http://hdl.handle.net/123456789/14704

Date: 2022

Abstract:

Klasifikasi adalah proses menemukan model atau fungsi yang mendeskripsikan dan membedakan kategori. Dokumen perlu diklasifikasi agar tersusun secara sistematis dalam kategori yang ditentukan. Metode penting untuk memberi kategori kepada sekian banyak dokumen yang senantiasa mengalami banyak perkembangan dari waktu ke waktu yaitu klasifikasi teks. Ada banyak metode atau teknik klasifikasi untuk dokumen, masing-masing teknik klasifikasi memiliki kekurangan dan kelebihan. Penelitian ini mencari algoritma untuk melakukan klasifikasi yang paling akurat untuk dokumen teks dengan membandingkan pengelompokan dokumen-dokumen untuk menemukan metode algoritma pengklasifikasian yang paling baik. Dokumen yang digunakan adalah dataset berita, dengan banyaknya jumlah dokumen yang tersebar menimbulkan kesulitan dalam mengelompokkan dokumen tersebut berdasarkan kategorinya. Oleh karena itu penulis melakukan penelitian untuk mengklasifikasikan dokumen berita ke dalam 5 kategori (Teknologi, Kesehatan, Politik, Ekonomi dan Olahraga). Pada penelitian ini kumpulan dokumen akan dibersihkan dengan text preprocessing. Setelah dibersihkan melalui text preprocessing, dokumen akan dimodelkan dengan menggunakan Vector Space Model yang akan menjadi sebuah vektor. Vektor terdiri dari banyaknya kata dari seluruh dokumen yang ada agar terbentuk matriks document-term dan terbentuk fitur dari teks Term Frequency-Inverse Document Frequency (TF-IDF). Matriks document-term mempunyai dimensi yang cukup besar. Maka untuk mengurangi dimensi matriks vektor dan merepresentasikan dokumen ke dalam konsep akan digunakan Latent Semantic indexing dengan metode Singular Value Decomposition (SVD). Hasil dari fitur TF-IDF dan Latent Semantic Indexing nantinya akan digunakan untuk melakukan klasifikasi. Klasifikasi dokumen akan dilakukan dengan metode Naive Bayes, Support Vector Machine (SVM), dan K-Nearest Neighbor (KNN). Hasil klasifikasi dokumen dari beberapa metode tersebut akan dibandingkan dengan parameter F-Measure dan Accuracy. Eksperimen yang dilakukan yaitu membandingkan algoritma klasifikasi yang paling akurat dan mencari nilai k yang paling terbaik pada metode KNN dan SVD. Hasil pengujian pada penelitian ini menunjukkan bahwa algoritma Naive Bayes dengan fitur TF-IDF, algoritma Support Vector Machine dengan fitur TF-IDF dan algoritma Support Vector Machine dengan metode LSI dapat mengklasifikasi teks dengan tingkat keberhasilan 90% lebih. Metode LSI bekerja baik ketika digunakan pada algoritma KNN karena didapatkan penaikkan nilai F-Measure dan Accuracy. Hal ini menunjukkan bahwa algoritma TFIDF-Naive Bayes, TFIDF-SVM dan LSI-SVM dalam mengklasifikasikan dataset berita yang digunakan cukup optimal dan metode LSI sangat berpengaruh terhadap metode KNN.