Perbandingan klasifikasi teks dengan pemodelan vector space model dan Latent Semantic Indexing

Show simple item record

dc.contributor.advisor Abednego, Luciana
dc.contributor.author Sterenlie
dc.date.accessioned 2023-03-28T03:11:55Z
dc.date.available 2023-03-28T03:11:55Z
dc.date.issued 2022
dc.identifier.other skp42475
dc.identifier.uri http://hdl.handle.net/123456789/14704
dc.description 1829 - FTIS en_US
dc.description.abstract Klasifikasi adalah proses menemukan model atau fungsi yang mendeskripsikan dan membedakan kategori. Dokumen perlu diklasifikasi agar tersusun secara sistematis dalam kategori yang ditentukan. Metode penting untuk memberi kategori kepada sekian banyak dokumen yang senantiasa mengalami banyak perkembangan dari waktu ke waktu yaitu klasifikasi teks. Ada banyak metode atau teknik klasifikasi untuk dokumen, masing-masing teknik klasifikasi memiliki kekurangan dan kelebihan. Penelitian ini mencari algoritma untuk melakukan klasifikasi yang paling akurat untuk dokumen teks dengan membandingkan pengelompokan dokumen-dokumen untuk menemukan metode algoritma pengklasifikasian yang paling baik. Dokumen yang digunakan adalah dataset berita, dengan banyaknya jumlah dokumen yang tersebar menimbulkan kesulitan dalam mengelompokkan dokumen tersebut berdasarkan kategorinya. Oleh karena itu penulis melakukan penelitian untuk mengklasifikasikan dokumen berita ke dalam 5 kategori (Teknologi, Kesehatan, Politik, Ekonomi dan Olahraga). Pada penelitian ini kumpulan dokumen akan dibersihkan dengan text preprocessing. Setelah dibersihkan melalui text preprocessing, dokumen akan dimodelkan dengan menggunakan Vector Space Model yang akan menjadi sebuah vektor. Vektor terdiri dari banyaknya kata dari seluruh dokumen yang ada agar terbentuk matriks document-term dan terbentuk fitur dari teks Term Frequency-Inverse Document Frequency (TF-IDF). Matriks document-term mempunyai dimensi yang cukup besar. Maka untuk mengurangi dimensi matriks vektor dan merepresentasikan dokumen ke dalam konsep akan digunakan Latent Semantic indexing dengan metode Singular Value Decomposition (SVD). Hasil dari fitur TF-IDF dan Latent Semantic Indexing nantinya akan digunakan untuk melakukan klasifikasi. Klasifikasi dokumen akan dilakukan dengan metode Naive Bayes, Support Vector Machine (SVM), dan K-Nearest Neighbor (KNN). Hasil klasifikasi dokumen dari beberapa metode tersebut akan dibandingkan dengan parameter F-Measure dan Accuracy. Eksperimen yang dilakukan yaitu membandingkan algoritma klasifikasi yang paling akurat dan mencari nilai k yang paling terbaik pada metode KNN dan SVD. Hasil pengujian pada penelitian ini menunjukkan bahwa algoritma Naive Bayes dengan fitur TF-IDF, algoritma Support Vector Machine dengan fitur TF-IDF dan algoritma Support Vector Machine dengan metode LSI dapat mengklasifikasi teks dengan tingkat keberhasilan 90% lebih. Metode LSI bekerja baik ketika digunakan pada algoritma KNN karena didapatkan penaikkan nilai F-Measure dan Accuracy. Hal ini menunjukkan bahwa algoritma TFIDF-Naive Bayes, TFIDF-SVM dan LSI-SVM dalam mengklasifikasikan dataset berita yang digunakan cukup optimal dan metode LSI sangat berpengaruh terhadap metode KNN. en_US
dc.language.iso Indonesia en_US
dc.publisher Program Studi Teknik Informatika Fakultas Teknologi Informasi dan Sains - UNPAR en_US
dc.subject Klasifikasi teks en_US
dc.subject Vector Space Model en_US
dc.subject Latent Semantic Indexing en_US
dc.subject Naive Bayes en_US
dc.subject Support Vector Machine en_US
dc.subject K-Nearest Neighbor en_US
dc.title Perbandingan klasifikasi teks dengan pemodelan vector space model dan Latent Semantic Indexing en_US
dc.type Undergraduate Theses en_US
dc.identifier.nim/npm NPM2017730014
dc.identifier.nidn/nidk NIDN0410038101
dc.identifier.kodeprodi KODEPRODI618#Teknik Informatika


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search UNPAR-IR


Advanced Search

Browse

My Account