Abstract:
Salah satu cara untuk meningkatkan efektivitas dan efisiensi dalam pemrosesan data adalah
dengan melakukan clustering. Data yang akan digunakan dalam penelitian ini berupa teks.
Text clustering dilakukan untuk mengelompokkan dokumen berdasarkan kemiripan topik yang
dibahas dalam teks-teks tersebut. Teks yang memiliki kemiripan topik akan berada dalam satu
cluster.
Kumpulan dokumen akan dibersihkan dengan melakukan text pre-processing. Setelah itu kumpulan
dokumen yang sudah melalui text pre-processing akan dimodelkan dengan menggunakan
Vector Space Model sehingga terbentuk matriks document-term. Matriks document-term memiliki
dimensi yang besar. Latent Semantic Indexing (LSI) akan digunakan untuk mengurangi dimensi
vektor matriks dan merepresentasikan dokumen ke dalam konsep (bukan kata-kata). Hasil
dari LSI nantinya akan digunakan untuk melakukan clustering. Clustering dokumen akan
dilakukan dengan metode Fuzzy C-Means. Hasil clustering dokumen dengan Fuzzy C-Means
akan dibandingkan dengan hasil clustering dokumen dengan K-Means dengan parameter jarak
intercluster, jarak intracluster, dan waktu yang dibutuhkan dalam pemrosesan.
Dalam penelitian ini, akan dibuat sebuah desktop application dengan menggunakan bahasa Java.
Perangkat lunak tersebut mengimplementasikan Algoritma LSI, Fuzzy C-Means, dan K-Means.
Pengujian dibagi menjadi dua bagian, yaitu pengujian fungsionalitas untuk melihat apakah
masukan dari pengguna direspon dengan baik oleh program, dan pengujian performa untuk
mengukur bagaimana hasil dari algoritma yang diimplementasikan.
Hasil pengujian menunjukan secara performa LSI-FCM bekerja lebih baik dibanding LSI-KMeans.
Hasil text clustering dengan menggunakan algoritma LSI-FCM setiap anggotanya memiliki jarak
yang lebih dekat dengan titik pusat clusternya dibanding dengan menggunakan algoritma LSI
dan K-Means. Tetapi secara kecepatan LSI-FCM bekerja lebih lambat dibanding LSI-KMeans.