Abstract:
Salah satu tren analisis data saat ini adalah analisis graf dari data media sosial. Data media
sosial merupakan contoh big data yang dapat disiapkan menjadi graf dan dianalisis menggunakan
teknologi big data. Permasalahan seperti deteksi komunitas dan analisis profil komunitas, menjadi
salah satu topik yang banyak diteliti saat ini. Berbagai algoritma deteksi komunitas, seperti
Connected Component, Strongly Connected Component, dan Triangle Count telah diimplementasikan.
Namun, sebagian besar masih untuk graf tidak berarah, atau membutuhkan input jumlah
komunitas, atau banyak algoritma yang komputasinya lambat. Oleh karena itu, kurang cocok
diimplementasikan untuk big graph, yaitu big data yang mendeskripsikan relasi antar objek.
Pada penelitian sebelumnya, berhasil diciptakan solusi untuk deteksi komunitas pada directed
big graph dari data Twitter. Komunitas dapat didefinisikan sebagai sekumpulan pengguna yang
aktif berinteraksi pada periode tertentu karena membahas topik tertentu. Solusi yang diusulkan
dengan menggunakan Motif Finding, yaitu teknik pengenalan pola (pattern matching) yang
diimplementasikan pada library GraphFrames di Apache Spark. Dilakukan perbandingan deteksi
komunitas menggunakan algoritma Strongly Connected Component (SCC) dan teknik Motif
Finding. Secara waktu eksekusi, didapatkan bahwa teknik Motif Finding memperoleh hasil yang
lebih cepat dibandingkan SCC. Namun, teknik Motif Finding, perlu mendefinisikan pola-pola
komunitas (motif) yang ingin dideteksi.
Skripsi ini berfokus pada deteksi komunitas dan analisis Co-Occurrence untuk analisis profil
komunitas dari data Twitter. Co-Occurrence bermakna kemunculan suatu kejadian dalam
frekuensi yang tinggi. Contohnya, kemunculan kata “trading” dalam kumpulan teks tweet di
domain investasi. Deteksi komunitas menggunakan teknik Motif Finding, sedangkan untuk
analisis profilnya menggunakan analisis tweet yang sering dikirimkan di komunitas (co-occur).
Analisis Co-Occurrence dilakukan dengan teknik pemodelan topik.
Pengujian metode deteksi komunitas dan analisis profil komunitas dilakukan pada data tweet
dengan domain Covid berbahasa Indonesia. Berdasarkan eksperimen yang dilakukan, metode
di atas dapat mendeteksi komunitas dan menganalisis profilnya melalui kata-kata yang sering
dikirimkan. Kata tersebut dapat digunakan untuk mendeskripsikan konten yang dibicarakan pada
komunitas yang terbentuk. Namun, kekurangan dari metode di atas adalah harus mengetahui
jumlah topiknya secara pasti, jika ingin hasilnya lebih baik.