Abstract:
Perkembangan teknologi yang pesat menyebabkan meningkatnya jumlah pesan spam yang
diterima oleh pengguna internet melalui email dan perangkat lainnya. Pesan spam, yang berisi
iklan, tautan berbahaya, dan penipuan, dapat mengganggu produktivitas dan mengancam
keamanan data pengguna. Untuk menangani masalah ini, banyak metode telah dikembangkan,
salah satunya menggunakan machine learning.
Machine learning adalah cabang dari Artificial Intelligence (AI) yang memungkinkan mesin
untuk belajar dan meningkatkan kinerjanya tanpa arahan langsung dari manusia. Teknik
machine learning terbagi menjadi supervised learning dan unsupervised learning.
Supervised learning digunakan untuk klasifikasi dan regresi berdasarkan data sudah diberi
label, sementara unsupervised learning digunakan untuk menemukan pola dalam data yang tidak
diberi label.
Berbagai algoritma machine learning seperti Naive Bayes, Decision Trees, Support Vector
Machines, dan AdaBoost Classifier telah digunakan untuk pemfilteran spam. Algoritma AdaBoost,
yang menggabungkan beberapa weak classifiers menjadi strong classifier, menunjukkan hasil
yang efektif dalam mendeteksi spam.
Dalam tugas akhir ini, dibangun perangkat lunak spam filtering berbasis desktop dengan
antarmuka atau Graphical User Interface (GUI). Aplikasi ini mampu mendeteksi email spam
atau ham (non-spam), membangun model machine learning menggunakan AdaBoost, dan
mengukur performa algoritma tersebut berdasarkan dataset Spambase dari UCI Machine Learning
Repository. Dataset dibagi menjadi 80% untuk data training dan 20% untuk data testing. Hasil
prediksi ditampilkan dalam bentuk metrik seperti accuracy, precision, recall, f1-score, dan
confusion matrix.
Hasil pengujian menunjukkan bahwa masing-masing metriks model AdaBoost mencapai:
1. accuracy = 92%
2. precision = 92%
3. recall = 88%
4. f1-score = 90%
5. confusion matrix
• True Positive (TP): mempunyai nilai sebesar 317. Jumlah pesan yang benar-benar
spam dan diklasifikasikan sebagai spam.
• True Negative (TN): mempunyai nilai sebesar 537. Jumlah pesan yang benar-benar
ham dan diklasifikasikan sebagai ham.
• False Positive (FP): mempunyai nilai sebesar 27. Jumlah pesan yang tidak spam
tetapi diklasifikasikan sebagai spam.
• False Negative (FN): mempunyai nilai sebesar 40. Jumlah pesan yang benar-benar
spam tetapi diklasifikasikan sebagai ham.
Hasil pengujian menunjukkan bahwa secara keseluruhan, metrik-metrik ini menunjukkan
bahwa model AdaBoost akurat dalam memisahkan email spam dari email ham.
Kata-kata kunci: spam filtering, adaboost, klasifikasi, machine learning