Abstract:
Stroke adalah penyakit pembuluh darah otak yang ditandai dengan gangguan fungsi otak karena adanya kerusakan atau kematian jaringan otak akibat berkurang atau tersumbatnya aliran darah dan oksigen ke otak. Terdapat beberapa faktor yang berhubungan atau dapat menyebabkan stroke. Data BRFSS adalah salah satu sarana yang dapat digunakan untuk menganalisis dan mencari faktor-faktor yang berhubungan dengan stroke. BRFSS atau Behavioral Risk Factor Surveillance System adalah sebuah proyek yang didirikan oleh Centers for Disease Control and Prevention (CDC) pada tahun 1984. BRFSS merupakan sistem survei kesehatan utama negara yang mengumpulkan data negara bagian tentang penduduk AS mengenai perilaku dan kejadian berisiko terkait kesehatan mereka, kondisi kesehatan kronis, dan penggunaan layanan
pencegahan. Penelitian ini bertujuan untuk menganalisis data jawaban survei BRFSS tahun 2020 untuk mencari atribut-atribut yang berhubungan dengan stroke. Atribut yang berhubungan akan digunakan untuk proses klasifikasi penderita stroke. Eksplorasi data dilakukan agar data lebih mudah diolah dan membantu untuk menentukan teknik analisis yang tepat untuk mencapai tujuan. Setelah data sudah dieksplorasi, analisis dilakukan untuk mencari atribut-atribut yang
berhubungan dengan stroke. Metode yang digunakan untuk analisis adalah visualisasi menggunakan bar chart untuk melihat hubungan antara atribut stroke dengan atribut lain, dan menghitung Chi Square serta Information Gain untuk mengukur korelasi antara atribut stroke dengan atribut lain. Dari hasil analisis terdapat 21 atribut yang mempengaruhi penderita stroke yaitu kesulitan berjalan, serangan jantung, kondisi kesehatan, penyakit jantung koroner, kesulitan melakukan tugas sendirian, kesulitan berpakaian, usia, penyakit paru-paru, penyakit ginjal, kesulitan
berkonsentrasi, radang sendi, diabetes, kanker lain, kanker kulit, asma, depresi, peminum berat, status merokok, pendapatan, ras, dan kategori BMI. Atribut-atribut ini digunakan sebagai fitur untuk membuat model klasifikasi untuk memprediksi penderita stroke. Model klasifikasi yang dibangun menggunakan algoritma Decision Tree, Na ve Bayes, dan Random Forest. Model terbaik setiap algoritma dipilih dengan melihat nilai akurasi, presisi, recall, dan f1-score. Nilai yang diutamakan adalah nilai recall, karena dalam penelitian ini akan sangat besar risikonya jika model menyatakan penderita stroke sebagai orang yang sehat. Hasil penelitian menunjukkan bahwa model terbaik untuk algoritma Decision Tree menggunakan 7
atribut dengan nilai akurasi 75%, presisi 74%, recall 79%, dan f1-score 76%. Model terbaik untuk algoritma Categorical Na ve Bayes menggunakan 20 atribut dengan nilai akurasi 74%, presisi 76%, recall 69%, dan f1-score 72%. Model terbaik untuk algoritma Random Forest menggunakan 7 atribut dengan nilai akurasi 75%, presisi 73%, recall 79%, dan f1-score 76%. Model-model terbaik diimplementasikan ke dalam perangkat lunak dan diuji fungsionalitasnya untuk memprediksi penderita stroke. Pengujian dilakukan dengan menjawab pertanyaanpertanyaan yang ditampilkan oleh perangkat lunak. Dari hasil pengujian, perangkat lunak berhasil memprediksi penderita stroke dan bukan berdasarkan pertanyaan-pertanyaan yang dijawab oleh pengguna.