Abstract:
Kesehatan merupakan aspek vital yang perlu diperhatikan oleh setiap individu. Berbagai
faktor, seperti pola makan buruk, gaya hidup tidak sehat, dan kondisi mental yang tidak stabil
dapat berkontribusi terhadap memburuknya kesehatan manusia dan berujung pada penyakit
jantung. Penyakit jantung dapat dicegah berdasarkan gejala yang timbul dari pasien dan
didiagnosis oleh dokter, tetapi diagnosis dokter membutuhkan pasiennya untuk mengeluarkan
biaya, dan biaya tersebut terkadang tidaklah sedikit. Dalam upaya mengurangi biaya yang perlu
dikeluarkan pada saat konsultasi dokter, analisis dapat dilakukan menggunakan perangkat lunak
berbasis web yang memanfaatkan data medis untuk memprediksi kemungkinan seseorang terkena
penyakit jantung. Metode data mining dapat digunakan untuk membantu mengidentifikasi
pola-pola kompleks dalam data medis, prediksi penyakit jantung dan memberikan informasi
yang berguna untuk ditampilkan pada halaman aplikasi prediksi penyakit jantung.
Dilakukan eksplorasi dari data medis tersebut untuk dilakukan pemilihan fitur yang berguna
dalam menentukan apakah seseorang memiliki penyakit jantung atau tidak. Pemilihan fitur
tersebut dilakukan dengan berbagai teknik seperti statistika, domain knowledge dan expertise.
Setelah dilakukan pemilihan fitur, dilakukan pembersihan data seperti menangani missing value
dan noisy data. Transformasi data seperti one-hot encoding juga dilakukan agar algoritma tidak
salah dalam menginterpretasi data yang dimiliki. Dalam proses membuat model klasifikasi, data
yang dimiliki harus sesuai dengan requirement input algoritma yang dipakai. Algoritma klasifikasi
yang dipakai meliputi Naive Bayes, Support Vector Machine, Decision Tree dan Random Forest.
Nilai dari recall merepresentasikan banyaknya false negative menjadi kunci karena nilai
tersebut merupakan jumlah orang yang sebenarnya memiliki penyakit jantung tetapi diprediksi
sebagai tidak. Hal tersebut fatal jika terjadi karena dapat menyebabkan kematian. Dilakukan
dua tahap penelitian, dimana satu tahapannya berisi dua bagian. Bagian pertama merupakan
percobaan keempat buah algoritma dengan hyperparameter default untuk melihat cara kerja
algoritma terbaik. Bagian kedua dilakukan percobaan hyperparameter tuning dan cross-validation
berdasarkan model terbaik. Tahapan selanjutnya, dilakukan bagian yang sama seperti tahap
sebelumnya, yang berbeda hanyalah fitur yang dipakai. Berdasarkan hasil analisis, dapat disimpulkan
bahwa faktor umur, jenis kelamin, adanya angina hingga hasil gradien elektrokardiogram
pada titik tertinggi, menunjukkan adanya hubungan dengan ketepatan prediksi penyakit jantung.
Eksplorasi data dan analisis model memberikan gambaran bahwa setiap faktor tersebut memiliki
peran dalam menentukan kecenderungan seseorang untuk memiliki penyakit jantung.
Klasifikasi ini hanya akan melihat ya atau tidak penyakit jantung, dan berdasarkan penelitian
yang telah dilakukan, aplikasi prediksi penyakit jantung berhasil menentukan seseorang
memiliki penyakit jantung dengan tingkat akurasi senilai 76% dan recall senilai 93%. Proses
ini dibantu dengan metode data mining yang dimulai dari pengambilan data hingga klasifikasi.
Didapatkanlah bahwa algoritma klasifikasi Random Forest dengan hyperparameter yang telah
dilakukan tuning merupakan algoritma terbaik dalam melakukan prediksi penyakit jantung.
Dalam menampilkan hasil prediksinya, berhasil dibangun perangkat lunak berbasis web yang
dapat menerima input kondisi kesehatan, lalu perangkat lunak akan menampilkan hasilnya.