Abstract:
Di era digital ini, teknik data mining semakin banyak digunakan. Teknik ini membuat data
harus dirilis. Pada data yang dirilis, terdapat kemungkinan adanya data atau informasi pribadi
seseorang. Hal ini dapat menyebabkan privasi tidak terlindungi. Privasi merupakan kemampuan
seseorang untuk mengatur bagaimana informasi pribadinya disimpan, dipakai, maupun dihapus.
Privasi dapat dilindungi dengan privacy preserving data mining (PPDM). PPDM merupakan
bagian dari data mining yang bertanggung jawab atas perlindungan privasi dalam proses data
mining. Salah satu metode PPDM adalah anonimisasi yang membuat data menjadi anonim.
Metode k-anonymity merupakan salah satu contoh metode anonimisasi. Tujuan dari penelitian
ini adalah melakukan analisis algoritma k-anonymity untuk anonimisasi data. Algoritma kanonymity
yang akan digunakan adalah Algoritma One Pass k-Means (OKA) dan Grading,
Centering, Clustering, Generalization (GCCG).
Pada penelitian ini, dibangun dua buah perangkat lunak. Perangkat lunak pertama mengimplementasikan
Algoritma OKA dan GCCG, sedangkan perangkat lunak kedua mengimplementasikan
algoritma data mining untuk menguji hasil anonimisasi perangkat lunak pertama.
Hasil anonimisasi dari perangkat lunak pertama dan hasil pengujian dari perangkat lunak kedua
dipakai untuk analisis. Analisis dilakukan dengan pengujian eksperimental. Pengujian eksperimental
dilakukan untuk mendapatkan relasi antara nilai k, information loss, waktu eksekusi
algoritma yang diimplementasikan, jenis atribut, hasil data mining, evaluasi hasil data mining,
dan jumlah atribut.
Hasil pengujian menunjukan bahwa nilai k memengaruhi information loss dan waktu eksekusi
kedua algoritma. Semakin tinggi nilai k, nilai information loss akan semakin tinggi dan waktu
eksekusi semakin cepat. Algoritma GCCG memiliki waktu eksekusi yang lebih cepat dibandingkan
Algoritma OKA. Saat data yang dianonimisasi diuji dengan teknik data mining, dapat dilihat
bahwa jumlah atribut memengaruhi kualitas hasil clustering. Semakin banyak jumlah atribut,
maka kualitas hasil clustering akan semakin menurun. Sementara itu, kualitas hasil klasifikasi
tidak dipengaruhi oleh jumlah atribut. Kualitas hasil klasifikasi tidak menentu.