Analisis algoritma One Pass K-Means dan Grading, Centering, Clustering, Generalization untuk anonimisasi data

Cantika, Apsari Ayusya

Analisis algoritma One Pass K-Means dan Grading, Centering, Clustering, Generalization untuk anonimisasi data

Cantika, Apsari Ayusya

URI: http://hdl.handle.net/123456789/11521

Date: 2020

Abstract:

Di era digital ini, teknik data mining semakin banyak digunakan. Teknik ini membuat data harus dirilis. Pada data yang dirilis, terdapat kemungkinan adanya data atau informasi pribadi seseorang. Hal ini dapat menyebabkan privasi tidak terlindungi. Privasi merupakan kemampuan seseorang untuk mengatur bagaimana informasi pribadinya disimpan, dipakai, maupun dihapus. Privasi dapat dilindungi dengan privacy preserving data mining (PPDM). PPDM merupakan bagian dari data mining yang bertanggung jawab atas perlindungan privasi dalam proses data mining. Salah satu metode PPDM adalah anonimisasi yang membuat data menjadi anonim. Metode k-anonymity merupakan salah satu contoh metode anonimisasi. Tujuan dari penelitian ini adalah melakukan analisis algoritma k-anonymity untuk anonimisasi data. Algoritma kanonymity yang akan digunakan adalah Algoritma One Pass k-Means (OKA) dan Grading, Centering, Clustering, Generalization (GCCG). Pada penelitian ini, dibangun dua buah perangkat lunak. Perangkat lunak pertama mengimplementasikan Algoritma OKA dan GCCG, sedangkan perangkat lunak kedua mengimplementasikan algoritma data mining untuk menguji hasil anonimisasi perangkat lunak pertama. Hasil anonimisasi dari perangkat lunak pertama dan hasil pengujian dari perangkat lunak kedua dipakai untuk analisis. Analisis dilakukan dengan pengujian eksperimental. Pengujian eksperimental dilakukan untuk mendapatkan relasi antara nilai k, information loss, waktu eksekusi algoritma yang diimplementasikan, jenis atribut, hasil data mining, evaluasi hasil data mining, dan jumlah atribut. Hasil pengujian menunjukan bahwa nilai k memengaruhi information loss dan waktu eksekusi kedua algoritma. Semakin tinggi nilai k, nilai information loss akan semakin tinggi dan waktu eksekusi semakin cepat. Algoritma GCCG memiliki waktu eksekusi yang lebih cepat dibandingkan Algoritma OKA. Saat data yang dianonimisasi diuji dengan teknik data mining, dapat dilihat bahwa jumlah atribut memengaruhi kualitas hasil clustering. Semakin banyak jumlah atribut, maka kualitas hasil clustering akan semakin menurun. Sementara itu, kualitas hasil klasifikasi tidak dipengaruhi oleh jumlah atribut. Kualitas hasil klasifikasi tidak menentu.