Abstract:
Data mining umumnya digunakan untuk menganalisis pola-pola dari data yang dikumpulkan.
Untuk mendapatkan hasil yang valid, data yang dianalisis harus sangat banyak. Oleh karena itu,
teknologi big data muncul untuk menangani masalah tersebut. Sayangnya, proses data mining
dapat menimbulkan masalah privasi. Privasi adalah hak seseorang untuk memiliki kendali atas
bagaimana informasi pribadi dikumpulkan dan digunakan. Privacy-Preserving Data Mining
(PPDM) digunakan untuk melindungi privasi individu sebelum dilakukan proses data mining.
Contoh dari metode PPDM adalah k-anonymity. K-anonymity adalah metode anonimisasi
data dari PPDM untuk menjaga agar sebuah data tidak dapat dibedakan dengan k − 1 data
lainnya. Karena metode anonimisasi menderita kehilangan informasi yang besar, maka data
akan dikelompokan terlebih dahulu menggunakan algoritma greedy k-member clustering. Tujuan
dari penelitian ini adalah melakukan implementasi algoritma greedy k-member clustering dan
k-anonymity pada lingkungan big data dan menguji model data mining klasifikasi dan clustering
sebelum dan setelah data dilakukan anonimisasi data.
Pada penelitian ini, telah dibangun tiga buah perangkat lunak dengan framework Spark.
Perangkat lunak eksplorasi yang bertujuan mencari nilai unik sebuah kolom untuk dipakai dalam
membuat pohon generalisasi. Perangkat lunak anonimisasi yang berisi implementasi algoritma
greedy k-member clustering dan k-anonymity. Perangkat lunak pengujian untuk mengamati
hasil pemodelan data mining sebelum dan setelah dilakukan anonimisasi data. Hasil perangkat
lunak anonimisasi dipakai untuk tahap analisis. Analisis dilakukan dengan pengujian fungsional
dan eksperimental. Pengujian fungsional bertujuan untuk memeriksa apakah perangkat lunak
sudah berfungsi dengan seharusnya. Pengujian eksperimental bertujuan mendapatkan waktu
komputasi algoritma greedy k-member clustering dan k-anonymity, waktu komputasi model data
mining klasifikasi dan clustering, menghitung total information loss, melakukan evaluasi hasil
data mining, dan mencari perbedaan hasil prediksi terbaik.
Hasil pengujian kualitas informasi menunjukan bahwa total information loss terendah dicapai
menggunakan kolom campuran dengan bobot total information loss yang diperoleh yaitu 523541
untuk k = 25 dan 1000 data dengan 1 kolom kategorikal dan 1 kolom numerik, lalu memilih
jumlah quasi-identifier yang tidak terlalu banyak (3-5 atribut) dengan bobot total information
loss yang diperoleh yaitu 148091 untuk k = 100 dan 1000 data dengan 2 kolom kategorikal dan 1
kolom numerik, terakhir menggunakan ukuran data yang relatif kecil (kurang dari 10.000 data)
dengan bobot total information loss yang diperoleh yaitu 3.10×107 untuk k = 75 dan 10.000 data
dengan 2 kolom kategorikal dan 1 kolom numerik. Untuk waktu komputasinya, algoritma greedy
k-member clustering membutuhan waktu sangat lama dalam melakukan pengelompokan data,
yaitu lebih dari 3 jam untuk 10.000 data, sedangkan algoritma k-anonymity dapat dilakukan
komputasi dengan cepat, yaitu kurang dari 15 menit untuk 10.000 data. Berdasarkan hasil
pengujian, diketahui persentase perbedaan hasil clustering sebelum dan setelah anonimisasi data
yang cukup jauh sekitar 0.70−0.85% , sedangkan persentase perbedaan hasil klasifikasi sebelum
dan setelah anonimisasi data yang cukup dekat yaitu 0.30−0.55%. Sehingga, model data mining
yang lebih tepat dipakai untuk anonimisasi data adalah klasifikasi.