Abstract:
Pada proses penambangan data, data yang digunakan seringkali diberikan kepada pihak lain dan
ada kemungkinan privasi di dalam data tersebut tersebar kepada pihak yang tidak berhak. Data
privasi tersebut dapat tersebar kepada pihak yang tidak bertanggung jawab dan disalahgunakan.
Dalam menghindari hal tersebut, privacy-preserving data mining perlu dilakukan. Privasi dapat
diartikan sebagai sebuah informasi personal seseorang yang dapat mengidentifikasi sesuatu hal
pada orang tersebut. Salah satu cara untuk melakukan privacy-preserving data mining adalah
mengacak data menggunakan metode Randomization. Metode Randomization bekerja dengan
cara mengacak data tetapi data tersebut masih dapat digunakan untuk penambangan data.
Pada penelitian ini dibangun sebuah perangkat lunak yang mengimplementasikan 2 buah teknik
yang menggunakan metode Randomization yaitu teknik Random Rotation Perturbation dan
Random Projection Perturbation.
Pengujian dilakukan dengan menerapkan penambangan data klasifikasi dengan algoritma
k-nearest neighbors dan penambangan data clustering dengan algoritma k-means masing-masing
untuk menhitung akurasi model dan kemiripan hasil cluster. Berdasarkan hasil pengujian, model
penambangan data yang dilatih dengan dataset asli dan dataset yang telah diacak dengan teknik
Random Rotation Perturbation atau Random Projection Perturbation memiliki kualitas yang
sama atau sangat mirip. Kedua teknik tersebut hanya dapat digunakan untuk data yang bersifat
numerik dan khususnya untuk teknik Random Projection Perturbation hanya dapat digunakan
untuk data yang memenuhi syarat teknik tersebut yaitu jumlah fitur pada data harus cukup
banyak.
Pada proses penambangan data, data yang digunakan seringkali diberikan kepada pihak lain dan
ada kemungkinan privasi di dalam data tersebut tersebar kepada pihak yang tidak berhak. Data
privasi tersebut dapat tersebar kepada pihak yang tidak bertanggung jawab dan disalahgunakan.
Dalam menghindari hal tersebut, privacy-preserving data mining perlu dilakukan. Privasi dapat
diartikan sebagai sebuah informasi personal seseorang yang dapat mengidentifikasi sesuatu hal
pada orang tersebut. Salah satu cara untuk melakukan privacy-preserving data mining adalah
mengacak data menggunakan metode Randomization. Metode Randomization bekerja dengan
cara mengacak data tetapi data tersebut masih dapat digunakan untuk penambangan data.
Pada penelitian ini dibangun sebuah perangkat lunak yang mengimplementasikan 2 buah teknik
yang menggunakan metode Randomization yaitu teknik Random Rotation Perturbation dan
Random Projection Perturbation.
Pengujian dilakukan dengan menerapkan penambangan data klasifikasi dengan algoritma
k-nearest neighbors dan penambangan data clustering dengan algoritma k-means masing-masing
untuk menhitung akurasi model dan kemiripan hasil cluster. Berdasarkan hasil pengujian, model
penambangan data yang dilatih dengan dataset asli dan dataset yang telah diacak dengan teknik
Random Rotation Perturbation atau Random Projection Perturbation memiliki kualitas yang
sama atau sangat mirip. Kedua teknik tersebut hanya dapat digunakan untuk data yang bersifat
numerik dan khususnya untuk teknik Random Projection Perturbation hanya dapat digunakan
untuk data yang memenuhi syarat teknik tersebut yaitu jumlah fitur pada data harus cukup
banyak.
Kata-kata kunci: Privasi, privacy-preserving data mining, Randomization, Random Rotation
Perturbation, Random Projection Perturbation, penambangan data, klasifikasi, clustering, knearest
neighbors, k-means