Analisis teknik Random Rotation Perturbation dan Random Projection Perturbation dalam mengacak data untuk penambangan data

Eldon, Chris

Analisis teknik Random Rotation Perturbation dan Random Projection Perturbation dalam mengacak data untuk penambangan data

Eldon, Chris

URI: http://hdl.handle.net/123456789/12027

Date: 2020

Abstract:

Pada proses penambangan data, data yang digunakan seringkali diberikan kepada pihak lain dan ada kemungkinan privasi di dalam data tersebut tersebar kepada pihak yang tidak berhak. Data privasi tersebut dapat tersebar kepada pihak yang tidak bertanggung jawab dan disalahgunakan. Dalam menghindari hal tersebut, privacy-preserving data mining perlu dilakukan. Privasi dapat diartikan sebagai sebuah informasi personal seseorang yang dapat mengidentifikasi sesuatu hal pada orang tersebut. Salah satu cara untuk melakukan privacy-preserving data mining adalah mengacak data menggunakan metode Randomization. Metode Randomization bekerja dengan cara mengacak data tetapi data tersebut masih dapat digunakan untuk penambangan data. Pada penelitian ini dibangun sebuah perangkat lunak yang mengimplementasikan 2 buah teknik yang menggunakan metode Randomization yaitu teknik Random Rotation Perturbation dan Random Projection Perturbation. Pengujian dilakukan dengan menerapkan penambangan data klasifikasi dengan algoritma k-nearest neighbors dan penambangan data clustering dengan algoritma k-means masing-masing untuk menhitung akurasi model dan kemiripan hasil cluster. Berdasarkan hasil pengujian, model penambangan data yang dilatih dengan dataset asli dan dataset yang telah diacak dengan teknik Random Rotation Perturbation atau Random Projection Perturbation memiliki kualitas yang sama atau sangat mirip. Kedua teknik tersebut hanya dapat digunakan untuk data yang bersifat numerik dan khususnya untuk teknik Random Projection Perturbation hanya dapat digunakan untuk data yang memenuhi syarat teknik tersebut yaitu jumlah fitur pada data harus cukup banyak. Pada proses penambangan data, data yang digunakan seringkali diberikan kepada pihak lain dan ada kemungkinan privasi di dalam data tersebut tersebar kepada pihak yang tidak berhak. Data privasi tersebut dapat tersebar kepada pihak yang tidak bertanggung jawab dan disalahgunakan. Dalam menghindari hal tersebut, privacy-preserving data mining perlu dilakukan. Privasi dapat diartikan sebagai sebuah informasi personal seseorang yang dapat mengidentifikasi sesuatu hal pada orang tersebut. Salah satu cara untuk melakukan privacy-preserving data mining adalah mengacak data menggunakan metode Randomization. Metode Randomization bekerja dengan cara mengacak data tetapi data tersebut masih dapat digunakan untuk penambangan data. Pada penelitian ini dibangun sebuah perangkat lunak yang mengimplementasikan 2 buah teknik yang menggunakan metode Randomization yaitu teknik Random Rotation Perturbation dan Random Projection Perturbation. Pengujian dilakukan dengan menerapkan penambangan data klasifikasi dengan algoritma k-nearest neighbors dan penambangan data clustering dengan algoritma k-means masing-masing untuk menhitung akurasi model dan kemiripan hasil cluster. Berdasarkan hasil pengujian, model penambangan data yang dilatih dengan dataset asli dan dataset yang telah diacak dengan teknik Random Rotation Perturbation atau Random Projection Perturbation memiliki kualitas yang sama atau sangat mirip. Kedua teknik tersebut hanya dapat digunakan untuk data yang bersifat numerik dan khususnya untuk teknik Random Projection Perturbation hanya dapat digunakan untuk data yang memenuhi syarat teknik tersebut yaitu jumlah fitur pada data harus cukup banyak. Kata-kata kunci: Privasi, privacy-preserving data mining, Randomization, Random Rotation Perturbation, Random Projection Perturbation, penambangan data, klasifikasi, clustering, knearest neighbors, k-means