Penerapan algoritma greedy k-member clustering untuk anonimisasi data pada lingkungan big data

Jordan, Stephen

dc.contributor.advisor	Adithia, Mariskha Tri
dc.contributor.advisor	Moertini, Veronica Sri
dc.contributor.author	Jordan, Stephen
dc.date.accessioned	2021-08-04T08:46:14Z
dc.date.available	2021-08-04T08:46:14Z
dc.date.issued	2021
dc.identifier.other	skp40816
dc.identifier.uri	http://hdl.handle.net/123456789/12040
dc.description	1777 - FTIS	en_US
dc.description.abstract	Data mining umumnya digunakan untuk menganalisis pola-pola dari data yang dikumpulkan. Untuk mendapatkan hasil yang valid, data yang dianalisis harus sangat banyak. Oleh karena itu, teknologi big data muncul untuk menangani masalah tersebut. Sayangnya, proses data mining dapat menimbulkan masalah privasi. Privasi adalah hak seseorang untuk memiliki kendali atas bagaimana informasi pribadi dikumpulkan dan digunakan. Privacy-Preserving Data Mining (PPDM) digunakan untuk melindungi privasi individu sebelum dilakukan proses data mining. Contoh dari metode PPDM adalah k-anonymity. K-anonymity adalah metode anonimisasi data dari PPDM untuk menjaga agar sebuah data tidak dapat dibedakan dengan k − 1 data lainnya. Karena metode anonimisasi menderita kehilangan informasi yang besar, maka data akan dikelompokan terlebih dahulu menggunakan algoritma greedy k-member clustering. Tujuan dari penelitian ini adalah melakukan implementasi algoritma greedy k-member clustering dan k-anonymity pada lingkungan big data dan menguji model data mining klasifikasi dan clustering sebelum dan setelah data dilakukan anonimisasi data. Pada penelitian ini, telah dibangun tiga buah perangkat lunak dengan framework Spark. Perangkat lunak eksplorasi yang bertujuan mencari nilai unik sebuah kolom untuk dipakai dalam membuat pohon generalisasi. Perangkat lunak anonimisasi yang berisi implementasi algoritma greedy k-member clustering dan k-anonymity. Perangkat lunak pengujian untuk mengamati hasil pemodelan data mining sebelum dan setelah dilakukan anonimisasi data. Hasil perangkat lunak anonimisasi dipakai untuk tahap analisis. Analisis dilakukan dengan pengujian fungsional dan eksperimental. Pengujian fungsional bertujuan untuk memeriksa apakah perangkat lunak sudah berfungsi dengan seharusnya. Pengujian eksperimental bertujuan mendapatkan waktu komputasi algoritma greedy k-member clustering dan k-anonymity, waktu komputasi model data mining klasifikasi dan clustering, menghitung total information loss, melakukan evaluasi hasil data mining, dan mencari perbedaan hasil prediksi terbaik. Hasil pengujian kualitas informasi menunjukan bahwa total information loss terendah dicapai menggunakan kolom campuran dengan bobot total information loss yang diperoleh yaitu 523541 untuk k = 25 dan 1000 data dengan 1 kolom kategorikal dan 1 kolom numerik, lalu memilih jumlah quasi-identifier yang tidak terlalu banyak (3-5 atribut) dengan bobot total information loss yang diperoleh yaitu 148091 untuk k = 100 dan 1000 data dengan 2 kolom kategorikal dan 1 kolom numerik, terakhir menggunakan ukuran data yang relatif kecil (kurang dari 10.000 data) dengan bobot total information loss yang diperoleh yaitu 3.10×107 untuk k = 75 dan 10.000 data dengan 2 kolom kategorikal dan 1 kolom numerik. Untuk waktu komputasinya, algoritma greedy k-member clustering membutuhan waktu sangat lama dalam melakukan pengelompokan data, yaitu lebih dari 3 jam untuk 10.000 data, sedangkan algoritma k-anonymity dapat dilakukan komputasi dengan cepat, yaitu kurang dari 15 menit untuk 10.000 data. Berdasarkan hasil pengujian, diketahui persentase perbedaan hasil clustering sebelum dan setelah anonimisasi data yang cukup jauh sekitar 0.70−0.85% , sedangkan persentase perbedaan hasil klasifikasi sebelum dan setelah anonimisasi data yang cukup dekat yaitu 0.30−0.55%. Sehingga, model data mining yang lebih tepat dipakai untuk anonimisasi data adalah klasifikasi.	en_US
dc.language.iso	Indonesia	en_US
dc.publisher	Program Studi Teknik Informatika Fakultas Teknologi Informasi dan Sains - UNPAR	en_US
dc.subject	Data Mining	en_US
dc.subject	Big Data	en_US
dc.subject	Privasi	en_US
dc.subject	Privacy Preserving Data Mining (PPDM)	en_US
dc.subject	K-Anonymity	en_US
dc.subject	Greedy K-Member Clustering	en_US
dc.title	Penerapan algoritma greedy k-member clustering untuk anonimisasi data pada lingkungan big data	en_US
dc.type	Undergraduate Theses	en_US
dc.identifier.nim/npm	NPM2016730018
dc.identifier.nidn/nidk	NIDN0411108001
dc.identifier.nidn/nidk	NIDN0414076203
dc.identifier.kodeprodi	KODEPRODI618#Teknik Informatika