Penerapan algoritma greedy k-member clustering untuk anonimisasi data pada lingkungan big data

Show simple item record

dc.contributor.advisor Adithia, Mariskha Tri
dc.contributor.advisor Moertini, Veronica Sri
dc.contributor.author Jordan, Stephen
dc.date.accessioned 2021-08-04T08:46:14Z
dc.date.available 2021-08-04T08:46:14Z
dc.date.issued 2021
dc.identifier.other skp40816
dc.identifier.uri http://hdl.handle.net/123456789/12040
dc.description 1777 - FTIS en_US
dc.description.abstract Data mining umumnya digunakan untuk menganalisis pola-pola dari data yang dikumpulkan. Untuk mendapatkan hasil yang valid, data yang dianalisis harus sangat banyak. Oleh karena itu, teknologi big data muncul untuk menangani masalah tersebut. Sayangnya, proses data mining dapat menimbulkan masalah privasi. Privasi adalah hak seseorang untuk memiliki kendali atas bagaimana informasi pribadi dikumpulkan dan digunakan. Privacy-Preserving Data Mining (PPDM) digunakan untuk melindungi privasi individu sebelum dilakukan proses data mining. Contoh dari metode PPDM adalah k-anonymity. K-anonymity adalah metode anonimisasi data dari PPDM untuk menjaga agar sebuah data tidak dapat dibedakan dengan k − 1 data lainnya. Karena metode anonimisasi menderita kehilangan informasi yang besar, maka data akan dikelompokan terlebih dahulu menggunakan algoritma greedy k-member clustering. Tujuan dari penelitian ini adalah melakukan implementasi algoritma greedy k-member clustering dan k-anonymity pada lingkungan big data dan menguji model data mining klasifikasi dan clustering sebelum dan setelah data dilakukan anonimisasi data. Pada penelitian ini, telah dibangun tiga buah perangkat lunak dengan framework Spark. Perangkat lunak eksplorasi yang bertujuan mencari nilai unik sebuah kolom untuk dipakai dalam membuat pohon generalisasi. Perangkat lunak anonimisasi yang berisi implementasi algoritma greedy k-member clustering dan k-anonymity. Perangkat lunak pengujian untuk mengamati hasil pemodelan data mining sebelum dan setelah dilakukan anonimisasi data. Hasil perangkat lunak anonimisasi dipakai untuk tahap analisis. Analisis dilakukan dengan pengujian fungsional dan eksperimental. Pengujian fungsional bertujuan untuk memeriksa apakah perangkat lunak sudah berfungsi dengan seharusnya. Pengujian eksperimental bertujuan mendapatkan waktu komputasi algoritma greedy k-member clustering dan k-anonymity, waktu komputasi model data mining klasifikasi dan clustering, menghitung total information loss, melakukan evaluasi hasil data mining, dan mencari perbedaan hasil prediksi terbaik. Hasil pengujian kualitas informasi menunjukan bahwa total information loss terendah dicapai menggunakan kolom campuran dengan bobot total information loss yang diperoleh yaitu 523541 untuk k = 25 dan 1000 data dengan 1 kolom kategorikal dan 1 kolom numerik, lalu memilih jumlah quasi-identifier yang tidak terlalu banyak (3-5 atribut) dengan bobot total information loss yang diperoleh yaitu 148091 untuk k = 100 dan 1000 data dengan 2 kolom kategorikal dan 1 kolom numerik, terakhir menggunakan ukuran data yang relatif kecil (kurang dari 10.000 data) dengan bobot total information loss yang diperoleh yaitu 3.10×107 untuk k = 75 dan 10.000 data dengan 2 kolom kategorikal dan 1 kolom numerik. Untuk waktu komputasinya, algoritma greedy k-member clustering membutuhan waktu sangat lama dalam melakukan pengelompokan data, yaitu lebih dari 3 jam untuk 10.000 data, sedangkan algoritma k-anonymity dapat dilakukan komputasi dengan cepat, yaitu kurang dari 15 menit untuk 10.000 data. Berdasarkan hasil pengujian, diketahui persentase perbedaan hasil clustering sebelum dan setelah anonimisasi data yang cukup jauh sekitar 0.70−0.85% , sedangkan persentase perbedaan hasil klasifikasi sebelum dan setelah anonimisasi data yang cukup dekat yaitu 0.30−0.55%. Sehingga, model data mining yang lebih tepat dipakai untuk anonimisasi data adalah klasifikasi. en_US
dc.language.iso Indonesia en_US
dc.publisher Program Studi Teknik Informatika Fakultas Teknologi Informasi dan Sains - UNPAR en_US
dc.subject Data Mining en_US
dc.subject Big Data en_US
dc.subject Privasi en_US
dc.subject Privacy Preserving Data Mining (PPDM) en_US
dc.subject K-Anonymity en_US
dc.subject Greedy K-Member Clustering en_US
dc.title Penerapan algoritma greedy k-member clustering untuk anonimisasi data pada lingkungan big data en_US
dc.type Undergraduate Theses en_US
dc.identifier.nim/npm NPM2016730018
dc.identifier.nidn/nidk NIDN0411108001
dc.identifier.nidn/nidk NIDN0414076203
dc.identifier.kodeprodi KODEPRODI618#Teknik Informatika


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search UNPAR-IR


Advanced Search

Browse

My Account