Klasifikasi dokumen menurut bahasa berbasis N-Gram

Show simple item record

dc.contributor.advisor Basuki, Thomas Anung
dc.contributor.author Putra, Ricky Slamat
dc.date.accessioned 2019-02-12T09:10:22Z
dc.date.available 2019-02-12T09:10:22Z
dc.date.issued 2018
dc.identifier.other skp36647
dc.identifier.uri http://hdl.handle.net/123456789/7498
dc.description 1520 - FTIS en_US
dc.description.abstract Dalam era sekarang, dokumen semakin banyak seiring berkembangnya internet. Dokumen yang tersedia juga terdiri dari berbagai bahasa sehingga membuat internet sebagai gudang dokumen dari berbagai macam bahasa. Semakin banyak ketersediaan dokumen akan meningkatkan kompleksitas pencarian dokumen. Dalam pencarian informasi tingkat relevansi suatu dokumen sangat penting agar informasi yang didapatkan bersesuaian. Di dunia terdapat beragam bahasa begitu juga dokumen yang ada. Oleh karena itu diperlukan klasifikasi dokumen. Klasifikasi adalah suatu proses pengelompokan berdasarkan ciri-ciri kemiripan. Klasifikasi yang akan dilakukan berdasarkan bahasa dari dokumen. Masing - masing bahasa memiliki karakteristik dalam frekuensi penggunaan huruf. Oleh karena itu digunakan metode n-gram dalam proses klasifikasi setiap dokumen. N-gram adalah suatu metode pengolahan dokumen yang biasanya digunakan dalam spelling correction, word prediction dan pengolahan lainnya. Dalam skripsi ini n-gram akan digunakan sebagai metode yang mencari karakteristik dari masing-masing dokumen yang akan menghasilkan suatu language model. Language model ini berisi data frekuensi penggunaan huruf pada suatu dokumen. Data tersebut terdiri dari n-gram per karakter seperti unigram (satu karakter), bigram (dua karakter) dan trigram (tiga karakter). Proses klasifikasi ini akan melakukan proses pelatihan sebelum dapat mengklasifikasi dokumen. Proses pelatihan ini adalah proses mencari karakteristik n-gram dari suatu bahasa dengan membuat hasil language model dari seluruh dokumen bahasa tersebut. Hasil language model tersebut merepresentasikan titik pusat cluster suatu bahasa. K-Means adalah algoritma yang mencari jarak antar suatu data ke cluster. K-means akan digunakan untuk mencari jarak antara dokumen yang diklasifikasi dengan cluster bahasa yang ada. Jarak terkecil dari k-means ini merepresentasikan kesamaan karakteristik dokumen terhadap cluster. en_US
dc.language.iso Indonesia en_US
dc.publisher Program Studi Teknik Informatika Fakultas Teknologi Informasi dan Sains - UNPAR en_US
dc.subject N-gram en_US
dc.subject Klasifikasi en_US
dc.subject Bahasa en_US
dc.subject K-Means en_US
dc.title Klasifikasi dokumen menurut bahasa berbasis N-Gram en_US
dc.type Undergraduate Theses en_US
dc.identifier.nim/npm NPM2013730011
dc.identifier.kodeprodi KODEPRODI618#Teknik Informatika


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search UNPAR-IR


Advanced Search

Browse

My Account