dc.contributor.advisor |
Basuki, Thomas Anung |
|
dc.contributor.author |
Putra, Ricky Slamat |
|
dc.date.accessioned |
2019-02-12T09:10:22Z |
|
dc.date.available |
2019-02-12T09:10:22Z |
|
dc.date.issued |
2018 |
|
dc.identifier.other |
skp36647 |
|
dc.identifier.uri |
http://hdl.handle.net/123456789/7498 |
|
dc.description |
1520 - FTIS |
en_US |
dc.description.abstract |
Dalam era sekarang, dokumen semakin banyak seiring berkembangnya internet. Dokumen yang
tersedia juga terdiri dari berbagai bahasa sehingga membuat internet sebagai gudang dokumen
dari berbagai macam bahasa. Semakin banyak ketersediaan dokumen akan meningkatkan
kompleksitas pencarian dokumen. Dalam pencarian informasi tingkat relevansi suatu dokumen
sangat penting agar informasi yang didapatkan bersesuaian.
Di dunia terdapat beragam bahasa begitu juga dokumen yang ada. Oleh karena itu diperlukan
klasifikasi dokumen. Klasifikasi adalah suatu proses pengelompokan berdasarkan ciri-ciri
kemiripan. Klasifikasi yang akan dilakukan berdasarkan bahasa dari dokumen. Masing - masing
bahasa memiliki karakteristik dalam frekuensi penggunaan huruf. Oleh karena itu digunakan
metode n-gram dalam proses klasifikasi setiap dokumen.
N-gram adalah suatu metode pengolahan dokumen yang biasanya digunakan dalam spelling
correction, word prediction dan pengolahan lainnya. Dalam skripsi ini n-gram akan digunakan
sebagai metode yang mencari karakteristik dari masing-masing dokumen yang akan menghasilkan
suatu language model. Language model ini berisi data frekuensi penggunaan huruf pada suatu
dokumen. Data tersebut terdiri dari n-gram per karakter seperti unigram (satu karakter), bigram
(dua karakter) dan trigram (tiga karakter).
Proses klasifikasi ini akan melakukan proses pelatihan sebelum dapat mengklasifikasi dokumen.
Proses pelatihan ini adalah proses mencari karakteristik n-gram dari suatu bahasa dengan
membuat hasil language model dari seluruh dokumen bahasa tersebut. Hasil language model
tersebut merepresentasikan titik pusat cluster suatu bahasa.
K-Means adalah algoritma yang mencari jarak antar suatu data ke cluster. K-means akan
digunakan untuk mencari jarak antara dokumen yang diklasifikasi dengan cluster bahasa yang
ada. Jarak terkecil dari k-means ini merepresentasikan kesamaan karakteristik dokumen terhadap
cluster. |
en_US |
dc.language.iso |
Indonesia |
en_US |
dc.publisher |
Program Studi Teknik Informatika Fakultas Teknologi Informasi dan Sains - UNPAR |
en_US |
dc.subject |
N-gram |
en_US |
dc.subject |
Klasifikasi |
en_US |
dc.subject |
Bahasa |
en_US |
dc.subject |
K-Means |
en_US |
dc.title |
Klasifikasi dokumen menurut bahasa berbasis N-Gram |
en_US |
dc.type |
Undergraduate Theses |
en_US |
dc.identifier.nim/npm |
NPM2013730011 |
|
dc.identifier.kodeprodi |
KODEPRODI618#Teknik Informatika |
|