3. Jika dua karakter pertama bukan “di-“, “ke-“, “se-“, “te-“, “be-“, “me-“, atau “pe-“
maka berhenti. 4.
Jika tipe awalan adalah “none” maka berhenti. Hapus awalan jika ditemukan.
Untuk mengatasi keterbatasan yang ada, maka ditambahkan aturan-aturan dibawah ini: Adriani et al, 2007
1. Aturan untuk reduplikasi. a.
Jika kedua kata yang dihubungkan penghubung adalah kata yang sama maka root word adalah bentuk tunggalnya, contoh:
“buku-buku” root wood-nya adalah “buku”.
b. Kata lain misalnya “bolak-balik”, “berbalas-balasan”, dan “seolah-olah”.
Untuk mendapatkan root word-nya, kedua kata diartikan secara terpisah. Jika keduanya memiliki root word-nya yang sama maka diubah menjadi bentuk
tunggal, contoh: kata “berbalas-balasan”, “berbalas” dan “balasan” memiliki root word
yang sama yaitu “balas”, maka root wood “berbalas-balasan” adalah “balas”. Sebaliknya, pada kata “bolak-balik”, “bolak” dan “balik” memiliki
root word yang berbeda, maka root word- nya adalah “bolak-balik”.
2. Tambahan bentuk awalan dan akhiran serta aturannya. a.
Tipe awalan “mem-“, kata yang diawali dengan awalan “ memp-“ memiliki tipe awalan “mem-“.
b. Tipe awalan “meng-“, kata yang diawali dengan awalan “mengk-“ memiliki
tipe awalan “meng-“.
2.4. Automatic Keyphrase Extraction
Dewasa ini, jurnal yang dibuat sudah menyediakan daftar kata-kata kunci dari artikelnya. Kata-kata kunci tersebut disebut keyphrases karna kata-kata kunci tersebut
kadang tidak hanya dalam satu kata tapi bisa dalam dua kata ataupun lebih Turney, 1999. Artikel dapat dengan mudah disaring lebih mudah ketika keyphrases-nya ada
Turney, 1999. Keyphrases juga dapat digunakan sebagai indeks kata-kata untuk mencari di dalam kumpulan koleksi artikel Turney, 1999. Automatic keyphrase
extraction adalah sebuah proses untuk menghasilkan daftar keyphrase yang dapat mewakili poin-poin penting dari sebuah teks. Keyphrase dari artikel ini dapat digunakan
untuk pencarian artikel dari koleksi artikel yang besar secara akurat dan cepat, dan telah
Universitas Sumatera Utara
menunjukan potensinya dalam meningkatkan hasil pekerjaan dari natural language processing NLP dan information retrieval IR, seperti text categorization Hulth
Megyesi, 2006 dan document indexing Gutwin et al, 1999.
2.5. Term Frequency-Inverse Document Frequency TF-IDF
Metode TF-IDF merupakan metode untuk menghitung bobot dari kata yang digunakan pada information retrieval. Metode ini juga terkenal efisien, mudah dan memiliki hasil
yang akurat. Metode ini akan menghitung nilai Term Frequency TF dan Inverse Document Frequency IDF pada setiap token kata di setiap dokumen dalam korpus.
Bobot token kata semakin besar jika sering muncul dalam suatu dokumen dan semakin kecil jika muncul dalam banyak dokumen Robertson, 2004. Metode ini akan
menghitung bobot setiap token t di artikel d dengan persamaan 2.1.
W
dt
= TF
dt
IDF
t
2.1
Dimana: d
= dokumen ke-d t
= token kata ke-t W
= bobot dokumen ke-d terhadap token kata ke-t TF
= Frekuensi kata yang dicari pada sebuah dokumen IDF = Inversed Document Frequency
Nilai TF didapatkan dari persamaan 2.2
TF = N
td
N
d
2.2
Dimana: N
= jumlah token kata
Nilai IDF didapatkan dari persamaan 2.3
IDF = log
2
DDf 2.3
Dimana: D
= total dokumen Df
= banyaknya dokumen yang mengandung kata yang dicari
Universitas Sumatera Utara
2.6. Self Organizing Maps SOM