Automatic Keyphrase Extraction Term Frequency-Inverse Document Frequency TF-IDF

3. Jika dua karakter pertama bukan “di-“, “ke-“, “se-“, “te-“, “be-“, “me-“, atau “pe-“ maka berhenti. 4. Jika tipe awalan adalah “none” maka berhenti. Hapus awalan jika ditemukan. Untuk mengatasi keterbatasan yang ada, maka ditambahkan aturan-aturan dibawah ini: Adriani et al, 2007 1. Aturan untuk reduplikasi. a. Jika kedua kata yang dihubungkan penghubung adalah kata yang sama maka root word adalah bentuk tunggalnya, contoh: “buku-buku” root wood-nya adalah “buku”. b. Kata lain misalnya “bolak-balik”, “berbalas-balasan”, dan “seolah-olah”. Untuk mendapatkan root word-nya, kedua kata diartikan secara terpisah. Jika keduanya memiliki root word-nya yang sama maka diubah menjadi bentuk tunggal, contoh: kata “berbalas-balasan”, “berbalas” dan “balasan” memiliki root word yang sama yaitu “balas”, maka root wood “berbalas-balasan” adalah “balas”. Sebaliknya, pada kata “bolak-balik”, “bolak” dan “balik” memiliki root word yang berbeda, maka root word- nya adalah “bolak-balik”. 2. Tambahan bentuk awalan dan akhiran serta aturannya. a. Tipe awalan “mem-“, kata yang diawali dengan awalan “ memp-“ memiliki tipe awalan “mem-“. b. Tipe awalan “meng-“, kata yang diawali dengan awalan “mengk-“ memiliki tipe awalan “meng-“.

2.4. Automatic Keyphrase Extraction

Dewasa ini, jurnal yang dibuat sudah menyediakan daftar kata-kata kunci dari artikelnya. Kata-kata kunci tersebut disebut keyphrases karna kata-kata kunci tersebut kadang tidak hanya dalam satu kata tapi bisa dalam dua kata ataupun lebih Turney, 1999. Artikel dapat dengan mudah disaring lebih mudah ketika keyphrases-nya ada Turney, 1999. Keyphrases juga dapat digunakan sebagai indeks kata-kata untuk mencari di dalam kumpulan koleksi artikel Turney, 1999. Automatic keyphrase extraction adalah sebuah proses untuk menghasilkan daftar keyphrase yang dapat mewakili poin-poin penting dari sebuah teks. Keyphrase dari artikel ini dapat digunakan untuk pencarian artikel dari koleksi artikel yang besar secara akurat dan cepat, dan telah Universitas Sumatera Utara menunjukan potensinya dalam meningkatkan hasil pekerjaan dari natural language processing NLP dan information retrieval IR, seperti text categorization Hulth Megyesi, 2006 dan document indexing Gutwin et al, 1999.

2.5. Term Frequency-Inverse Document Frequency TF-IDF

Metode TF-IDF merupakan metode untuk menghitung bobot dari kata yang digunakan pada information retrieval. Metode ini juga terkenal efisien, mudah dan memiliki hasil yang akurat. Metode ini akan menghitung nilai Term Frequency TF dan Inverse Document Frequency IDF pada setiap token kata di setiap dokumen dalam korpus. Bobot token kata semakin besar jika sering muncul dalam suatu dokumen dan semakin kecil jika muncul dalam banyak dokumen Robertson, 2004. Metode ini akan menghitung bobot setiap token t di artikel d dengan persamaan 2.1. W dt = TF dt IDF t 2.1 Dimana: d = dokumen ke-d t = token kata ke-t W = bobot dokumen ke-d terhadap token kata ke-t TF = Frekuensi kata yang dicari pada sebuah dokumen IDF = Inversed Document Frequency Nilai TF didapatkan dari persamaan 2.2 TF = N td N d 2.2 Dimana: N = jumlah token kata Nilai IDF didapatkan dari persamaan 2.3 IDF = log 2 DDf 2.3 Dimana: D = total dokumen Df = banyaknya dokumen yang mengandung kata yang dicari Universitas Sumatera Utara

2.6. Self Organizing Maps SOM