Penerapan TF-IDF dan Collaborative Tagging pada Rekomendasi Tag

2.6 Penerapan TF-IDF dan Collaborative Tagging pada Rekomendasi Tag

Secara umum, tahap-tahap dalam membentuk sistem rekomendasi tag pada penelitian ini mengggunakan metode text-mining dimana tahap stemming-nya menggunakan algoritma Algoritma Nazief Adriani, tahap processing-nya menggunakan metode TF-IDF. Untuk meningkatkan kemampuan sistem dalam memberikan rekomendasi, digunakan Collaborative tagging agar rekomendasi tag dapat berasal dari berita lain yang pernah diterbitkan sebelumnya. Adapun langkah-langkah pada sistem rekomendasi tag yang akan dikembangkan adalah sebagai berikut: 1. Masukkan text berita yang akan dibuat rekomendasinya. 2. Lakukan tokenizing pada text yang telah dimasukkan sehingga setiap kalimat pada text menjadi satuan kata-kata atau frase-frase. Kemudian sistem akan merubah semua karakter huruf menjadi huruf kecil melalui proses toLowerCase. 3. Lakukan filtering pada kata-kata atau frase-frase yang telah ada dengan menggunakan metode stoplist membuang kata-kata yang kurang penting seperti kata sambung, kata depan, dan lain sebagainya. 4. Lakukan stemming pada setiap kata k menggunakan Algoritma Nazief Adriani untuk teks berbahasa Indonesia yang berfungsi menemukan kata dasar dari setiap kata masukan. Untuk k =1 hingga k=n dilakukan langkah berikut: 4.1 Samakan kata atau frase dengan kata-kata di dalam kamus dimana jika ditemukan maka diasumsikan kata tersebut adalah kata dasar atau root word, jika tidak maka tahap selanjutnya dilakukan. 4.2 Lakukan Infection suffixes “-lah”, “-kah”, “-ku”, “-mu”, atau “-nya” dibuang. Jika berupa particles “-lah”, “-kah”, “-tah”, atau “-pun” maka langkah ini diulangi untuk menghapus Passive Pronouns “-ku”, “-mu”, atau “-nya”, jika ada. 4.3 Hapus Derivation Suffixes “-i”, “-an” atau “-kan”. Jika kata ditemukan dikamus, maka diasumsikan kata tersebut adalah root word. Jika tidak maka dilanjutkan ke langkah 4.3.1. 4.3.1 Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah“- k”, maka “-k” juga akan ikut dihapus. Jika kata tersebut ditemukan dalam kamus, maka diasumsikan kata tersebut adalah root word. Jika tidak, akan dilanjutkan ke langkah 3b. 4.3.2 Akhiran yang dihapus “i”, “-an” atau “-kan” dikambalikan, lanjut ke tahap 4.4. 4.4 Hapus derivation prefix “di-”, “ke-”, “se-”, “te-”, “be-” dan “me-”. Jika pada langkah 3 ada suffix yang dihapus maka dilanjutkan ke langkah 4.4.1, jika tidak pergi ke langkah 4.4.2. 4.4.1 Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan seperti pada tabel 2.1. Jika ditemukan, maka diasumsikan kata tersebut adalah root word, jika tidak lanjut ke langkah 4.4.2. 4.4.2 For i=1 to 3, tentukan tipe awalan kemudian hapus awalan dan lakukan perubahan kata dasar sesuai tabel 2.2. Jika root word belum ditemukan lakukan langkah 5, jika sudah maka diasumsikan kata tersebut adalah root word. Catatan: jika awalan kedua dan awalan pertama adalah sama maka kata tersebut adalah root word. 4.5 Lakukan recoding. 4.6 Jika semua langkah selesai tetapi masih tidak berhasil, maka kata awal diasumsikan sebagai root word. Jika root word merupakan kata reduplikasi seperti “anak-anak”, “bolak-balik”, atau “berbalas-balasan”, maka kata tersebut harus mengikti aturan reduplikasi. 4.7 k+1, ulangi proses stemming untuk kata berikutnya. 5. Setelah hasil stemming kata telah didapatkan, tentukan bobot tiap-tiap kata dengan menggunakan metode TF-IDF sebagai berikut: 5.1 Hitung TF yaitu frekuensi kemunculan kata term t pada text berita d. 5.2 Hitung invers document frequency idf yaitu dengan persamaan berikut: idf = Log10N1+df 2.5 dimana: N = merupakan jumlah seluruh berita yang ada pada tabel berita. df = jumlah kemunculan kata term terhadap daftar isi berita di database. 5.3 Hitung bobot W masing-masing dokumen dengan persamaan 2.6. W t = tf idf 2.6 dengan : t = kataterm ke –t tf = term freqency W = bobot kataterm ke- t idf = inverse document f reqency 5.4 Lakukan proses pengurutan sorting nilai kumulatif dari W untuk setiap kata dan mengambil 6 kata dengan bobot terbesar akan dijadikan sebagai hasil rekomendasi tag. 6. Hasil rekomendasi tag dari proses TF-IDF akan dicari kemiripannya dengan berita lainnya yang telah diterbitkan dan disimpan pada Tabel Berita di database dengan langkah berikut: 6.1 Persentasi kemiripan berita dihitung dengan persamaan 2.7. Kpn = kemiripan hslTfidf100 2.7 Dimana: Kpn = Jumlah kemiripan tag, kemiripan = Persentase kemiripan tag, hslTfidf = Jumlah rekomendasi tag hasil TF-IDF hasil Langkah 5.4. 6.2 Untuk setiap berita yang telah di-upload pada kategori yang sama dan memiliki jumlah kemiripan tag  Kpn maka tag pada berita lainnya akan ditambahkan ke dalam rekomendasi tag otomatis.

2.7 Teknik Rekomendasi Tag Terdahulu