Term Frequency-Invers Document Frequency TF-IDF

Tabel 2.2 Tabel aturan peluruhan kata dasar Adriani, et al. 2007Lanjutan Aturan Awalan Peluruhan 24 peng{g|h|q} peng-{g|h|q} 25 pengV peng-V | peng-kV 26 penyV pe-nya|peny-sV 27 pelV pe- lV…; kecuali untuk kata pelajar 28 PeCP pe- CP…dimana C={r|w|y|l|m|n} dan P=er 29 perCerV per- CerV… dimana C={r|w|y|l|m|n} Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan aturan- aturan berikut: 1. Aturan untuk reduplikasi a. Jika kedua kata yang dihubungan penghubung adalah kata yang sama maka root word adalah bentuk tunggalnya, contoh “anak-anak” root word-nya adalah “anak”. b. Kata lain misalnya “bolak-balik”, “berbalas-balasan” dan “seolah-olah”. Untuk mendapatkan root word-nya, kedua kata diartikan secara terpisah. Jika keduanya memiliki root word yang sama maka diubah menjadi bentuk tunggal, contoh: kata “berbalas-balasan”, “berbalas” dan “balasan” memiliki root word yang sama yaitu “balas”, maka root word “berbalas-balasan” adalah “balas”. Sebaliknnya, pada kata “bolak-balik”, “bolak” dan “balik” memiliki root word yang berbeda, maka root word- nya adalah “bolak-balik”. 2. Tambahan untuk awalan dan akhiran serta aturannya. a. Tipe awalan “mem-”, kata yang diawali dengan awalan “memp-” memiliki tipe awalan “mem-”. b. Tipe awalan “meng-”, kata yang diawali dengan awalan “mengk-” memiliki tipe awalan “meng-”.

2.4 Term Frequency-Invers Document Frequency TF-IDF

TF-IDF Term Frequency-Inverse Document Frequency merupakan metode statistik numeric yang mencerminkan seberapa pentingnya sebuah kata dalam sebuah dokumen atau korpus Rajaraman et al, 2011. Hal ini sering digunakan sebagai faktor bobot dalam pencarian informasi dan penambangan teks text mining. Nilai TF-IDF meningkat secara proporsional berdasarkan jumlah atau banyaknya kata yang muncul pada dokumen, tetapi diimbangi dengan frekuensi kata dalam korpus. Variasi dari skema pembobotan TF-IDF sering digunakan oleh mesin pencari sebagai alat utama dalam mencetak nilai scoring dan peringkat ranking sebuah relevansi dokumen yang diberikan user. TF-IDF pada dasarnya merupakan hasil dari perhitungan antara TF Term Frequency dan IDF Inverse Document Frequency. Banyak cara untuk menentukan nilai yang tepat dari kedua statistik yang ada. Dalam kasus term frequency tf t, d, cara yang paling sederhana adalah dengan menggunakan raw frequency di dalam dokumen, yaitu berapa kali term t muncul di dokumen d. Jika menyatakan raw frequency t sebagai f t,d, maka skema tf yang sederhana adalah tf t, d = f t,d. Kemungkinan lain meliputi Manning, et al. 2008: - frekuensi Boolean : tf t,d = 1 jika t muncul di d dan 0 kebalikannya; - skala frekuensi logaritmik : tf t,d = log f t ,d + 1; - penambahan frekuensi, untuk mencegah bias terhadap dokumen lagi, misalnya raw frequency dibagi dengan raw frequency maksimum dari setiap term di dalam dokumen. � , � = , + , × � , � �� {� , � ∶ ∈ � . IDF Inverse Document Frequency merupakan ukuran apakah term itu umum atau langka di semua dokumen. Hal ini diperoleh dengan membagi jumlah dokumen di dalam korpus dengan jumlah dokumen yang berisi term, dan kemudian mengambil logaritma dari hasil bagi tersebut. ��� , � = log |�| | { � ∈ � ∶ ∈ � | . dimana: - |�| : kardinalitas dari N, atau jumlah total dokumen di dalam korpus. - | { � ∈ � ∶ ∈ � | : jumlah dokumen dimana term t muncul misalnya � , � ≠ . Jika term tidak ada di dalam korpus, hal ini akan mengacu kepada division-by-zero. Oleh karena itu, biasanya untuk menyesuaikannya rumus menjadi: + |{� ∈ �: ∈ �}| . Secara matematis fungsi dasar log tidak lah penting dan merupakan faktor pengali terhadap hasil keseluruhan. Maka TF-IDF dapat dirumuskan menjadi: ���� , �, � = � , � × ��� , � .

2.5 Collaborative Tagging