Tabel 2.2 Tabel aturan peluruhan kata dasar Adriani, et al. 2007Lanjutan
Aturan Awalan
Peluruhan
24 peng{g|h|q}
peng-{g|h|q} 25
pengV peng-V | peng-kV
26 penyV
pe-nya|peny-sV 27
pelV pe-
lV…; kecuali untuk kata pelajar 28
PeCP pe-
CP…dimana C={r|w|y|l|m|n} dan P=er 29
perCerV per-
CerV… dimana C={r|w|y|l|m|n}
Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan aturan- aturan berikut:
1. Aturan untuk reduplikasi a. Jika kedua kata yang dihubungan penghubung adalah kata yang sama maka
root word adalah bentuk tunggalnya, contoh “anak-anak” root word-nya adalah
“anak”. b.
Kata lain misalnya “bolak-balik”, “berbalas-balasan” dan “seolah-olah”. Untuk mendapatkan root word-nya, kedua kata diartikan secara terpisah. Jika
keduanya memiliki root word yang sama maka diubah menjadi bentuk tunggal, contoh: kata “berbalas-balasan”, “berbalas” dan “balasan” memiliki root word
yang sama yaitu “balas”, maka root word “berbalas-balasan” adalah “balas”. Sebaliknnya, pada kata “bolak-balik”, “bolak” dan “balik” memiliki root word
yang berbeda, maka root word- nya adalah “bolak-balik”.
2. Tambahan untuk awalan dan akhiran serta aturannya. a.
Tipe awalan “mem-”, kata yang diawali dengan awalan “memp-” memiliki tipe awalan “mem-”.
b. Tipe awalan “meng-”, kata yang diawali dengan awalan “mengk-” memiliki
tipe awalan “meng-”.
2.4 Term Frequency-Invers Document Frequency TF-IDF
TF-IDF Term Frequency-Inverse Document Frequency merupakan metode statistik numeric yang mencerminkan seberapa pentingnya sebuah kata dalam sebuah
dokumen atau korpus Rajaraman et al, 2011. Hal ini sering digunakan sebagai faktor bobot dalam pencarian informasi dan penambangan teks text mining. Nilai TF-IDF
meningkat secara proporsional berdasarkan jumlah atau banyaknya kata yang muncul
pada dokumen, tetapi diimbangi dengan frekuensi kata dalam korpus. Variasi dari skema pembobotan TF-IDF sering digunakan oleh mesin pencari sebagai alat utama
dalam mencetak nilai scoring dan peringkat ranking sebuah relevansi dokumen yang diberikan user.
TF-IDF pada dasarnya merupakan hasil dari perhitungan antara TF Term Frequency dan IDF Inverse Document Frequency. Banyak cara untuk menentukan
nilai yang tepat dari kedua statistik yang ada. Dalam kasus term frequency tf t, d, cara yang paling sederhana adalah dengan menggunakan raw frequency di dalam
dokumen, yaitu berapa kali term t muncul di dokumen d. Jika menyatakan raw frequency t sebagai f t,d, maka skema tf yang sederhana adalah tf t, d = f t,d.
Kemungkinan lain meliputi Manning, et al. 2008: - frekuensi Boolean : tf t,d = 1 jika t muncul di d dan 0 kebalikannya;
- skala frekuensi logaritmik : tf t,d = log f t ,d + 1; - penambahan frekuensi, untuk mencegah bias terhadap dokumen lagi, misalnya raw
frequency dibagi dengan raw frequency maksimum dari setiap term di dalam dokumen.
� , � = , + , × � , �
�� {� , � ∶ ∈ � . IDF Inverse Document Frequency merupakan ukuran apakah term itu umum
atau langka di semua dokumen. Hal ini diperoleh dengan membagi jumlah dokumen di dalam korpus dengan jumlah dokumen yang berisi term, dan kemudian mengambil
logaritma dari hasil bagi tersebut. ��� , � = log
|�| | { � ∈ � ∶ ∈ � | .
dimana: -
|�| : kardinalitas dari N, atau jumlah total dokumen di dalam korpus. -
| { � ∈ � ∶ ∈ � | : jumlah dokumen dimana term t muncul misalnya � , � ≠ . Jika term tidak ada di dalam korpus, hal ini akan mengacu
kepada division-by-zero. Oleh karena itu, biasanya untuk menyesuaikannya rumus menjadi:
+ |{� ∈ �: ∈ �}| .
Secara matematis fungsi dasar log tidak lah penting dan merupakan faktor pengali terhadap hasil keseluruhan. Maka TF-IDF dapat dirumuskan menjadi:
���� , �, � = � , � × ��� , � .
2.5 Collaborative Tagging