Penggunaan inverted index di dalam sistem IR memiliki kelemahan yaitu lambat di dalam pengindeksan, tetapi cepat di dalam
proses pencarian informasi.
2.5. Term Frequency
Term Frequency TF adalah algoritma pembobotan heuristik
yang menentukan bobot dokumen berdasarkan kemunculan term istilah. Semakin sering sebuah istilah muncul, semakin tinggi bobot dokumen
untuk istilah tersebut, dan sebaliknya. Hasil pembobotan ini selanjutnya akan digunakan oleh fungsi perbandingan untuk menentukan dokumen –
dokumen yang relevan. Terdapat empat buah algoritma TF yang digunakan Wibowo, 2011:
• Raw TF
Raw TF menentukan bobot suatu dokumen terhadap istilah
dengan menghitung frekuensi kemunculan suatu istilah tersebut pada dokumen. Raw TF selanjutnya akan dituliskan sebagai tf.
• Logarithmic TF
Logarithmic TF mengurangi tingkat kepentingan kemunculan
kata dalam menghitung bobot dokumen terhadap suatu istilah dengan melakukan log terhadap TF. Log TF dapat dihitung dengan
persamaan:
��� = 1 + log�� 1
• Binary TF
Binary TF menyeragamkan bobot dokumen terhadap istilah
dengan memberi nilai 0 dan 1. Nilai 1 menyatakan suatu istilah muncul minimal satu kali dalam suatu dokumen, sementara 0
menyatakan sebaliknya. ��� = �
1, ������ℎ ������ ����� �������
0, ������ℎ ����� ������ ����� �������
2 •
Augmented TF Augmented TF
menyeragamkan bobot dokumen terhadap istilah dengan memberikan range antara 0.5 hingga 1 sebagai bobot
dokumen. Augmented TF dapat dihitung dengan persamaan: ��� = 0.5 + 0.5 ×
�� max
�� ���� ����� �ℎ �������
3 Pembobotan lokal tf hanya berpedoman pada frekuensi
munculnya term dalam suatu dokumen dan tidak melihat frekuensi kemunculan term tersebut di dalam dokumen lainnya. Pembobotan global
digunakan untuk memberikan tekanan terhadap term yang mengakibatkan perbedaan dan berdasarkan pada penyebaran dari term tertentu di seluruh
dokumen. Banyak skema didasarkan pada pertimbangan bahwa semakin jarang suatu term muncul di dalam total koleksi maka term tersebut
menjadi semakin berbeda. Pemanfaatan pembobotan ini dapat menghilangkan kebutuhan stop word removal karena stop word
mempunyai bobot global yang sangat kecil. Pendekatan terhadap
pembobotan global mencakup inverse document frequency idf, squared idf
, probabilistic idf, GF-idf, entropy. Pendekatan idf merupakan pembobotan yang paling banyak digunakan saat ini. Beberapa aplikasi
tidak melibatkan bobot global, hanya memperhatikan tf, yaitu ketika tf sangat kecil atau saat diperlukan penekanan terhadap frekuensi term di
dalam suatu dokumen. Faktor normalisasi digunakan untuk menormalkan vektor
dokumen sehingga proses retrieval tidak terpengaruh oleh panjang dari dokumen. Normalisasi ini diperlukan karena dokumen panjang biasanya
mengandung perulangan term yang sama sehingga menaikkan frekuensi term
tf. Dokumen panjang juga mengandung banyak term yang berbeda sehingga menaikkan ukuran kemiripan antara query dengan dokumen
tersebut, meningkatkan peluang di-retrieve-nya dokumen yang lebih panjang.
Bobot lokal suatu term i di dalam dokumen j tf
ij
dapat didefinisikan sebagai Lee D. L., 1997:
��
�
=
�
��
���
�
�
��
4 fij
merupakan jumlah berapa kali term
i
muncul di dalam dokumen j. Frekuensi tersebut dinormalisasi dengan frekuensi dari most
common term di dalam dokumen tersebut. Bobot global dari suatu term i
pada pendekatan inverse document frequency idf
i
dapat didefinisikan sebagai Lee D. L., 1997:
���
�
= log
� ��
�
5 Dimana df
i
adalah frekuensi dokumen dari term
i
dan sama dengan jumlah dokumen yang mengandung term i. Log digunakan untuk
memperkecil pengaruhnya relatif terhadap tf
ij
. Bobot dari term
i
di dalam sistem IR w
ij
dihitung menggunakan ukuran tf-idf yang didefinisikan sebagai berikut Lee D. L., 1997:
�
��
= ��
��
× ���
�
6
2.6. Tokenizing