Term Frequency LANDASAN TEORI

Penggunaan inverted index di dalam sistem IR memiliki kelemahan yaitu lambat di dalam pengindeksan, tetapi cepat di dalam proses pencarian informasi.

2.5. Term Frequency

Term Frequency TF adalah algoritma pembobotan heuristik yang menentukan bobot dokumen berdasarkan kemunculan term istilah. Semakin sering sebuah istilah muncul, semakin tinggi bobot dokumen untuk istilah tersebut, dan sebaliknya. Hasil pembobotan ini selanjutnya akan digunakan oleh fungsi perbandingan untuk menentukan dokumen – dokumen yang relevan. Terdapat empat buah algoritma TF yang digunakan Wibowo, 2011: • Raw TF Raw TF menentukan bobot suatu dokumen terhadap istilah dengan menghitung frekuensi kemunculan suatu istilah tersebut pada dokumen. Raw TF selanjutnya akan dituliskan sebagai tf. • Logarithmic TF Logarithmic TF mengurangi tingkat kepentingan kemunculan kata dalam menghitung bobot dokumen terhadap suatu istilah dengan melakukan log terhadap TF. Log TF dapat dihitung dengan persamaan: ��� = 1 + log⁡�� 1 • Binary TF Binary TF menyeragamkan bobot dokumen terhadap istilah dengan memberi nilai 0 dan 1. Nilai 1 menyatakan suatu istilah muncul minimal satu kali dalam suatu dokumen, sementara 0 menyatakan sebaliknya. ��� = � 1, ������ℎ ������ ����� ������� 0, ������ℎ ����� ������ ����� ������� 2 • Augmented TF Augmented TF menyeragamkan bobot dokumen terhadap istilah dengan memberikan range antara 0.5 hingga 1 sebagai bobot dokumen. Augmented TF dapat dihitung dengan persamaan: ��� = 0.5 + 0.5 × �� max �� ���� ����� �ℎ ������� 3 Pembobotan lokal tf hanya berpedoman pada frekuensi munculnya term dalam suatu dokumen dan tidak melihat frekuensi kemunculan term tersebut di dalam dokumen lainnya. Pembobotan global digunakan untuk memberikan tekanan terhadap term yang mengakibatkan perbedaan dan berdasarkan pada penyebaran dari term tertentu di seluruh dokumen. Banyak skema didasarkan pada pertimbangan bahwa semakin jarang suatu term muncul di dalam total koleksi maka term tersebut menjadi semakin berbeda. Pemanfaatan pembobotan ini dapat menghilangkan kebutuhan stop word removal karena stop word mempunyai bobot global yang sangat kecil. Pendekatan terhadap pembobotan global mencakup inverse document frequency idf, squared idf , probabilistic idf, GF-idf, entropy. Pendekatan idf merupakan pembobotan yang paling banyak digunakan saat ini. Beberapa aplikasi tidak melibatkan bobot global, hanya memperhatikan tf, yaitu ketika tf sangat kecil atau saat diperlukan penekanan terhadap frekuensi term di dalam suatu dokumen. Faktor normalisasi digunakan untuk menormalkan vektor dokumen sehingga proses retrieval tidak terpengaruh oleh panjang dari dokumen. Normalisasi ini diperlukan karena dokumen panjang biasanya mengandung perulangan term yang sama sehingga menaikkan frekuensi term tf. Dokumen panjang juga mengandung banyak term yang berbeda sehingga menaikkan ukuran kemiripan antara query dengan dokumen tersebut, meningkatkan peluang di-retrieve-nya dokumen yang lebih panjang. Bobot lokal suatu term i di dalam dokumen j tf ij dapat didefinisikan sebagai Lee D. L., 1997: �� � = � �� ��� � � �� 4 fij merupakan jumlah berapa kali term i muncul di dalam dokumen j. Frekuensi tersebut dinormalisasi dengan frekuensi dari most common term di dalam dokumen tersebut. Bobot global dari suatu term i pada pendekatan inverse document frequency idf i dapat didefinisikan sebagai Lee D. L., 1997: ��� � = log � �� � 5 Dimana df i adalah frekuensi dokumen dari term i dan sama dengan jumlah dokumen yang mengandung term i. Log digunakan untuk memperkecil pengaruhnya relatif terhadap tf ij . Bobot dari term i di dalam sistem IR w ij dihitung menggunakan ukuran tf-idf yang didefinisikan sebagai berikut Lee D. L., 1997: � �� = �� �� × ��� � 6

2.6. Tokenizing