Document Indexing and Term Weighting v2

Document Indexing

dan Term Weighting M. Ali Fauzi

Document Indexing

 Setelah melakukan preprocessing, kita

akan mendapatkan sebuah set term yang bisa kita jadikan sebagai indeks.

Indeks adalah perwakilan dari dokumen.aa

Indeks memudahkan proses selanjutnya

dalam teks mining ataupun IR.

Document Indexing  Setelah melakukan preprocessing, kita

akan mendapatkan sebuah set term yang bisa kita jadikan sebagai indeks.

 Indeks adalah perwakilan dari dokumen.

 Indeks memudahkan proses selanjutnya dalam teks mining ataupun IR.

Hasil

Stemming Type Term they - - - - are

Document Indexing Hasil Token Hasil Filtering

applied applied apply apply apply to - - - - the - - - -
words words word word word
in
the

Document Indexing Hasil Token Hasil Filtering Hasil

Stemming

Type Term namanya namanya nama nama nama adalah - - - -

santiago santiago santiago santiago santiago

santiago santiago santiago

_{- -} sudah - - - - memutusk an memutusk an putus putus putus untuk - - - - mencari mencari cari cari cari

Document Indexing  Dalam mebuat sebuah indeks, secara

umum kita tidak memperhatikan urutan kata

“John is quicker than Mary” dan “Mary is

quicker than

John”

memiliki representasi

yang sama

bag of words

Document Indexing  Dalam mebuat sebuah indeks, secara

umum kita tidak memperhatikan urutan kata

 “John is quicker than Mary” dan “Mary is quicker than memiliki

John” representasi yang sama Ini disebut bag of words model.

Document Indexing  Dalam mebuat sebuah indeks, secara

umum kita tidak memperhatikan urutan kata

 “John is quicker than Mary” dan “Mary is quicker than memiliki

John” representasi yang sama  Ini disebut bag of words model.

Hasil

Stemming

Type Term

Document Indexing Hasil Token Hasil Filtering

applied applied apply apply apply to - - - - the - - - -
words words word word word
in
the

Document Indexing Hasil Token Hasil Filtering Hasil

Stemming

Type Term

santiago santiago santiago santiago santiago

_{- -} sudah - - - - memutusk an memutusk an putus putus putus untuk - - - - mencari mencari cari cari cari

Term Weighting

Teks Mining

Term Weighting  Dalam mebuat sebuah indeks, setiap kata/term memiliki bobot/nilai masing-

masing

Ada banyak metode untuk memberikan

bobot

Term Weighting  Dalam mebuat sebuah indeks, setiap kata/term memiliki bobot/nilai masing-

masing



Ada banyak metode untuk

memberikan bobot pada masing-

masing term pada indeks

Term Weighting Term Weighting : Metode untuk

memberikan nilai/bobot pada masing-

term indeks.

Term Weighting 

Beberapa metode Term Weighting yang popular :

 Binary Term Weighting  (Raw) Term-frequency

 Logarithmic Term-frequency  TF-IDF

Binary Term Weighting

Metode Term Weighting

Binary Term Weighting  Masing-masing dokumen

direpresentasikan oleh sebuah binary

vector Dokumen diwakili oleh kolom, dan term diwakili oleh baris Jika kata/term berada pada dokumen

tertentu, maka nilainya 1, jika tidak, maka

Binary Term Weighting  Masing-masing dokumen

direpresentasikan oleh sebuah binary

vector 

Dokumen diwakili oleh kolom , dan term

diwakili oleh baris

Jika kata/term berada pada dokumen

tertentu, maka nilainya 1, jika tidak, maka

Binary Term Weighting  Masing-masing dokumen

direpresentasikan oleh sebuah binary

vector 

Dokumen diwakili oleh kolom , dan term

diwakili oleh baris



Jika kata/term berada pada dokumen tertentu, maka nilainya 1, jika tidak, maka nilainya 0

Binary Term Weighting

Metode term weighting ini tidak

memperhatikan jumlah kemunculan kata

Binary Term Weighting

Misal : terdapat 6 dokumen : Antony and

Cleopatra, Julius Caesar, The Tempest, Hamlet, Othello, dan Macbeth Antony, Brutus, Caesar,

dan 7 kata/term :

Calpurnia, Cleopatra, mercy, dan worser

Binary Term Weighting _Antony Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth ₁ ₁ ₁ _Caesar Brutus ₁ ¹ ₁ ¹ ₁ ¹ ₁ ₁ _Cleopatra Calpurnia ₁ ¹ _worser mercy ₁ ¹ ₁ ¹ ₁ ¹ ₁ ¹ ¹

(Raw) Term-frequency

Metode Term Weighting

(Raw) Term-frequency 

Seperti halnya binary, hanya saja mempertimbangkan jumlah

kemunculan kata pada dokumen: count vector

Term frequency tf dari term t dalam t,d

dokumen d didefiniskan sebagai jumlah

(Raw) Term-frequency 

Seperti halnya binary, hanya saja mempertimbangkan jumlah

kemunculan kata pada dokumen: count vector



Term frequency TF dari term t dalam

t,d

dokumen d didefiniskan sebagai jumlah kemunculan term t pada dokumen d.

(Raw) Term-frequency _{Antony 157} Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth ₇₃ _{Caesar 232 227} Brutus ^{4 157} ₂ ¹ ₁ ₁ Calpurnia _Cleopatra ₅₇ ¹⁰ _worser mercy ₂ ² ₁ ³ ₁ ⁵ ₁ ⁵ ¹

(Raw) Term-frequency 

Term frequency TF

t,d

dari term t dalam dokumen d didefiniskan sebagai jumlah kemunculan term t pada dokumen d.

TF Anthony , Antony and Cleopatra

= 157 TF

Anthony , Julius Caesar = 73

TF Mercy , Macbeth

= 1

(Raw) Term-frequency 

Raw term frequency kurang relevan :

 Sebuah term yang muncul 10 kali pada sebuah dokumen memang lebih penting dalam mewakili dokumen dibandingkan dengan term yang muncul cuma 1 kali.

 Tapi tidak berate 10 kali lebih penting.

(Raw) Term-frequency

Relevance does not increase

proportionally with term frequency.

Log Term-frequency

Metode Term Weighting

Log Term-frequency 

Log Term-frequency dari term t dalam d adalah

1 log tf , if tf    ₁₀ _{t,d t,d} w _t,d 

 0, otherwise 

0 → 0, 1 → 1, 2 → 1.3, 10 → 2, 1000 → 4, etc.

Log Term-frequency 

Log Term-frequency dari term t dalam d adalah

1 log tf , if tf    ₁₀ _{t,d t,d} w _t,d 

 0, otherwise 



0 → 0, 1 → 1, 2 → 1.3, 10 → 2, 1000 → 4, etc.

Log Term-frequency W _{Antony 1+} _tf ^Antony _{& Cleopatra} ^{Julius Caesar} ^The _Tempest ^{Hamlet Othello Macbeth} ₁₀ _{log(157) 1+} ₁₀ _log(73)

Brutus 1+ ¹⁰ ^{log(4) 1+} ¹⁰

^{log(157) 1+}

_{Caesar 1+}

¹⁰

^log(1)

₁₀

_{log(232) 1+}

₁₀

_{log(227) 1+}

₁₀

_{log(2) 1+}

₁₀

_{log(1) 1+}

₁₀

_log(1)

Calpurnia

_{Cleopatra 1+}

¹⁰

^log(10)

₁₀

_log(57)

Mercy

¹⁰

^{log(2) 1+}

¹⁰

^{log(3) 1+}

¹⁰

^{log(5) 1+}

¹⁰

^{log(5) 1+}

¹⁰

^log(1)

₁₀

Log Term-frequency W Julius Caesar Hamlet Othello Macbeth tf & Cleopatra Antony Tempest The Antony Brutus 3.195899652 2.86332286 1.602059991 3.195899652

₁ _Calpurnia _Caesar 3.365487985 3.356025857 1.301029996 ₂ ¹ ¹ _Cleopatra _{Mercy 1.301029996 1.477121255 1.698970004 1.698970004} 2.755874856 ₁

TF-IDF

Metode Term Weighting

TF-IDF 

Nilai TF-IDF dari sebuah term adalah

perkalian antara nilai (Log)TF and nilai IDF -nya.

TF-IDF = TF x IDF Catatan: tanda “-” dalam tf-idf adalah tanda

hubung, bukan minus!. Alternative : TFf.IDF, TF x

IDF

TF-IDF 

Nilai TF-IDF dari sebuah term adalah

perkalian antara nilai (Log)TF and nilai

IDF

 TF-IDF = TF x IDF  Catatan: tanda

“-” dalam tf-idf adalah tanda hubung, bukan minus!. Alternative : TFf.IDF, TF x

IDF

TF-IDF 

Apa itu

IDF ? 

IDF : Inverse Document Frequency atau Kebalikan dari Document Frequency

Document frequency 

Document frequency (df ) adalah t jumlah dokumen yang mengandung

term t

 N df t

N = Jumlah Dokumen

Document frequency 

Document frequency (df ) adalah t jumlah dokumen yang mengandung

term t

  N df t

 N = Jumlah Dokumen

Document frequency _Cleopatra Antony _& _{Julius The} _{Hamlet Othello Macbeth} _Antony _{Caesar Tempest} df _t _{Caesar 232 227} _Brutus 157 _{4 157} ⁷³ ₁ ₂ ₁ ₁ ² ₅ ₃ _Cleopatra Calpurnia _Mercy ₅₇ ₂ ¹⁰ ₃ ₅ ₅ ₁ ₅ ₁ ₁ Worser ² ¹ ¹ ¹ ⁴

Document frequency  Document frequency (df t

) adalah

jumlah dokumen yang mengandung term t

 Rare terms adalah term memiliki nilai df yang kecil

Frequent terms adalah term memiliki nilai

yang besar

Document frequency  Document frequency (df ) adalah t

jumlah dokumen yang mengandung term t

 Rare terms adalah term memiliki nilai df yang kecil



Frequent terms adalah term memiliki

nilai df

yang besar

Inverse Document frequency

Apa itu

IDF ? 

IDF : Inverse Document Frequency atau Kebalikan dari Document Frequency

Inverse Document frequency

muncul di banyak

dokumen

”tidak

penting

”

Misal kata : dan, di, atau, merupakan, tinggi, bisa Sering muncul di hampir semua dokumena

Inverse Document frequency

muncul di banyak

dokumen

”tidak

penting

”



Misal kata : dan, di, atau, merupakan, tinggi, bisa



Sering muncul di hampir semua dokumen

Inverse Document frequency

muncul di banyak

dokumen

”tidak

penting

”



Misal kata : dan, di, atau, merupakan, tinggi, bisa



Sering muncul di hampir semua dokumen

Inverse Document frequency

 Di sisi lain, kata-kata langka yang hanya

muncul di sedikit dokumen, lebih

informatif Misal, kata Meganthropus yang hanya muncul di dokumen sejarah, hampir tidak

pernah muncul di dokumen-dokumen lain

Inverse Document frequency

 Di sisi lain, kata-kata langka yang hanya

muncul di sedikit dokumen, lebih

informatif 

Misal, kata Meganthropus yang hanya muncul di dokumen sejarah , hampir tidak pernah muncul di dokumen- dokumen lain seperti dokumen olahraga, ekonomi, maupun politik.

Inverse Document frequency  Rare terms (Kata-kata langka yang

hanya muncul di dokumen-dokumen tertentu) lebih informatif dibandingkan dengan Frequent terms (kata-kata yang muncul di banyak dokumen)

Oleh karena itu, Rare terms harus memiliki bobot/nilai yang lebih besar daripada Frequent terms

Inverse Document frequency  Rare terms (Kata-kata langka yang

hanya muncul di dokumen-dokumen tertentu) lebih informatif dibandingkan dengan Frequent terms (kata-kata yang muncul di banyak dokumen)



Oleh karena itu, Rare terms harus memiliki bobot/nilai yang lebih besar daripada Frequent terms

Inverse Document frequency

keinformatifan term t



idf (inverse document frequency) dari sebuah term t didefinisikan:

N idf  log ( /df ) t t

Inverse Document frequency

10 

Digunakan log (N/df ) dibanding N/df

t t

untuk efek dari IDF.

“mengecilkan” Menggunakan log berbasis berapapun tidak masalah

Inverse Document frequency

10 

Digunakan log (N/df ) dibanding N/df

t t

untuk efek dari IDF.

“mengecilkan” 

Menggunakan log berbasis berapapun

tidak masalah

Latihan Term df _t idf _t calpurnia

1 animal 100 sunday

1,000 fly 10,000 under

100,000 the 1,000,000

Berbeda dengan TF, sebuah term hanya

Inverse Document frequency df t idf t idf t Antony

2 ¹⁰ log (6/2) 0.47712125 Brutus

3 ¹⁰ log (6/3) 0.30103 Caesar

5 ¹⁰ log (6/5) 0.07918125 Calpurnia

1 ¹⁰ log (6/1) 0.77815125 Cleopatra

1 ¹⁰ log (6/1) 0.77815125 Mercy

5 ¹⁰ log (6/5) 0.07918125 ) /df ( log idf

t t

N 

TF-IDF 

Nilai TF-IDF dari sebuah term adalah

perkalian antara nilai (Log)TF and nilai IDF -nya.

 TF-IDF = TF x IDF Term weighting paling populer

TF-IDF 

Nilai TF-IDF dari sebuah term adalah

perkalian antara nilai (Log)TF and nilai IDF -nya.

 TF-IDF = TF x IDF 

Term weighting paling populer

TF-IDF  TF-IDF = TF x IDF

IDF  log( - 1  tf )  log ( / df ) t d

N TF

_, t _{t d} ,

10 Term yang sering muncul di satu dokumen dan jarang muncul pada dokumen lain akan mendapatkan nilai tinggiaaaaaaaaa

TF-IDF  TF-IDF = TF x IDF

IDF  log( - 1  tf )  log ( / df ) t d

N TF

10  Term yang sering muncul di satu

_, t _{t d} ,

dokumen dan jarang muncul pada dokumen lain akan mendapatkan nilai tinggi

TF-IDF N

  

IDF log( 1 tf ) log ( / df ) t d

10 _{TF-IDF Julius Caesar The Tempest Hamlet Othello Macbeth} _Cleopatra Antony &

_{Caesar 0.266483532 0.265734309 0.103017176 0.079181246 0.07918}

Antony

_Brutus

_{0.482268112 0.962061659 0.301029996}

_{1.524831652 1.366152196}

_Cleopatra

Calpurnia

_Mercy

_{0.103017176 0.116960302 0.134526562 0.134526562 0.07918}

_2.144487465

_1.556302501

Worser

_{0.22910001 0.176091259 0.176091259 0.176091259}

_, t _{t d} ,

Variasi TF-IDF

Metode Term Weighting

Variasi TF-IDF

Term Weighting Lain

Metode Term Weighting

Term Weighting Lain 

Masih ada banyak Term Weighting lain

 Information Gain  Latent semantic indexing 

Mutual information

 TF.IDF.ICF  Dsb.

Document Indexing and Term Weighting v2

Log Term-frequency W Julius Caesar Hamlet Othello Macbeth tf & Cleopatra Antony Tempest The Antony Brutus 3.195899652 2.86332286 1.602059991 3.195899652

Dokumen yang terkait

Pengaruh Good Corporate Governance, Kinerja Keuangan Terhadap Nilai Perusahaan Industri Food and Beverage

PENGARUHNYA TERHADAP HARGA JUAL DAN KEPUTUSAN BISNIS PADA UPT PSTKP BALI – BPPT I Nyoman Normal (Peneliti Akuntansi Keuangan UPT PSTKP Bali – BPPT) Abstracts : Glazur is a material that simialiar of thin mirror and will trickle with

KEPUASAN KERJA SEBAGAI MEDIASI HUBUNGAN KOMUNIKASI DAN BUDAYA ORGANISASI TERHADAP KINERJA KARYAWAN (Studi pada Puri Saron Hotel Group di Bali) Anak Agung Ketut Sri Asih I Wayan Arta Artana Abstract: This study aimed to determine the effect of direct and i

Keywords : Jobtenure, Self-Awareness, Personal Ability, and Individual Excellence

Key words : education and profession of secretary

Numerical Differentiation and Integration

Latar Belakang - Text Pre Processing v2

Document Indexing dan Term Weighting

Combining a Rule-based Classifier with Ensemble of Feature Sets and Machine Learning Techniques for Sentiment Analysis on Microblog

Problem Solving and Search

Dukungan

Links

Document Indexing and Term Weighting v2

Log Term-frequency W Julius Caesar Hamlet Othello Macbeth tf & Cleopatra Antony Tempest The Antony Brutus 3.195899652 2.86332286 1.602059991 3.195899652

Dokumen yang terkait

Pengaruh Good Corporate Governance, Kinerja Keuangan Terhadap Nilai Perusahaan Industri Food and Beverage

PENGARUHNYA TERHADAP HARGA JUAL DAN KEPUTUSAN BISNIS PADA UPT PSTKP BALI – BPPT I Nyoman Normal (Peneliti Akuntansi Keuangan UPT PSTKP Bali – BPPT) Abstracts : Glazur is a material that simialiar of thin mirror and will trickle with

KEPUASAN KERJA SEBAGAI MEDIASI HUBUNGAN KOMUNIKASI DAN BUDAYA ORGANISASI TERHADAP KINERJA KARYAWAN (Studi pada Puri Saron Hotel Group di Bali) Anak Agung Ketut Sri Asih I Wayan Arta Artana Abstract: This study aimed to determine the effect of direct and i

Keywords : Jobtenure, Self-Awareness, Personal Ability, and Individual Excellence

Key words : education and profession of secretary

Numerical Differentiation and Integration

Latar Belakang - Text Pre Processing v2

Document Indexing dan Term Weighting

Combining a Rule-based Classifier with Ensemble of Feature Sets and Machine Learning Techniques for Sentiment Analysis on Microblog

Problem Solving and Search

Dokumen yang Anda mencari sudah siap untuk unduhkan