Beberapa Ukuran Kesamaan Istilah Menggunakan Nilai Trigram

BEBERAPA UKURAN KESAMAAN ISTILAH
MENGGUNAKAN NILAI TRIGRAM

JURUSAN ILMU KOMPUTER
PAICULTAS MATEMATIKA DAN ILMU PENGETAMUAN ALAM
HNSTITUT PERTANIAN BOGOR
BOGOR
2001

ANDINI NURAMI. Beberapa U k u m Kesainaan Istilal~Menggunakan Nilai Trigram (Several Tcr?,rs
Sinrilarily Measures Using Trigrar?! Value). Dibinibing ole11 JULIO ADISANTOSO dan MEUTHIA
RACHMANIAH.
Dalrun pencarian infom~asiterkadang jumlali dokunlen yang teran~bil terlalu sedikit atau terlalu
banyak dibandingkan dokumen yang relevan dengan keinginan pencari i~ 0 antan qtrcry air dengall istipall-istilah dalam basis data diun~t
berdasarkan lulai ukunn kesamaa~mnya

17

j

Nilai 1&11r=1 kesalllaa~l>0 antara qver

berdasarka~nilai u k u r t kesama;uu~ya

15

4.

Nilai &"ran kesall~aan> 0 antara quer
berdasarkat~~ u l aukuran
i
kesamaan11)'a

20

.i Nilai ukurai~kesainaan > 0 alllam quo
berdasarka~iiiilai ukunn kcsai~iaami)'a

23

2.


6.

Nilai ,lkl1ran kesamaan > 0 antara query mctotlc dengan islilalristilali dala~iibasis data diunit
bcrdasarkaii uilai ukunn kcsaiiiaa~u~ya

2-1

7. Nilai ukuran kesanlaan > 0 anfmq u e y model dengan istilab-istilah dalani basis dafa diurut
berdasarkan nilai ukuran kesamaaru~ya....................................................................................
8. Nilai ukuran kesanaan > 0 antara query stntistika dengan istilah-istilah dalan basis data diurut
. .
berdasarkan mlat u k u m kesanwannya .................................................................................

9. Nilai ukuran kesauaan > 0 antara query regrcsi dengan istilall-istilal~dalan~basis data diumt
berdasarkal nilai ukuran kesanlaamya .................................................................................
10. Nilai ukuran kesamaa~> 0 antan query program dengall istilah-istilah dalam basis data dillrut
berdasarkan nilai ukuran kesa~naannya....................................................................................
I I. Nilai ukuran kesanaan > 0 antam query inform:~sidengan istilalristilali &lam basis data diun~t
berdasarkan ~ l aukuran
i

kesanlaamya ..................... .
............................................................
12. Tabel Jumlah Dokuinen yang Teran~bilpada Senlua Ukuran Kesanlaan
untuk Nilai A n ~ b a ~
(NA)
g 0.1-0.6 ..........................................................................................
13. Tabel Rata-rata Nilai Recall-precision untuk Nilai A~nbang(NA) 0.1-0.6 pa& Ukuran
Kesa~uaanBam (S(q,t)) ..........................................................................................................
14. Tabel Rata-rata Nilai Recall-precision untuk Nilai A ~ n b a l g(NA) 0.1-0.6 pa& Slkurall
.....................................................................
Kesa~naanJaccard (S,(q,t)) ............
....

15. Tabel Rata-rata NilaiRecall-precision untuk Nilai Atnbang (NA) 0.1-0.6 pada Ukural
Kesamaan Dice (S2(q,t)) .........................................................................................................
16. Tabel Rata-rata NilaiRecall-precisio~~
untuk Nilai Anbang (NA) 0.1-0.6 pada Ukuran
Kesaniaan Cosine (S3(q,t))......................................................................................................

PENDAHULUAN

Lstar Belnknng
Sistem temu-kembali inforniasi meli~trntSalton
(1989) adalah sistenl yalig menuoses da11
~iiengolali kuliipula~ dokunien da~i pennintaati
infortnasi, ke~nudian mengidentifikasi dan
menganlbil dokumen yang sesuai dehgan qzrery.
Siste~n ini &pat memudalhi penyimpman.
pengolaha1 da11 pengaksesan infonnasi secara
efektif hi efisien. Penganibilan dokumendoh~melitertelitu tergxitung pada kesamaan antara
dokumen tersebut dengal query, yang diukur
den@i menibandinghi nilai atribut teltentu dari
keduanya.
Dala~iipencariau inforn~asi t e r k a h g timbul
masalah antara laill jumlah dokulnen yang terambil
terlalu sedikit atau terlalu banyak dibandingkan
dengai sekumpulan dokumen yang relevan dengan
keinginai pencari i~lforniasi. Selain itu isi
dokunien yang tera~iibil tidak sesuai deng;ui
keinginan pencari infonnasi (Magdalena, 1996;
Kwok, 1989 dalam Adisantoso, 1997). Masalali

tersebut tinlbul karena pencari i~lfoniiasi
meniberikan bentuk query ben~paistilah atau kata
hnici dari dokumen yang tidak tepat atau terjadi
kesalalial &lam penuilisan query.
Untuk mengatasi lnasalali tersebut dilalcl~kari
penibandingai kesaniaati string cslrii7g si~nilari@).
Metode y211g bac;%zk digunakai acklali metode 1:gram yang tidak tergantu~igpada bal~asatertentu.
Metode ini hatiya membaidi~lgkan11un1f-huruf&ri
kata-kata ta~ipa memperhatikan bahasa yang
digi~nakrui. Jika dua buah string dibandinghi,
niaka aka1 dilututig kunlpula~~
11-gralii dari kedua
kata tersebut. Semakin banyak 17-gram yalig
muncul menunjukhi tingkat kesaniaan string yang
tin& (Pfeifer el a/., 1996). Metode it-gran yang
m e ~ n b e r i h ihasil terbaik dalam petiganibilali kata
yang lnirip adalah digram dan triga111 (Salton,
1989 hi Zaniora ei al., 1981 dola117Pfeifer rl a/.,
1996). Pada penelitian iru akan digonalan metode
trigram karena secara umom &lam bahasa

Indonesia jumlah Iiumf suato kata atau suku kata
yang me~rnnju!&ntingkat kesanaan string yang
tin& adalah ti@.
Tingkat kesruiiaan string i ~ udiliitotig d e n 9 1
~iienjgu~iakat~
ukuwi kesamaan istilah. Kesamaui
istilah i ~ um i p t berguna &lam temu-kembali
inforniasl. Menunlt Kim & Choi (1999). terdapar
berbaga~macam ukuran kesatnaan yang disarankan
utitnk meningkatkan efektivitas temu-kembali
infortiiasi diantaranya addali Jaccard, Dice dan

Cosine. Selania ini pengukuran kesaniaan
dilakuhi berdasarkan jumlah suatu istilall dalani
dokuniel~ da~ike~inidia~idilakuhi penymtan
dokunien berdasarkan nilai kesamamiya. Metode
17-gratii beluni pemah digunakiili sebagai dasar
perl~itungaiukuran kesamaan dillma dilakukan
pengukuran kesaniaati a~~tltara
istilali query daIi kata

kunci dari dohnnen.
Tujunn
Karya ilmiah i ~ ubertujuan untuk menelaah
nietode trigam sebagai dasar perlutu~iganu h ~ r a n
kesamaati &lam sisteln temu-kembali inforniasi.

TINJAUAN PUSTAKA
Sistem temu-Icembnli informasi
Mellllmt Fmkes (1992) sistem temu-kenibali
illforniasi berbeda dengal sisteni manajemen basis
data. Perbedaan iilii terletak pada data obyek dan
inforlnasi yang d i b e r h i .
Data obyek yalig digunakan dalam sisteni
temu-ke~nbaliinfor~nasiadalah dokumen-doku~nen
yang berbasis teks sedruigkai yang digunakan oleh
sistelii ma~ajemenbasis data adalali record-record
yang lebih terstmktor. hlforniasi yang dihasilkal~
ole11 sisteln teniu-kelnbali itlfor~nasi bersifat
probabilistik, yaitu dokuliie~iyang teranlbil tidak
selalu sesuai denjgi yang diinginkan pencari

inforniasi. Dapat terjadi beberapa doicumen yang
teranibil tidak relevan atau dokumen yang
dibutulkan tidak teranbil. Hal ini berbeda dengan
hasil query terhadap basis data yang bersifat
deterniinistik (Frakes, 1992).
Sistem temu-kembali itlforniasi terbagi merijadi
t i p mang lingkup (Salton, 1979 claIai?7
Adisantoso, 1997), yaitu : (1) database reb.ieval
yang ~iienuoses berkas data dasar sederhana
dengall mengg~~naka~i
sejumlah atribut yag sudali
didefinisikan sebagai ciri dari setiap recoro'; (2)
refirelice relrieval dimana record data berupa
dokunie~ib u h ~junial,
,
niajalall atau ballan pustaka
lai~niya; dan (3) fact renieval y a ~ gnieniroses
inforniasi dengan jenis karakteristiic record iebili
konipleks.
Secara prinsip, lnenumt Salt011 (1989)

penpnibilan dolumeli nntok memberikan
inforliiasi yang diminta lianis berdasarkan pada
penentuan kesamaati (shnilarilie,~)antara query da11
dolannen yang disimpati, dan penganibilan
dolumen tersebut menu~ijukkanbaliwa dokunien

yang teraliibil relatif sama dengan qzl.ry yalig
d i b e r i h i (Gambar 1).

Ukuran Kesnmaan (Sintilari* Measrrres)
Misalnya diketaliui suatu hinipuniui dokumen D
dengal ukurai N, yalig memiliki istilali x sebaliyak
df,, drui istilah y sebanyak df, serta yalig metiiiliki
istilah x drui y sebaliyak df,, yang menlpakai
ukuran dari D, n Dy. D, drui Dybertumt-tumt
menlpahi Iiimnpunrui doku~iienyatig mempu~iyai
istilali x drui istilah y (Galiibar 2).

Gambar 1. Konsep temu-kembali illfor~iiasi
me~iunltSalton (1989)


.-

Metode rl-grnm
Pe~ielitualirelevaiisi antara query dan dokunien
yalig disimpai dilakuhi dengan mengllitung ~iilai
Gallbar 2. Himpunan dokumen 2 buah istilah
kesamaan ruitara istilah yang diliiilita pelicari
inforrnasi (queiy) detigan istilali-istilali dalarn
Meliurut Kim & Choi (1999), ukuran kesamaan
doku~iietiyalig tersinipali dalalii basis data.
antara istilah x drui y terdiri dari Jaccard (S,), Dice
Metode 11-graii bbanyak digunakan sebagi (Sz) dan Cosine (S3) dimaia :
pendekatan kesamaan-sh-ing (shi~ig-.sif?ii/ari~y)
yalig iiienglutulig llilai kesamaai aatara istilali
yalig di~ni~ita
pelsari informasi deligal istilah yalig
berada pada basis data. Istilah-istilali dala~iibasis
data yang ~iieliipunyainilai kesamai yang tinggi
dengal query a k a ~ditaiipilhi

~
ulituk menentokan
istilali-istilah yang mu~igkinsesuai dengall yalig
diinginkan pe~icari informasi (Freund & Willet,
1982 rlali71i1Eluiiek~ioglue/a/.,2000).
Menumt Eluiiekqioglu el a/. (2000), 11-gra~ii
adalali kuiiipulati dari n buah karakter ben~rutan
yalig merupdai bagian dari ssuatu kata. Tijuali
utana dari ~iietodeii-pmi iiii adalah kata-kata
yang tiiirip aka1 mempiuiyai bagian-bagian hasil 11gra~iiyang senlpa. Nilai 11 yarig ballyak digunaltan
pada 11-gram adalah 2 atau 3 yang biasa disebut
digralii atau trigam. Contoli digrani dan trigram
ulituk kata KOMPUTER, krtun~t-tumtadalali $K,
Ketiga uktlrai kesa~iiaaiilii didasarkall pada
KO, OM, MP, PU,UT,TE, ER, R$ (digram) dan vektor bi~iari da11 mempuliyai nilai kesaiiiaai
$$K, $KO, KOhf, OMP, MPU, PUT, UTE, TER, istilah a~itara0 da11 1 (Salton, 1989 dala111Kin1 &
ER$, R$$ (trigram). Tanda '$' liiem~lijukkanbagian Choi, 1999). Kelebihan dari ukuran-ukuran
tamballan, maka junilali digan1 hi trigram secara kesamaan
tersebut
adalah
perhituiigamiya
bertun~t-ton~tadalah, n-1 (digra~ii) dan 11+2 sederhana. Telah ballyak sistem yang liieiig(trigram) dari suatu kata yang terdiri &ri 17 buah gunakai salali satu ukturai kesamaan di atas &lam
karakter. Peniberiai bagiai tambahai ini untok meiigevaluasi kesamaai query-dokulnen. Untok
menekankau k e s a i i a i 11-gali1 pada awal dan akliir p e r h i t u ~ i ~ nkesamaan istilalt-istilah. olil~ran
suato kata (Pfeifer el a/., 1996).
kesamaan Jaccard (S1) pernali digunakali pada
tesaurus fi~zzy(Miyamoto, 1990; Oga\va el nl.,
1991 clnla~~iKiln & Choi, 1999). Sedangltan

ukurrui kesamaai Dice (Sz) d a Cosine
~ ~ (S3) pen~ali
digunakai pada susunan tesaurus autolnatis
(Frakes & Yates, 1992 dalatrr Kim & Choi, 1999)

METODE PENELITiAN

Data yalig digunakau dalaln penelitian i ~ u
adalali d o k u ~ ~ ~basil
e l i penelitian pada F A ~ l t a s
Pernbobotnn Dokumel~(Doc~rnterrfWeiglitirig)
MIPA tal~un 2000. Dokumen yalig diguliaka~
Menun~tSalt011 (1989) pe~iibobota~i
dokumen berjumlal~ 137 dokumen yang terdiri dari 23
iui metiiudal~kaupengurutau dokumen 111ulai bobot dokumen GFM, 15 dohmen BIO, 7 doh~menFIS,
terbesar sanpai bobot terkecil (decreasir?g). 13 doku~iieli KOM, 25 dohunen KIM, 20
Semakin kecil bobot dokumen, menulijukkau dokumen MAT, &I 31 doh~menSTK. Setiap
dokumeri tersebut semakin tidak relevau dengall dokumen memponyai atribut yang digutiakan
qziery. Perliit~~ligat~
bobot doku~iiel~
untuk q u e y sebagai ciri dari dokumen, yaitu ID dokumen,
sederhaia &pat didefilusihi sebagai p e ~ i j u n ~ l &judul
~ ~ penelitill dalam baliasa Indonesia &a11
bobot semua 'istila11 dalaui dokunieu yang sesuai Ingris, nama peuulis, lenibaga, kata-kata kunci
d e n p i query. Sedaigkan perhitu~igrui bobot da~iedisi. Selnua dokuliie~itersebut telah tersimpan
dokumen untuk query boolean dilakukai pada tabel Penelitiai dalan basis data.
berdasarhi ekspresi boolea11 yang diberikan.
Selaili itu juga terdapat pembobotan dokt~~iie~iMetode
nod el peluang yang melakukan pe~iibedaa~i
yang
Penelitian ilu dilakuhi ~nelalui beberapa
jelas antara istilal~yalig relevall dengal istila11 yaug tahap, yaitu :
tidak relevau dari suatu dokumen.
tabel kata kunci (istilab) dalani
1. Penibentuka~~
basis data.
Recnll-Precision
2. Penentuan iinput, output, dan alur data sistem
Menun~tSalt011 (1989) recall-precisioi? adalah
teuru-kembali infor~iiasi.
tnetode yalig dipinah1 unh~k menguhr 3. Penentoan perhitungal ~iilaikesamaali istilah
efektivitas teniu-kenbali.
hi bobot dokumen.
Recall ii~erupakanukumi bauyaknya dokumen 3. Percobaan.
relevall yalig tera~ibildari kumpuliui dokumen 5. Analisis.
relevall pada saat query diterapkan.
Pembentuknn tnbel kntn kuuci (istilall) dnlnm
Jumldn dakumen relevan yang terambil
basis data
= Iumlzh seluiuh dokomen iolo.jan Wam basis ds:a
Pada basis data dibuat tabel baru, disebut tabel
Tenns, untuk menyimpan kata-kata kunci. Tabel
Precisian merupalan ukuran relevalisi dari ini menyimpan nomor dokt~men(No), ID dokumen
doktunien yang teran~bil. I>recision menyatakan (ID), kata h ~ n c i(Kunci) dau frekueusi (freq) dari
perba~dingan aitara jumlali dokumen yang kata kunci dalam suatu dokumen. Pe~iyimpaian
teran~bildau relevax denjpi keseluruhaI1 dokumen kata kunci ke dala~utabel Tenns d i l a k u h ~secara
yang reran~bil.
manual. Kata kunci suatu dokumen yaug terdiri
dari beberapa kata aka1 mengalani pemengalan
kata, lalu disimpan satu per satu ke dalam tabel.
Apabila kata kunci dokumen nien~pakan kata
majemuk, maka kata rersebut tidak mengaland
Untok rlriery yang terperinci, nilai /~reci.sio~?
akan p e r n e ~ i ~ l kata.
a n Kata lnajemok adalah gabutiyn
tin& sebab semua dokumen yang ditemo- dua buah kata dasar atau lebih yang mengandung
kembalikan relevan. Namon di lain pihak iulai suato
ban^.
La~~glaIlwh-lan~I~
pengeltian
recall aka11rendall karena lianya sedikit dolct~mel~ penyimpanxi kata ku~icidalam basis data pada
yalig tera~i~bil.Apabila qziery tidak terperinci, tabel i ~ udapat dilihat pa& Gauibar 3.
maka iulai recall a b i tinggi karena banyaluiya
dolumen yalig terambil, sedangkan nilai precisiori
rendah.

dokumen yang digunakai sebagai dasar pencarian
dokt~menyang relevai d e n p i kei~igina~i
pelicari
i~lfor~iiasi.
Kata-kata kunci tersebut aka1 dilulung
tulai kesalilaauiya deligan istilah query yalig
d i b e r i h pelicari illforniasi. Kemudian aka11
diliitung bobot doku~iien berdasarkan llilai
kesamwi yalig diperoleli.

k3Vl kuud sum
label Pmeliliu

Ga~iibar 3.

Diagram penyimpanai kata kunci
dalam basis data

Colitoh kata h n c i yang b u k n kata majemuk
terdapat pada ID dokumen KOM01007 yaitu
aialisis profitabilitas, alalisis produk, bisrus balk',
liiaka pada tabel Teniis kata-kata kunci tersebut
aka11tersimpai seperti pada Tabel 1.

Penentuan input, output, dan nlur data sistern
temo-ltembali iofoi.mnsi
11iput dari sistelii i ~ uadalali query denga11
~iie~iiberika~i
satu kata istilali yalig niempakan kata
kulici dari suatu dokumen yalig terdapat dalam
basis data. Setelah itu, dilakukan liietode trigraii
terliadap istilali query dax kata ki~licikemudian
diliitung ~iilaikesaiiwuiya. La~igkaliselalijutnya
adalah pengliitunpi bobot dokumen dan
outpiltliya adalali undai dokt~men berdasarkan
bobot dokumen secara d ~ w e a s i r ~ g .Un~tan
dokumen dari lulai bobot dokutiieti terbesar hi~igga
terkecil me~iu~ijukkatidokullieli yaug teraiibil
paling dulu adalah dokume~i yang memponyai
tingkat relevansi yang tinggi deligall dokumen
yang diingi~ikaipelicari illfoniiasi. Diagraii slur
kerja sistetii &pat dililiat pada Gaiibar 4.

Tabel 1. Contoli (I) pe~iyimpanankata hlici dalalii
basis data pada tabel Teniis
No

II

ID
Tln\mlnn"

I n

Kulici

....r:.:.

II

Freq
?

Contoli kata kt111ciyalig kata majemuk terdapat
pada ID dokuriieli KOMOlOll yaitu 'cross sellin&
sistem back end, sistem pakar', Illaka pada tabel
Teniis kata-kata ktrnci tersebut alan tersimpan
seperti pada Tabel 2.

i'~w&iluugm

Niloi Lwrnoa idilh

Tabel 2. Contoli ( 2 ) peliyimpa~iankata Icunci dalam
basis data pada tabel Teniis

4. Diagaii alor kerja sistem
I(q,r)~neotpt~nya~
1101:spcruh111:111
S
Slnenl
nllai
yallS
sanln.
-.-.
-.
Terdap:it poln p e ~ u b a l ~nilni
: ~ n yaog burbeda pndo S(q,t) turluk k n t ~ynng dC-nyn s:tlnn
polo perubnl~nn
dengan ntlu lebil~kecil d q r i df,. SJ(q.t). S,(q.t), dn11S2(q.t)tneo~pu~yni
.Maude
S
nilai
y:wg
mlnn.
.
.
--. -. .-- .
-.
.'ferdnp:tr pola pelubnll:~~~
~ulniy a y bcrbd:, pndn S(q,r) I U I I I . ~Lolo y:o~gdf,-nya
c l c ~ ~ g: jx~~l ulcbil~kc;tl d:ui df,. S,(cl.:), S,(q,t). d:an S>[q.r)n~cmpllnynil)o!n p c r u b n l ~ . ~ ~ ~
7
l\lodcl
I nilai yang sama.
I
Terdapat pola perubahan nilai yang berbeda pada S(q f) untuk kata ym~gdf,-nya salna
delilean atau lebili kecil dari df,dcn
Statistikn
12
- ~ ~ i ldafi p l atau 2. S3(cl,t), Sl(cl,t), dan S,(q,t)
lnelllplulyai pola perubaha~ll d a i yang sama.
Terdapat pola perubahan lulai yang berbeda pada S(q,t) uituk k a t ~ymig df,-uya lebil~
Regesi
9
kecil dari df, d y df,,=l.
~
Pada S3(q,t) perbedam pola terlil~atpada kata dgi df,f,=5 dan
df,p2. Sl(q.t) dan S2(q,t)mempunyai pola perubahan nilai yang sama.
Terdapat pola perubahan ~iilaiyalig berbeda pada S(q,t) u~itukkata y.mg df,-nya sama
dengan atau lebih kecil &xi df,. S3(q,t), S,(q,t), dan S2(q,t) mempunyai pola perubahan
Program
9
nilai yang sanm.
Terdapzt pola perubahan nilai yang berbeda pada S(q,t) iuituk kata yarlg dl;-nya mma
dengan atau lebih kecil dari df, d y i ddl,;,,=l,
2 atau 3. S3(g,t), S,(q,t), dan Sl(q,t)
11
LIEonuasi
mempunyai pola perubnhan n l a ~yang sama.
Query

dfq
(17+2)
5

.

-

I

.

7

Pada keenipat uki~rai kesammi, hasil
perhitiniga~inilai kesanmi altara illput query hi
kata ku~lciyang s a n a det~ga~i
input query adalah
satu. Sedaigkaa uutuk kata kunci yalig lain, pada
~ulai ukuwi kesamaai yang dilmsilhi, secara
umum, terlihat pola yang sania pada setiap
keellipat ukumi kesamaau yaitu kata kunci yallg
mempunyai jul~dalitrigram (df,) yaug sans aka11
memiliki ~ulaiyaug sama. Sebagai contoh, pada
Lampimi 2 kata 'arus' d a ~ 'asa11'
i
p a t ~ j a ~kata~ya
g
(n) salia denmi 4, selungga df,-~iya masinglulai kesamaai
l i ~ a s i adalali
~ ~ g 6 (1rI-2). n~e~npu~iyai
yalig sama sesi~aidengiu~uhiran kesamaai ya~ig
digunakai. Namiul selain itu, ju~iilalitrigfa11 yang
sama-sama di~niliki ole11 input query da~ikata
kunci (df,,), jugs niempeli&an~lu ~ulaikesamaai
yalig didapat. Sebagai contoh, kata 'liutan' h~
'bahal' pada Lanpiran 3 mempunyai rt sania
dengal 5 seliingg df,-nya masing-masing adalall 7
(n+2), na~liu~i
kedua kata tersebut memnpu~~yai
nilai
kesamaan yang berbeda. Hal i ~ udisebabkan nilai
df,,, yang berbeda. Trigra~ii untuk qucw hi~jrui
adalah $$11, $1111,huj, uja, jan, ai$, dan I)$$, trigram
uiituk kata 'hutal' adalah $$h, $1111, hut, uta, tal,
an$, hl n$$, dau trigran uutuk kata 'ballail' adalah
$$b, $ba, bah, alm, hai, an$, hi n$$. Dari trigram
yalig di~ililikikata-kata tersebut dapat diketal~ui
~ulaidf;, untuk qucry hujan da~ikata 'lmtai adalah
4 s e d a n m l nilai q,
uutuk quew liiijan da11 kata
'bahan adalah 2, selungga ~ulai kesamaa~niya
berbeda.
Pada Tabel 3 terdapat interpretasi nilai
kesamaan alitara qucq~dengan kata kunci untuk
setiap ukural kesailaai berdasarlml hasil
perliitungai nilai kesamaan ,altars input query
dengan kata kunci yang bemilai lebih besar dvi
1101 (Lampiran 2-11). Secara umum, pola
psrubahan ~ulaikesaliiaali antara ukuran kesamaan
Jaccard (Sl(c~t)),Dice (S2(q,t)) dan Cosilie (Sj(q,t))
sama. Namun untuk beberapa kata tertentu terjadi
perbedaan pola pada S3(q,t). Sedangkan ukuran
kesa~naan baru (S(q,t)) mempo~lyai pola yalig
berbeda d i b n d i n g b i dengal ukuran kesamaan
yang lain. Hal ilu disebabkan kare~iapada S(q,t)
ha~iyanilai terbesar diaiitara df,, dan df, saja yang
digunakan dilam perhitongan.

disebabkan dala~iiperliitunp~ukurati kesamaai,
~ulai df, &I df, saigat ~i~empengaruliihasil
perhitunmi karena merupahi penibagi dari
ukurai kesanmai. Nilai kesaiimi yang didapat i ~ u
akan m e m p e ~ ~ g m liasil
l u perhitunmi bobot suatu
dokumen.
Pada persamaail (5) lulai bobot dokumen
dipet~garulu ole11 dua hal, yaitu jumlali istilali
&la111 basis data yang tiie~iipu~iyai
11ilai kesa~iaan
istilali lebili besar dari no1 hi nilai k e s a ~ n a aitu
~~
sendiri. Pada percobaan saat temu-kembali
doku~nenterdapat dokumen relevan yang inemiliki
bobot dokumen yang lebili kecil dibanding
dokumen yang tidak relevan. Sebagai contoli,
ketika input qucry 'air' pada siste~litemu-kembali
ilforniasi dengiln perlutungai nilai kesammi
S(q,t), S,(q,t), da11 S,(q,t), dokuliie~~
yaug memiliki
kata kuuci 'cair' menipunyai bobot dokumen lebih
besar dibandinghi dokunien relevan. Hal ini
disebabkan selain menuliki kata kulici yang salna
dengall qucry, dokumen releva] tersebut juga
memiliki kata-kata kunci laill yalig mempuliyai
lulai kesamaan lebili besar dari 1101 yaitu 'air',
'analisis' hi 'aktivasi' (Lampira~1).
Dokumen-dokumen
hasil
temu-kembali
ditampilhi secara descerzdirzg berdasarkan bobot
dokumemiya da11 dibatasi deligal ~ulaia~nbaig.
Banyakiya jumlah rata-rata dokuriie~~yang
teranibil pada masing-masing ukumi kesali~aa~i
untuk iiilai ambaig 0.1 sa~iipai0.6 berbeda-beda
(L31iipirm 12 d a l G z I I ? ~6)).
.~

I

Rala-rala jumlah

dokum
yang terambil

I
!
UIcu~.a~i
Kesnm:lnn dali Bobot Doliumen
I.
Dari pembandingai hasil perhitungan ukuran
kesamaai (Lampiral 2-11), ukural kesammi Gambar 6. Rata-rata jumlall dokumen yang
S,(q,t) mempunyai ~ulai kesamaal terkecil
teranibil pada ililai a~libai~g
0.1-0.6
dibanditlgka~i ukunn kesa~ilaa~lyang lain.
Irecision. Apabila nilai ambang
A4anagmiwl.
32:
667-679.
se~iiaki~i
meningkat, nlaka lulai recall-~>~ecisia,t
aka1 se~ilalci~l
~iieningkat.Diantara keempat ukuran
kesamaan yang digmakai pada penelitian ini, Snltolt, G. 1989. Az11o11talicTexl l'rocessin~g : ?lie
~ I Y I I I ~4 1
I a, s i . s a17d Re~rielal u/'
Jaccard menipunyai nilai recall-l~reos~o~i
yang
11ljin71n/o17by Co111p11ler.Addison-\Vesley,
baik untuk setiap nilai ambang. Apabila
Canada.
meliiperhatikan perbandingat1 jumlah rata-rata
dokumen yang teratilbil dengalan jundah rata-rata
dolnnlnen yang relevan, maka lulai alibaig yang
baik digunalan Jaccard ada