Penggunaan Bahasa Alamiah dan Kosa Kata Terkontrol dalam Sistem Temu Balik Kembali Informasi Berbasis Teks
PENGGUNAAN BAHASA ALAMIAH DAN KOSA KATA TERKONTROL DALAM SISTEM
TEMU KEMBALI INFORMASI BERBASIS TEKS
JONNER HASUGIAN
Staf Pengajar pada Program Studi Ilmu Perpustakaan Fakultas Sastra USU
1. Pendahuluan
Bahasa dan atau kosa kata (vocabulary) memegang peranan yang sangat
penting dalam efektifitas dan efisiensi penelusuran pada suatu sistem temu kembali
informasi. (Muddamalle, 1998 : 881). Kegiatan penelusuran hanya dapat berlangsung
bila menggunakan kosa kata, sebab kosa kata inilah yang digunakan sebagai alat
(tools) penelusuran untuk menemukan dokumen yang diinginkan. Dalam sistem temu
kembali informasi, kosa kata itu disebut dengan indeks, yang dapat berupa indeks
subjek, pengarang, judul, maupun tesaurus.
Pada dasarnya ada dua pendekatan penelusuran yang lajim digunakan dalam
sistem temu kembali informasi yaitu bahasa alami (natural language), dan kosa kata
terkontrol yang sering juga disebut controlled vocabulary. Kedua pendekatan ini sejak
semula telah digunakan secara luas dalam sistem temu kembali informasi.
Studi tentang efektifitas dan efisiensi penelusuran menggunakan pendekatan
bahasa alamiah (natural language) dan kosa kata terkontrol (controlled vocabulary)
dalam sistem temu kembali informasi telah lama dilakukan. Banyak database yang telah
dibangun untuk digunakan sebagai sarana penelusuran eksperimen dalam rangka
pembuktian efektifitas dan efisiensi dari kedua pendekatan tersebut.
Muddamalle (1998 : 881- 883) mencatat bahwa sejarah bahasa alamiah
(natural language) kontra kosa kata terkontrol (controlled vocabulary) dalam sistem
temu kembali informasi dibagi kepada tiga era. Era pertama dimulai pada abad ke- 19
dengan penekanan kepada popularitas pengindeksan istilah berdasarkan judul (title
term indexing). Pada era ini kosa kata terkontrol atau controlled vocabulary lebih
dominan digunakan dalam penelusuran, terutama digunakan untuk menemukan
cantuman bibliografi dalam katalog berklasifikasi di perpustakaan. Sedangkan
penelusuran berdasarkan bahasa alamiah yang biasa disebut dengan sebutan free-text
searching atau penelusuran dengan teks bebas, baru dalam tahap permulaan dilakukan
pada era ini.
Era kedua dimulai pada saat kehadiran komputer dalam sistem temu kembali
informasi. Pada era ini kegiatan pengindeksan mulai dilakukan dalam bentuk mekanis.
Kemudian, era ketiga dimulai pada pertengahan tahun 1970- an, dimana pendekatan
yang berbeda dilakukan untuk menguji isu natural language versus controlled
vocabulary, melalui pengujian rasio Recall dan Precision dalam sistem temu kembali
informasi pada berbagai database berbasis teks.
Para ahli informasi terus melakukan berbagai penelitian dan percobaan
berkenaan dengan kedua pendekatan tersebut. Hasil yang diperoleh bervariasi antara
satu peneliti dan yang lainnya. Beberapa contoh hasil penelitian tersebut dapat dilihat
di bawah ini.
Pada tahun 1976, Barbara Charton melakukan penelitian melalui penelusuran
pada Chemical Abstracts, untuk menjawab pertanyaan penelitian, Is a controlled
vocabulary necessary ?. Dalam hasil penelitiannya, dia mengemukakan bahwa suatu
penelusuran dengan teks bebas bisa seefektif penelusuran menggunakan controlled
vocabulary, asalkan dilakukan oleh seseorang yang memiliki pengalaman dalam
penelusuran. Penelusuran dengan teks bebas bisa lebih efektif, sebab ada kalanya
penelusuran menggunakan controlled vocabulary mengorbankan ketepatan dalam
kemungkinan mencapai kemudahan.
Markey, Atherton, dan Newton (1982), membandingkan 165 pernyataan
penelusuran dengan teks bebas (free-text search statements) yang digunakan dalam
©2003 Digitized by USU digital library
1
mengakses ERIC database untuk mengetahui apakah konsep ekspresi dengan istilah
teks bebas atau bahasa alamiah dapat juga diekspresikan dari deskriptor ERIC (ERIC
descriptors). Mereka menemukan bahwa salah satu dari setiap delapan pernyataan
penelusuran teks bebas yang tidak direpresentasikan dalam ERIC controlled
vocabulary. Secara keseluruhan, temu kembali teks bebas (free- text retrieval) dengan
menggunakan pendekatan bahasa alamiah menghasilkan perolehan (recall) yang tinggi
dengan ketepatan (precision) yang rendah, dari pada menggunakan pendekatan
controlled vocabulary.
Calkins (1980) sesuai kutipan Muddammalle, dalam hasil pengamatannya
kepada sejumlah penelusur yang hanya menggunakan istilah controlled vocabulary dan
yang hanya menggunakan penelusuran teks bebas, mengemukakan kesimpulan bahwa
penelusuran menggunakan teks bebas dan controlled vocabulary ternyata saling
melengkapi, dan penampilan terbaik yang dicapai dalam penelusuran ialah
menggunakan kombinasi dari keduanya.
Dari ketiga contoh hasil penelitian yang dikemukakan di atas, dapat dilihat
bahwa efektifitas dan efisiensi penelusuran menggunakan pendekatan bahasa alamiah
atau penelusuran dengan teks bebas (free-text search) ada kalanya lebih baik dari
pada kosa kata terkontrol, demikian sebaliknya pendekatan menggunakan controlled
vocabulary ada kalanya lebih baik dari bahasa alamiah. Mengingat banyaknya
penelitian dan eksperimen yang telah dilakukan untuk menguji kedua pendekatan
tersebut, maka keunggulan maupun kelemahan dari kedua pendekatan tersebut telah
banyak yang diketahui. Tulisan ini mencoba mengangkat isu tersebut untuk dibahas
secara teoritis melalui tinjauan literatur.
Sasaran utama yang akan dicapai dalam tulisan ini ialah mengetahui sejumlah
keunggulan dan kelemahan penelusuran menggunakan pendekatan bahasa alamiah
(natural languages) dan kosa kata terkontrol (controlled vocabulary). Kemudian akan
direkomendasikan pendekatan mana yang ideal digunakan dalam sistem temu kembali
informasi berbasis teks. Akan tetapi sebelum pembahasan itu dilakukan, terlebih dahulu
akan dibahas beberapa hal yang menyangkut dengan sistem temu kembali informasi
berbasis teks antara lain, Pengertian dan Fasilitas Sistem Temu Kembali Informasi
Berbasis Teks, Keefektifan Sistem Temu Kembali Informasi Berbasis Teks, serta
Pengindeksan dan Bahasa Indeks Dalam Sistem Temu Kembali Informasi.
2. Pengertian, dan Fasilitas Sistem Temu Kembali Informasi Berbasis Teks
Pada dasarnya sistem temu kembali informasi adalah suatu proses untuk
mengidentifikasi, kemudian mema nggil (retrieve) suatu dokumen dari suatu simpanan
(file), sebagai jawaban atas pemintaan informasi. Pengertian lain menyatakan bahwa
sistem temu kembali informasi adalah proses yang berhubungan dengan representasi,
penyimpanan, pencarian dengan pemanggilan informasi yang relevan dengan
kebutuhan informasi yang diinginkan pengguna. (Ingwerson, 1992 : 49). Pendapat ini
menunjukan bahwa pada sistem temu kembali informasi terkandung sejumlah kegiatan
yang meliputi proses penyimpanan, penyediaan representasi, identifikasi serta
pencarian atau penelusuran dokumen yang relevan pada suatu database, dalam
rangka memenuhi kebutuhan informasi dari pengguna. Dari sekian banyak sistem temu
kembali yang ada,salah satu diantaranyya adalah sistem temu kembali informasi
berbasis teks atau tekstual.
Sitem temu kembali tekstual adalah salah satu dari berbagai sistem yang
mengelola penyimpanan teks secara terkomputerisasi, kemudian temu kembali
informasinya. (Rowley, 1987 : 1). Dalam sistem temu kembali tekstual, fokus utama
ialah terletak pada penyimpanan dan temu kembali informasi berbasis teks, dan bukan
data numerik, tabulasi, atau data grafis semata. Tetapi dalam kenyataannya ,
dokumen- dokumen yang ada saat ini jarang yang hanya terdiri dari informasi berbasis
teks semata, melainkan dokumen yang berupa gabungan dari numerik, tabel, grafis,
image dan sebagainya dengan teks.
©2003 Digitized by USU digital library
2
Umumnya sitem temu kembali tekstual didesain untuk memberi suatu kawasan
titik akses (access points) kepada suatu database dari informasi yang relatif tidak
terstruktur, yang lajim dikenal dengan sebutan teks bebas. Oleh karena itu, kegiatan
free-text search dapat dilakukan dengan menggunakan bahasa alamiah (natural
language) dari dokumen yang berbentuk teks yang tersimpan dalam suatu database.
Keadaan ini sangat menolong pengguna awam yang tidak mampu menelusur dengan
menggunakan bahasa indeks (controlled language) yang dibuat oleh indekser, seperti
halnya tesaurus atau tajuk subyek tertentu.
Teskey (1984) dalam suntingan Rowlands mengidentifikasikan ada empat fungsi
yang paling penting, yang bisa terbukti dalam segala jenis sistem temu kembali
informasi tekstual yang baik, yaitu bahwa suatu sistem temu kembali informasi tekstual
yang baik, seharusnya dapat untuk: (a) menerima dan menyusun berbagai teks dari
berbagai sumber; (b) menetapkan penyimpanan yang sesuai untuk semua teks, (c)
mendapatkan/memperoleh informasi yang spesifik dari teks yang tersimpan dalam
merespon queries yang diberikan; (c) memproses teks yang didapatkan, dan
menyajikannya kepada pengguna dalam format yang dapat diterima (acceptable).
Suatu sistem temu kembali berbasis teks, secara normal karakteristiknya dilihat
dari fasilitas temu kembali yang dimilikinya. Seringkali suatu sistem temu kembali tidak
dapat menelusur informasi melalui field-field tertentu atau khusus, karena
keterbatasan fasilitas yang dimilikinya. Oleh karena itu fasilitas penelusuran yang
ditawarkan dalam suatu sistem temu kembali, adalah merupakan salah satu unsur yang
paling penting dalam memilih paket- paket informasi berbasis teks.
Secara umum bahwa suatu sistem temu kembali tekstual memiliki sejumlah
fasilitas yang dapat digunakan untuk: pertanyaan atau bahasa perintah (query or
command language); formulasi pertanyaan Boolean (Boolean query formulation);
pemurnian
penelusuran
(search
refinement);
pemendekan/pemotongan
dan
penelusuran rentetan teks (truncation and text string searching); daftar kata
takterpakai dalam penelusuran (stop list or common word list); tesaurus / pendukung
perbendaharaan kosa kata (thesaurus / vocabulary support); kedekatan penelusuran
(proximity searching); pembatasan penelusuran dengan ruas (limiting searching by
field); dan penelusuran kawasan numerik ( numeric range searching). (Rowlands, 1987
: 7- 8). Sejumlah fasilitas yang disebutkan di atas sangat diperlukan untuk melakukan
penelusuran pada suatu database. Kelengkapan fasilitas ini tentu sangat
mempengaruhi keefektifan sistem temu kembali informasi, yang tentu akan berdampak
kepada tingkat ketepatan (precision) dalam penelusuran.
3. Efektifitas Sistem Temu Kembali Informasi Berbasis Teks
Pesatnya kemajuan teknologi informasi khususnya komputer disertai dengan
dukungan kecanggihan perangkat lunak (software) mengakibatkannya mampu menata,
menyimpan sejumlah besar informasi dan menyediakan akses terhadap informasi
tersebut dengan cepat dan tepat. Kemajuan itu sangat berpengaruh kepada
perkembangan sistem temu kembali informasi (information retrieval system).
Keakuratan dan kecepatan dari suatu sistem informasi sangat diharpakan dalam upaya
memenuhi kebutuhan pengguna untuk memperoleh informasi yang diinginkannya.
Efektifitas dari suatu sistem temu kembali informasi adalah kemampuan dari
sistem itu untuk memanggil berbagai dokumen dari suatu basis data sesuai dengan
permintaan pengguna. Efektifitas dari sistem temu kembali informasi tersebut dapat
diukur. Ada dua hal penting yang biasanya digunakan dalam mengukur kemampuan
suatu sistem temu kembali informasi yaitu rasio atau perbandingan dari perolehan
(recall), dan ketepatan (precicion). (Lee Pao, 1989 : 225).
Perolehan (recall) berhubungan dengan kemampuan sistem untuk memanggil
dokumen yang relevan, sedangkan ketepatan (precision) berkaitan dengan
kemampuan sistem untuk tidak memanggil dokumen yang tidak relevan. Rasio dari
©2003 Digitized by USU digital library
3
tingkat perolehan (recall) dan ketepatan (precision) yang dicapai dalam kegiatan
penelusuran dapat diungkapkan sebagai berikut :
Recall =
Jumlah dokumen relevan yang terambil
------------------------------------------------------------Jumlah dokumen relevan yang ada dalam database (file)
Jumlah dokumen relevan yang terambil
Precision = -----------------------------------------------------Jumlah dokumen yang terambil dalam pencarian
Rasio dari recall sebenarnya sulit diukur karena jumlah seluruh dokumen yang
relevan dalam database sangat besar. Oleh karena itu presisi-lah (precision) yang
menjadi salah satu ukuran yang digunakan untuk menilai keefektifan suatu sistem temu
kembali informasi. Untuk memudahkan pemahaman akan kedua rasio tersebut, berikut
dikemukakan sebuah contoh soal dan perhitungan penentuan recall dan precision.
Andaikan suatu file database menyimpan 100 dokumen. Pada suatu
penelusuran, ada 10 dokumen terambil (retrieved) dan hanya 4 dokumen terambil
dalam pencarian yang relevan dengan pertanyaan (query), kemudian ada 2 dokumen
lain dalam file dabase diketahui relevan kepada query akan tetapi tidak terambil (not
retrieved). Untuk menghitung rasio recall dan precision dari seperti disebut pada soal
di atas, sering digunakan tabel berikut :
Tabel Perhitungan Recall dan Precision
Relevant
Not Relevant
Retrieved
4 (a)
6(b)
Not Retrieved
2(c)
88 ( d )
Total
6
94
Total
10
90
100
Berdasarkan tabel di atas, sekarang perhitungannya dapat dilakukan dengan
mengacu kepada kepada rasio yang telah dikemukakan sebelumnya. Untuk menghitung
rasio recall, terlebih dahulu kita tentukan jumlah dokumen relevan yang terambil,
berdasarkan data pada tabel yaitu a , sedangkan Jumlah dokumen relevan yang ada
dalam database adalah a + c. Dengan demikian rasio recall ( R ) tersebut dapat
dinyatakan sebagai berikut :
a
R = -----a+c
=
4
------4+2
= 0,66
Selanjutnya untuk menghitung precision, hal yang sama pada penghitungan
recall diberlakukan yaitu jumlah dokumen relevan yang terambil adalah a , sedangkan
Jumlah dokumen yang terambil dalam pencarian adalah a + b . Dengan demikian rasio
precision ( P ) dapat dinyatakan sebagai berikut :
©2003 Digitized by USU digital library
4
Precision =
a
-------a+b
4
= ------4+6
= 0,40
Kondisi ideal dari keefektifan suatu sistem temu kembali informasi adalah
apabila rasio recall dan precision sama besarnya (1 : 1 ). (Lee Pao, 1989 : 229).
Selain itu, suatu sistem temu kembali dinyatakan efektif apabila hasil penelusuran
mampu menunjukkan ketepatan (precision) yang tinggi sekalipun perolehannya rendah
(Rowley, 1992 : 172)
4. Pengindeksan dan Bahasa Indeks Dalam Sistem Temu Kembali Informasi
Salah satu faktor yang berpengaruh terhadap sistem temu kembali ialah
pengindeksan dokumen. Pengindeksan (indexing) mencakup proses pencatatan ciri- ciri
dokumen, analisis isi, klasifikasi maupun pembuatan entri ke dalam bahasa indeks.
Tujuan pengindeksan ialah untuk memungkinkan ditemukannya dokumen yang relevan
dengan pertanyaan (query) dengan tepat.
Kegiatan pengideksan akan menghasilkan indeks. Meadow (1992 : 69- 70)
mengemukakan bahwa indeks adalah merupakan cantuman dari bermacam-macam
atribut yang diharapkan dapat digunakan sebagai dasar pencarian dokumen. Jika
atribut tersebut berupa subjek, maka indeks yang mewakilinya disebut sebagai indeks
subjek. Sedangkan bila atribut tersebut berupa pengarang, maka indeks yang
mewakilinya disebut sebagai indeks pengarang. Umumnya kegiatan pengindeksan
adalah berupa pengindeksan subjek, namun dalam kenyataannya di perpustakaan
indeks subjek dan pengarang sama - sama digunakan dalam sistem temu kembali.
Indeks di perpustakaan berfungsi sebagai sarana atau kunci yang menunjukkan
kepada penelusur dokumen- dokumen yang potensial relevan dengan permintaannya.
Sarana itu sering disebut sebagai wakil dari dokumen yang dimiliki, yaitu berupa
katalog perpustakaan. Dengan demikian fungsi indeks pada database maupun
perpustakaan pada prinsipnya adalah sama yaitu sebagai sarana temu kembali.
Tujuan utama dari pengindeksan ialah untuk membentuk representasi dari
dokumen dalam bentuk yang sesuai untuk dicantuman dalam berbagai tipe database
(Lancaster, 1998 : 1). Indeks sebagai representasi dari dokumen diharapkan dapat
menggambarkan isi atau subjek yang terkandung di dalam dokumen tersebut, sehingga
dapat ditemukan kembali melalui istilah (index term) yang digunakan.
Pada dasarnya ada dua jenis bahasa indeks yaitu bahasa alamiah (natural
language) dan kosa kata terkontrol (controlled vocabulary). Bahasa alamiah adalah
bahasa dari dokumen yang diindeks. Biasanya bahasa tersebut merupakan bahasa
yang tidak terkendali (uncontrolled vocabulary). Bahasa alamiah ini umum digunakan
dalam komunikasi dan penulisan ilmiah, yang banyak dipakai oleh pengarang
(Lancaster, 1986 : 159). Sedangkan kosa kata terkontrol dapat berupa indeks subjek,
pengarang, judul maupun tesaurus.
Ditinjau dari sisi sistem temu kembali informasi, tesaurus adalah suatu daftar
pengendali (authority list) istilah- istilah khusus yang digunakan dalam sistem temu
kembali informasi. Akan tetapi bila ditinjau dari segi fungsinya tesaurus adalah sarana
pengawasan istilah yang digunakan untuk penerjemahan bahasa alamiah dokumen ke
bahasa yang lebih terkendali. Tesaurus berisi sejumlah istilah indeks dengan
menggunakan bahasa yang terkendali, sehingga sering disebut juga dengan bahasa
©2003 Digitized by USU digital library
5
terkontrol (controlled language). Tujuan utama tesaurus adalah juga untuk
memudahkan temu kembali dokumen, dan untuk mencapai konsistensi dalam
pengindeksan dokumen pada sistem simpan dan temu kembali informasi.
Dalam bahasa pengindeksan kosa kata terkontrol seperti tesaurus, istilah yang
digunakan untuk menyatakan kandungan atau isi suatau dokumen telah dibakukan
dalam suatu daftar indeks yang disusun secara alfabetis, misalnya Sears List of
Subject Heading, Library of Congress Subject Heading, Macro Economics Thesaurus,
DDC Index, dan sebagainya. Sedangkan pengindeksan bahasa alamiah adalah
pengindeksan yang dilakukan pada semua istilah baik dari judul, abstrak, maupun dari
teks lengkap (full text) dokumen, terkecuali stop word atau daftar kata umum yang
tidak digunakan dalam penelusuran (Rowley, 1992 : 272). Semua istilah indeks yang
dihasilkan adalah bergantung kepada bahasa dokumen itu sendiri, dan semuanya itu
dapat merupakan representasi dari dokumen itu. Mengingat volume pengindeksan
dalam bahasa alamiah ini sangat besar, maka biasanya dilakukan oleh komputer.
Bahasa alamiah dan kosa kata terkontrol adalah dua bahasa hasil dari
pengindeksan yang sama -sama dapat dipergunakan sebagai representasi dokumen.
Kedua bahasa pengindeksan tersebut digunakan pada waktu pemasukan (input) data
ke database, dan akan digunakan juga pada waktu pencarian / penelusuran (output )
informasi dari database. Yang manakah diantara keduanya yang paling baik digunakan
dalam pencarian / penelusuran informasi pada suatu database ?
5. Bahasa Alamiah versus Kosa Kata Terkontrol Dalam Sitem Temu Kembali
Informasi
5.1. Keunggulan dan Kelemahan Bahasa Alamiah
Keungulan maupun kelemahan bahasa alamiah dalam sistem temu kembali
informasi sangat bervariasi dan kompleks. Banyak faktor yang mungkin dapat
mempengaruhinya. Banyak keunggulan dari penggunaan bahasa alamiah dalam
penelusuran informasi, beberapa diantaranya adalah :
(a) Bahasa alamiah dapat dengan mudah dimengerti oleh pengguna tanpa harus
memerlukan pelatihan khusus, dan berbagai nuansa makna dapat diekspresikan
dengan lebih leluasa (Meadow, 1992 : 37- 38). Maksudnya, dengan kekayaan
perbendaharaan kosa kata, memungkinkan penelusur mengekspresikan gagasan,
perasaan dan keinginannya dengan berbagai cara dan nuansa untuk mendapatkan
dokumen yang diinginkannya.
(b) Bahasa alamiah memiliki spesifikasi (specification) yang tinggi (Lancaster, 1977 :
23). Spesifikasi istilah ini muncul karena dapat menggunakan seluruh isitilah yang
terdapat dalam dokumen sebagai query. Spesifikasi istilah akan memudahkan
pencarian untuk mendapatkan ketepatan (precision) yang tinggi. Semakin tinggi
spesifikasi istilah yang digunakan dalam penelusuran, maka akan semakin tinggi
ketepatan (precision), sedangkan perolehan (recall) akan semakin rendah.
Sebaliknya bila spesifikasi istilah rendah, maka perolehan (recall) akan semakin
tinggi, sedangkan ketepatan (precision) cenderung rendah. Misalnya, bila kita
menggunakan istilah “LINGUISTICS” untuk mencari dokumen yang memuat penelitian
tentang logat bahasa pada suatu database, maka jumlah perolehan (recall) pasti
akan tinggi, sedangkan ketepatan (precision) akan rendah, karena istilah
“LINGUISTICS” adalah istilah umum dalam ilmu bahasa yang berarti spesifikasinya
rendah. Akan tetapi bila kita menggunakan istilah “DIALECT ”, maka jumlah perolehan
(recall) akan rendah, sedangkan ketepatan (precision) tinggi, karena istilah
“DIALECT” adalah isitilah khusus, yang berarti spesifikasinya tinggi.
(c) Bahasa alamiah memiliki kedalaman (exhaustivity) yang tinggi (Foskett, 1985 :
114). Artinya, banyak tema atau subjek baru yang dihasilkan dokumen yang dapat
dijadikan sebagai istilah baru dalam penelusuran. Karena, pada prinsipnya bahwa
©2003 Digitized by USU digital library
6
semua kata terkecuali stop word dapat dijafikan sebagai keyword dalam
penelusuran.
(d) Penelusur yang merupakan praktisi dalam bidangnya dapat melakukan penelusuran
dengan bahasa alamiah dengan lebih efektif.
Selain memiliki sejumlah keunggulan, bahasa alamiah juga memiliki berbagai
kelemahan, beberapa diantaranya adalah :
(a) Bahasa alamiah tidak atau kurang ringkas ( lack of consiseness) (Meadow, 1992 :
38). Query yang digunakan penelusur sering berupa kata atau istilah berbeda atau
tidak standar sehingga sering terjadi kehilangan informasi saat penelusuran.
Misalnya, seorang penelusur ingin mendapatkan dokumen tentang Proses yang
dialami seseorang untuk menjadi semakin tua. Lalu dia menggunakan query
“PROSES MAKIN TUA”. Dengan query itu, mungkin penelusur tersebut akan
mendapatkan perolehan (recall) yang ketepatannya (precsion) tidak ada, karena
dokumen yang berisi istilah itu tidak ada. Akan tetapi bila penelusur itu
menggunakan istilah indeks subjek “PENUAAN” sebagai query, mungkin akan dia
peroleh (recall) sejumlah dokumen yang ketepatannya (precision) sangat tinggi,
yang berarti sangat sesuai dengan yang diinginkannya. Kesalahan yang terjadi
sebenarnya terletak pada penyusunan atau pemilihan istilah yang tepat sebagai
query.
(b) Mempunyai ambiguitas (ambiguity) yang tinggi. (Meadaw, 1992 : 37). Muddamalle
(1998 : 881) menyebut bahwa …”natural language is full of ambiguities”.
Ambiguitas adalah kata atau istilah yang dapat memiliki lebih dari satu arti sehingga
mengakibatkan kerancuan. Ambiguitas dapat terjadi karena sinomim atau homograf.
Sinonim yaitu bentuk kata yang berbeda tetapi artinya sama, dapat menyebabkan
terpencarnya informasi mengenai topik yang sama. Misalnya, kata sado, dokar,
delman. Homograf yaitu kata- kata yang ejaannya sama tetapi maknanya berbeda,
misalnya raut artinya meruncingkan, menghaluskan, tetapi raut dapat juga artinya
tampang, potongan. Sinonim dan homograf dapat mengakibatkan false drops yaitu
terjaringnya dokumen yang sama sekali tidak relevan, atau subjek yang tidak
relevan ikut terjaring atau terambil dalam proses temu kembali.
(c) Kesulitan komputer untuk menginterpretasikan teks (Meadaw, 1992 : 37).
Kelemahan ini terjadi karena ketidak mampuan sistem menyerap atau menangkap
makna dari suatu pernyataan. Hal ini terjadi karena dalam memroses bahasa alami,
komputer tidak bisa bekerja sebagaimana otak manusia, terkecuali komputer
tersebut dilengkapi dengan suatu knowledge base. Misalnya, seseorang ingin
mencari dokumen tentang “Perpustakaan Sekolah” pada suatu database, maka ia
akan menggunakan query Perpustakaan AND Sekolah, akan tetapi dalam pencarian
dokumen tentang “Sekolah Perpustakaan”, juga akan terjaring atau terambil,
padahal konsep “Perpustakaan Sekolah” dengan “Sekolah Perpustakaan” mempunyai
makna yang berbeda. Dalam keadaan ini juga terjadi false drops.
5.2. Keunggulan dan Kelemahan Kosa Kata Terkontrol
Banyak keunggulan dari penggunaan kosa kata terkontrol (controlled
vocabulary) dalam sistem temu kembali informasi, beberapa diantarnya adalah :
(a) Proses penelusuran dan temu kembali informasi lebih efisien (Korfhage, 1997 : 24).
Artinya, dengan menggunakan kosa kata terkontrol seperti indeks subjek atau
tesaurus dalam penelusuran, maka ketepatan dari dokumen yang terambil dengan
kebutuhan pengguna dapat diperoleh dalam waktu yang relatip singkat.
©2003 Digitized by USU digital library
7
(b) Mempunyai representasi dokumen yang konsisten. Kosa kata atau istilah yang
digunakan dalam pengindeksan dokumen pada saat input sistem adalah kosa kata
yang terkontrol dan standar. Oleh karena itu, bila kosa kata atau istilah tersebut
kemudian dijadikan sebagai query untuk pencarian atau penelusuran, maka sudah
pasti akan tetap mewakili atau merepresentasikan dokumen yang sama seperti pada
saat input sistem dilakukan. Misalnya, pada input sistem dokumen A
direpresentasikan oleh kosa kata atau indeks subjek “MICROBIOLOGY ”, pada waktu
pencarian, seorang penelusur menggunakan “MICROBIOLOGY” sebagai query- nya,
maka penelusur tersebut pasti akan menemukan dokumen A karena representasi
dokumennya tetap konsisten. Dengan demikian selalu terjadi kesamaan penggunaan
istilah diantara pengindeks (indexer) dengan penelusur (searcher)
(c) Memudahkan penelusuran komprehensif dengan menyatukan istilah terkait secara
semantis (Lancaster, 1977, 2). Maksudnya, ada kalanya suatu kosa kata atau
indeks subjek tertentu mempunyai hubungan makna dengan indeks yang lain,
sehingga dapat digunakan untuk memperkuat pencarian. Misalnya untuk mencari
dokumen tentang “pengebalan tubuh manusia terhadap penyakit”, maka kosa kata
atau indeks subjek yang dapat dijadikan sebaga query ialah “IMMUNIZATION”, akan
tetapi untuk menguatkan pencarian penelusur juga dapat menggunakan kosa kata
lain seperti “VACCINATION”, karena kedua kosa kata di atas adalah terkait secara
semantis.
(d) Memiliki ambiguity yang sangat kecil. Ambiguitas atau kerancuan dapat diminimize
dengan sekecil mungkin karena kosa kata dapat mengontrol sinonim dan homograf.
Selain keunggulan, penggunaan kosa kata terkontrol (controlled vocabulary)
pada sistem temu kembali juga mempunyai banyak kelemahan, sebagian diantaranya
adalah :
(a) Kosa kata terkontrol harus selalu diperbaharui. Perkembangan ilmu dan teknologi
menyebabkan munculnya berbagai subjek baru yang sekaligus juga berdampak
terhadap pemunculan atau penghilangan suatu istilah atau kosa kata. Oleh karena
itu, suatu tajuk subjek atau tesaurus pada suatu periode tertentu harus
diperbaharui untuk bisa menyesuaikan diri sesuai perkembangan (Muddamalle, 1998
: 881). Misalnya, bila kita menelusur dengan istilah atau kosa kata “CANCER”
sebagai query pada indeks DDC edisi ke 19, maka kita akan dirujuk dengan kata see
“TUMORS”. Sekalipun keduanya semantis, namun terdapat perbedaan. Ini terjadi
karena pada indeks DDC edisi ke 19 subjek CANCER belum dijabarkan secara lengkap
karena mungkin pada masa itu istilah cancer masih belum populer. Akan tetapi bila
ditelusur pada indeks DDC edisi ke 20 dan 21, istilah tersebut telah dijabarkan
secara rinci. Hal itu menunjukkan bahwa indeks DDC tersebut diperbaharui secara
berkala.
(b) Kosa
kata terkontrol (controlled vocabulary) sering dihadapkan kepada
ketidakcocokan (incompatibility) istilah diantara satu database dengan database
yang lainnya pada bidang ilmu yang sama (Lancaster, 1986 : 159). Misalnya, CAB
CD-ROM dan Agricola CD-ROM adalah dua database yang memuat indeks dan
abstrak penelitian pada bidang ilmu yang sama yaitu Pertanian. Akan tetapi ada
kalanya beberapa kosa kata atau istilah yang digunakan untuk indeks subjek pada
kedua database tersebut berbeda. Hal ini tentunya bisa menyulitkan penelusur bila
melakukan penelusuran pada kedua database tersebut.
(c) Kurangnya spesifikasi dalam kosa kata. Berbeda dengan bahasa alamiah, dimana
penelusur dapat menggunakan secara bebas kosa kata yang spesifik. Akan tetapi
pada kosa kata terkontroll, spesifikasi istilah ditentukan oleh ketersediaannya pada
indeks subjek atau tesaurus.
(d) Kosa kata terkontrol memiliki struktur yang tidak lengkap. Artinya rincian subjek
adalah sangat terbatas untuk pencarian atau penelusuran komprehensif.
©2003 Digitized by USU digital library
8
(e) Kosa kata terkontrol memerlukan biaya dan upaya yang besar pada waktu input
sistem yaitu pada saat pengindeksan dilakukan. (Lancaster, 177 : 7).
5.3. Pendekatan penelusuran yang ideal.
Dengan menguraikan sejumlah keunggulan dan kelemahan dalam melakukan
penelusuran menggunakan pendekatan bahasa alamiah (natural language) dan kosa
kata terkontrol (controlled vocabulary) sebagai mana dijelaskan di atas, maka mucul
pertanyaan, “pendekatan manakah yang ideal dilakukan dalam melakukan penelusuran
dalam sistem temu kembali informasi ?“
Untuk menjawab pertanyaan tersebut, Manikya Rao Muddamalle (1998 : 881887) melalui penelitiannya yang berjudul “Natural Language versus Controlled
Vocabulary in Information Retrieval: a Case Study in Soil Mechanics”, menyatakan
bahwa temu kembali bahasa alamiah dan kosa kata terkontrol menunjukkan hasil yang
sangat efektif, dengan perbedaan atau dengan batasan yang sangat tipis, hasilnya
tidak jauh berbeda. Untuk mencapai temu kembali yang opt imum, suatu teknik temu
kembali dengan kombinasi bahasa alamiah dan kosa kata terkontrol dapat diadopsi.
Teknik penelusuran secara kombinasi ini telah diuji, dan ditemukan hasil bahwa
terdapat penambahan 5 % hasil temu kembali melebihi atau lebih tinggi dari pada hasil
temu kembali secara terpisah. Oleh karena itu, alternatif bahasa alamiah atau
kosakata terkontrol tidak perlu diperlakukan lebih lama sebagai teknik terpisah, akan
tetapi lebih baik diperlakukan bersama sebagai suatu teknik kombinasi yang ideal.
6. Kesimpulan
Bahasa atau kosa kata (vocabulary) memegang peranan yang sangat penting
dalam efektifitas dan efisiensi penelusuran pada suatu sistem temu kembali informasi
Pendekatan bahasa alamiah dan kosa kata terkontrol dalam sistem temu kembali
informasi berbasis teks sama- sama memiliki keunggulan dan kelemahan. Kedua
pendekatan tersebut tetap masih efektif untuk digunakan. Akan tetapi teknik temu
kembali dengan menggunakan kombinasi dari bahasa alamiah dan kosa kata terkontrol
adalah bentuk pendekatan yang ideal digunakan dalam temu kembali informasi. Dengan
demikian penelusuran menggunakan bahasa alamiah atau natural language dan kosa
kata terkontrol atau controlled vocabulary ternyata saling melengkapi
Referensi
Dimitroff, Alexandra. “Affective Response and Retrieval Performance: Analysis of
Contributing Factors”. Library and Information Science Research. 18,
1995 : 121132.
Frants, Valery I. Automated Information Retrieval: Theory and Methods, Academic
Press, New York, 1997.
©2003 Digitized by USU digital library
9
Hasibuan, Zainal A. “Kajian Sistem Temu-Kembali Informasi: Pergeseran Paradigma dari
Orientasi Teknologi ke Orientasi Pemakai”. Prosiding Seminar Sehari Layanan
Pusdokinfo Berorientasi Pemakai di Era Informasi. Depok, 16 Maret 1996.
Hasibuan, Zainal A.”Pendekatan Struktur Dokumen Dalam Sistem Temu- Kembali
Informasi”. Kursus Penyegaran dan Penambah Ilmu Perpustakaan Dokumentasi,
dan Informasi (KPP Pusdokinfo VI) di Universitas Indonesia. Depok, 13- 17
Oktober 1997
Hildreth, Charles R. “The Use and Understanding of Keyword Searching in a University
Online Catalog”. Information Technology and Libraries. 1, June 1997 :
52- 62
Korfhage, Robert R. Information Storage and Retrieval, John Wiley & Sons, New York,
1997.
Lancaster, F.W. Indexing and Abstracting in Theory and Practise, Library Association
Publishing, London, 1998.
Lancaster, F.W. Vocabulary Control in Information Retrieval System: in Advances
Librarianship, Academic Press, New York, 1977
Lancaster, F.W. Vocabulary Control for Information Retrieval, Information Resources
Press, Arlington, Virginia, 1986.
McJunkin, Monika Cahill. “Precision and Recall in Title Keyword Searches”. Information
Technology and Libraries, 14 (3), 1995 : 161-171.
McQuire, April R. ; Eastman, Caroline M. “The Ambiguity of Negation in Natural
Language Queries to Information Retrieval Systems”. Journal of The American
Society for Information Science, 49 (8), 1998 : 686- 692.
Meadow, Charles T. Text Information Retrieval Systems, Academic Press, New York,
1997.
Muddamalle, Manikya Rao. “Natural Language versus Controlled Vocabulary in
Information Retrieval: a Case Studi in Soil Mechanics”. Journal of The American
Society for Information Science, 49 (10), 1998 : 881-887.
Pao, Miranda Lee. Concepts of Information Retrieval. Libraries Unlimited, Englewood,
Colorado, 1989.
Rowlands, Ian [editor]. Text Retrieval: an Introduction, Taylor Graham, London, 1986.
©2003 Digitized by USU digital library
10
TEMU KEMBALI INFORMASI BERBASIS TEKS
JONNER HASUGIAN
Staf Pengajar pada Program Studi Ilmu Perpustakaan Fakultas Sastra USU
1. Pendahuluan
Bahasa dan atau kosa kata (vocabulary) memegang peranan yang sangat
penting dalam efektifitas dan efisiensi penelusuran pada suatu sistem temu kembali
informasi. (Muddamalle, 1998 : 881). Kegiatan penelusuran hanya dapat berlangsung
bila menggunakan kosa kata, sebab kosa kata inilah yang digunakan sebagai alat
(tools) penelusuran untuk menemukan dokumen yang diinginkan. Dalam sistem temu
kembali informasi, kosa kata itu disebut dengan indeks, yang dapat berupa indeks
subjek, pengarang, judul, maupun tesaurus.
Pada dasarnya ada dua pendekatan penelusuran yang lajim digunakan dalam
sistem temu kembali informasi yaitu bahasa alami (natural language), dan kosa kata
terkontrol yang sering juga disebut controlled vocabulary. Kedua pendekatan ini sejak
semula telah digunakan secara luas dalam sistem temu kembali informasi.
Studi tentang efektifitas dan efisiensi penelusuran menggunakan pendekatan
bahasa alamiah (natural language) dan kosa kata terkontrol (controlled vocabulary)
dalam sistem temu kembali informasi telah lama dilakukan. Banyak database yang telah
dibangun untuk digunakan sebagai sarana penelusuran eksperimen dalam rangka
pembuktian efektifitas dan efisiensi dari kedua pendekatan tersebut.
Muddamalle (1998 : 881- 883) mencatat bahwa sejarah bahasa alamiah
(natural language) kontra kosa kata terkontrol (controlled vocabulary) dalam sistem
temu kembali informasi dibagi kepada tiga era. Era pertama dimulai pada abad ke- 19
dengan penekanan kepada popularitas pengindeksan istilah berdasarkan judul (title
term indexing). Pada era ini kosa kata terkontrol atau controlled vocabulary lebih
dominan digunakan dalam penelusuran, terutama digunakan untuk menemukan
cantuman bibliografi dalam katalog berklasifikasi di perpustakaan. Sedangkan
penelusuran berdasarkan bahasa alamiah yang biasa disebut dengan sebutan free-text
searching atau penelusuran dengan teks bebas, baru dalam tahap permulaan dilakukan
pada era ini.
Era kedua dimulai pada saat kehadiran komputer dalam sistem temu kembali
informasi. Pada era ini kegiatan pengindeksan mulai dilakukan dalam bentuk mekanis.
Kemudian, era ketiga dimulai pada pertengahan tahun 1970- an, dimana pendekatan
yang berbeda dilakukan untuk menguji isu natural language versus controlled
vocabulary, melalui pengujian rasio Recall dan Precision dalam sistem temu kembali
informasi pada berbagai database berbasis teks.
Para ahli informasi terus melakukan berbagai penelitian dan percobaan
berkenaan dengan kedua pendekatan tersebut. Hasil yang diperoleh bervariasi antara
satu peneliti dan yang lainnya. Beberapa contoh hasil penelitian tersebut dapat dilihat
di bawah ini.
Pada tahun 1976, Barbara Charton melakukan penelitian melalui penelusuran
pada Chemical Abstracts, untuk menjawab pertanyaan penelitian, Is a controlled
vocabulary necessary ?. Dalam hasil penelitiannya, dia mengemukakan bahwa suatu
penelusuran dengan teks bebas bisa seefektif penelusuran menggunakan controlled
vocabulary, asalkan dilakukan oleh seseorang yang memiliki pengalaman dalam
penelusuran. Penelusuran dengan teks bebas bisa lebih efektif, sebab ada kalanya
penelusuran menggunakan controlled vocabulary mengorbankan ketepatan dalam
kemungkinan mencapai kemudahan.
Markey, Atherton, dan Newton (1982), membandingkan 165 pernyataan
penelusuran dengan teks bebas (free-text search statements) yang digunakan dalam
©2003 Digitized by USU digital library
1
mengakses ERIC database untuk mengetahui apakah konsep ekspresi dengan istilah
teks bebas atau bahasa alamiah dapat juga diekspresikan dari deskriptor ERIC (ERIC
descriptors). Mereka menemukan bahwa salah satu dari setiap delapan pernyataan
penelusuran teks bebas yang tidak direpresentasikan dalam ERIC controlled
vocabulary. Secara keseluruhan, temu kembali teks bebas (free- text retrieval) dengan
menggunakan pendekatan bahasa alamiah menghasilkan perolehan (recall) yang tinggi
dengan ketepatan (precision) yang rendah, dari pada menggunakan pendekatan
controlled vocabulary.
Calkins (1980) sesuai kutipan Muddammalle, dalam hasil pengamatannya
kepada sejumlah penelusur yang hanya menggunakan istilah controlled vocabulary dan
yang hanya menggunakan penelusuran teks bebas, mengemukakan kesimpulan bahwa
penelusuran menggunakan teks bebas dan controlled vocabulary ternyata saling
melengkapi, dan penampilan terbaik yang dicapai dalam penelusuran ialah
menggunakan kombinasi dari keduanya.
Dari ketiga contoh hasil penelitian yang dikemukakan di atas, dapat dilihat
bahwa efektifitas dan efisiensi penelusuran menggunakan pendekatan bahasa alamiah
atau penelusuran dengan teks bebas (free-text search) ada kalanya lebih baik dari
pada kosa kata terkontrol, demikian sebaliknya pendekatan menggunakan controlled
vocabulary ada kalanya lebih baik dari bahasa alamiah. Mengingat banyaknya
penelitian dan eksperimen yang telah dilakukan untuk menguji kedua pendekatan
tersebut, maka keunggulan maupun kelemahan dari kedua pendekatan tersebut telah
banyak yang diketahui. Tulisan ini mencoba mengangkat isu tersebut untuk dibahas
secara teoritis melalui tinjauan literatur.
Sasaran utama yang akan dicapai dalam tulisan ini ialah mengetahui sejumlah
keunggulan dan kelemahan penelusuran menggunakan pendekatan bahasa alamiah
(natural languages) dan kosa kata terkontrol (controlled vocabulary). Kemudian akan
direkomendasikan pendekatan mana yang ideal digunakan dalam sistem temu kembali
informasi berbasis teks. Akan tetapi sebelum pembahasan itu dilakukan, terlebih dahulu
akan dibahas beberapa hal yang menyangkut dengan sistem temu kembali informasi
berbasis teks antara lain, Pengertian dan Fasilitas Sistem Temu Kembali Informasi
Berbasis Teks, Keefektifan Sistem Temu Kembali Informasi Berbasis Teks, serta
Pengindeksan dan Bahasa Indeks Dalam Sistem Temu Kembali Informasi.
2. Pengertian, dan Fasilitas Sistem Temu Kembali Informasi Berbasis Teks
Pada dasarnya sistem temu kembali informasi adalah suatu proses untuk
mengidentifikasi, kemudian mema nggil (retrieve) suatu dokumen dari suatu simpanan
(file), sebagai jawaban atas pemintaan informasi. Pengertian lain menyatakan bahwa
sistem temu kembali informasi adalah proses yang berhubungan dengan representasi,
penyimpanan, pencarian dengan pemanggilan informasi yang relevan dengan
kebutuhan informasi yang diinginkan pengguna. (Ingwerson, 1992 : 49). Pendapat ini
menunjukan bahwa pada sistem temu kembali informasi terkandung sejumlah kegiatan
yang meliputi proses penyimpanan, penyediaan representasi, identifikasi serta
pencarian atau penelusuran dokumen yang relevan pada suatu database, dalam
rangka memenuhi kebutuhan informasi dari pengguna. Dari sekian banyak sistem temu
kembali yang ada,salah satu diantaranyya adalah sistem temu kembali informasi
berbasis teks atau tekstual.
Sitem temu kembali tekstual adalah salah satu dari berbagai sistem yang
mengelola penyimpanan teks secara terkomputerisasi, kemudian temu kembali
informasinya. (Rowley, 1987 : 1). Dalam sistem temu kembali tekstual, fokus utama
ialah terletak pada penyimpanan dan temu kembali informasi berbasis teks, dan bukan
data numerik, tabulasi, atau data grafis semata. Tetapi dalam kenyataannya ,
dokumen- dokumen yang ada saat ini jarang yang hanya terdiri dari informasi berbasis
teks semata, melainkan dokumen yang berupa gabungan dari numerik, tabel, grafis,
image dan sebagainya dengan teks.
©2003 Digitized by USU digital library
2
Umumnya sitem temu kembali tekstual didesain untuk memberi suatu kawasan
titik akses (access points) kepada suatu database dari informasi yang relatif tidak
terstruktur, yang lajim dikenal dengan sebutan teks bebas. Oleh karena itu, kegiatan
free-text search dapat dilakukan dengan menggunakan bahasa alamiah (natural
language) dari dokumen yang berbentuk teks yang tersimpan dalam suatu database.
Keadaan ini sangat menolong pengguna awam yang tidak mampu menelusur dengan
menggunakan bahasa indeks (controlled language) yang dibuat oleh indekser, seperti
halnya tesaurus atau tajuk subyek tertentu.
Teskey (1984) dalam suntingan Rowlands mengidentifikasikan ada empat fungsi
yang paling penting, yang bisa terbukti dalam segala jenis sistem temu kembali
informasi tekstual yang baik, yaitu bahwa suatu sistem temu kembali informasi tekstual
yang baik, seharusnya dapat untuk: (a) menerima dan menyusun berbagai teks dari
berbagai sumber; (b) menetapkan penyimpanan yang sesuai untuk semua teks, (c)
mendapatkan/memperoleh informasi yang spesifik dari teks yang tersimpan dalam
merespon queries yang diberikan; (c) memproses teks yang didapatkan, dan
menyajikannya kepada pengguna dalam format yang dapat diterima (acceptable).
Suatu sistem temu kembali berbasis teks, secara normal karakteristiknya dilihat
dari fasilitas temu kembali yang dimilikinya. Seringkali suatu sistem temu kembali tidak
dapat menelusur informasi melalui field-field tertentu atau khusus, karena
keterbatasan fasilitas yang dimilikinya. Oleh karena itu fasilitas penelusuran yang
ditawarkan dalam suatu sistem temu kembali, adalah merupakan salah satu unsur yang
paling penting dalam memilih paket- paket informasi berbasis teks.
Secara umum bahwa suatu sistem temu kembali tekstual memiliki sejumlah
fasilitas yang dapat digunakan untuk: pertanyaan atau bahasa perintah (query or
command language); formulasi pertanyaan Boolean (Boolean query formulation);
pemurnian
penelusuran
(search
refinement);
pemendekan/pemotongan
dan
penelusuran rentetan teks (truncation and text string searching); daftar kata
takterpakai dalam penelusuran (stop list or common word list); tesaurus / pendukung
perbendaharaan kosa kata (thesaurus / vocabulary support); kedekatan penelusuran
(proximity searching); pembatasan penelusuran dengan ruas (limiting searching by
field); dan penelusuran kawasan numerik ( numeric range searching). (Rowlands, 1987
: 7- 8). Sejumlah fasilitas yang disebutkan di atas sangat diperlukan untuk melakukan
penelusuran pada suatu database. Kelengkapan fasilitas ini tentu sangat
mempengaruhi keefektifan sistem temu kembali informasi, yang tentu akan berdampak
kepada tingkat ketepatan (precision) dalam penelusuran.
3. Efektifitas Sistem Temu Kembali Informasi Berbasis Teks
Pesatnya kemajuan teknologi informasi khususnya komputer disertai dengan
dukungan kecanggihan perangkat lunak (software) mengakibatkannya mampu menata,
menyimpan sejumlah besar informasi dan menyediakan akses terhadap informasi
tersebut dengan cepat dan tepat. Kemajuan itu sangat berpengaruh kepada
perkembangan sistem temu kembali informasi (information retrieval system).
Keakuratan dan kecepatan dari suatu sistem informasi sangat diharpakan dalam upaya
memenuhi kebutuhan pengguna untuk memperoleh informasi yang diinginkannya.
Efektifitas dari suatu sistem temu kembali informasi adalah kemampuan dari
sistem itu untuk memanggil berbagai dokumen dari suatu basis data sesuai dengan
permintaan pengguna. Efektifitas dari sistem temu kembali informasi tersebut dapat
diukur. Ada dua hal penting yang biasanya digunakan dalam mengukur kemampuan
suatu sistem temu kembali informasi yaitu rasio atau perbandingan dari perolehan
(recall), dan ketepatan (precicion). (Lee Pao, 1989 : 225).
Perolehan (recall) berhubungan dengan kemampuan sistem untuk memanggil
dokumen yang relevan, sedangkan ketepatan (precision) berkaitan dengan
kemampuan sistem untuk tidak memanggil dokumen yang tidak relevan. Rasio dari
©2003 Digitized by USU digital library
3
tingkat perolehan (recall) dan ketepatan (precision) yang dicapai dalam kegiatan
penelusuran dapat diungkapkan sebagai berikut :
Recall =
Jumlah dokumen relevan yang terambil
------------------------------------------------------------Jumlah dokumen relevan yang ada dalam database (file)
Jumlah dokumen relevan yang terambil
Precision = -----------------------------------------------------Jumlah dokumen yang terambil dalam pencarian
Rasio dari recall sebenarnya sulit diukur karena jumlah seluruh dokumen yang
relevan dalam database sangat besar. Oleh karena itu presisi-lah (precision) yang
menjadi salah satu ukuran yang digunakan untuk menilai keefektifan suatu sistem temu
kembali informasi. Untuk memudahkan pemahaman akan kedua rasio tersebut, berikut
dikemukakan sebuah contoh soal dan perhitungan penentuan recall dan precision.
Andaikan suatu file database menyimpan 100 dokumen. Pada suatu
penelusuran, ada 10 dokumen terambil (retrieved) dan hanya 4 dokumen terambil
dalam pencarian yang relevan dengan pertanyaan (query), kemudian ada 2 dokumen
lain dalam file dabase diketahui relevan kepada query akan tetapi tidak terambil (not
retrieved). Untuk menghitung rasio recall dan precision dari seperti disebut pada soal
di atas, sering digunakan tabel berikut :
Tabel Perhitungan Recall dan Precision
Relevant
Not Relevant
Retrieved
4 (a)
6(b)
Not Retrieved
2(c)
88 ( d )
Total
6
94
Total
10
90
100
Berdasarkan tabel di atas, sekarang perhitungannya dapat dilakukan dengan
mengacu kepada kepada rasio yang telah dikemukakan sebelumnya. Untuk menghitung
rasio recall, terlebih dahulu kita tentukan jumlah dokumen relevan yang terambil,
berdasarkan data pada tabel yaitu a , sedangkan Jumlah dokumen relevan yang ada
dalam database adalah a + c. Dengan demikian rasio recall ( R ) tersebut dapat
dinyatakan sebagai berikut :
a
R = -----a+c
=
4
------4+2
= 0,66
Selanjutnya untuk menghitung precision, hal yang sama pada penghitungan
recall diberlakukan yaitu jumlah dokumen relevan yang terambil adalah a , sedangkan
Jumlah dokumen yang terambil dalam pencarian adalah a + b . Dengan demikian rasio
precision ( P ) dapat dinyatakan sebagai berikut :
©2003 Digitized by USU digital library
4
Precision =
a
-------a+b
4
= ------4+6
= 0,40
Kondisi ideal dari keefektifan suatu sistem temu kembali informasi adalah
apabila rasio recall dan precision sama besarnya (1 : 1 ). (Lee Pao, 1989 : 229).
Selain itu, suatu sistem temu kembali dinyatakan efektif apabila hasil penelusuran
mampu menunjukkan ketepatan (precision) yang tinggi sekalipun perolehannya rendah
(Rowley, 1992 : 172)
4. Pengindeksan dan Bahasa Indeks Dalam Sistem Temu Kembali Informasi
Salah satu faktor yang berpengaruh terhadap sistem temu kembali ialah
pengindeksan dokumen. Pengindeksan (indexing) mencakup proses pencatatan ciri- ciri
dokumen, analisis isi, klasifikasi maupun pembuatan entri ke dalam bahasa indeks.
Tujuan pengindeksan ialah untuk memungkinkan ditemukannya dokumen yang relevan
dengan pertanyaan (query) dengan tepat.
Kegiatan pengideksan akan menghasilkan indeks. Meadow (1992 : 69- 70)
mengemukakan bahwa indeks adalah merupakan cantuman dari bermacam-macam
atribut yang diharapkan dapat digunakan sebagai dasar pencarian dokumen. Jika
atribut tersebut berupa subjek, maka indeks yang mewakilinya disebut sebagai indeks
subjek. Sedangkan bila atribut tersebut berupa pengarang, maka indeks yang
mewakilinya disebut sebagai indeks pengarang. Umumnya kegiatan pengindeksan
adalah berupa pengindeksan subjek, namun dalam kenyataannya di perpustakaan
indeks subjek dan pengarang sama - sama digunakan dalam sistem temu kembali.
Indeks di perpustakaan berfungsi sebagai sarana atau kunci yang menunjukkan
kepada penelusur dokumen- dokumen yang potensial relevan dengan permintaannya.
Sarana itu sering disebut sebagai wakil dari dokumen yang dimiliki, yaitu berupa
katalog perpustakaan. Dengan demikian fungsi indeks pada database maupun
perpustakaan pada prinsipnya adalah sama yaitu sebagai sarana temu kembali.
Tujuan utama dari pengindeksan ialah untuk membentuk representasi dari
dokumen dalam bentuk yang sesuai untuk dicantuman dalam berbagai tipe database
(Lancaster, 1998 : 1). Indeks sebagai representasi dari dokumen diharapkan dapat
menggambarkan isi atau subjek yang terkandung di dalam dokumen tersebut, sehingga
dapat ditemukan kembali melalui istilah (index term) yang digunakan.
Pada dasarnya ada dua jenis bahasa indeks yaitu bahasa alamiah (natural
language) dan kosa kata terkontrol (controlled vocabulary). Bahasa alamiah adalah
bahasa dari dokumen yang diindeks. Biasanya bahasa tersebut merupakan bahasa
yang tidak terkendali (uncontrolled vocabulary). Bahasa alamiah ini umum digunakan
dalam komunikasi dan penulisan ilmiah, yang banyak dipakai oleh pengarang
(Lancaster, 1986 : 159). Sedangkan kosa kata terkontrol dapat berupa indeks subjek,
pengarang, judul maupun tesaurus.
Ditinjau dari sisi sistem temu kembali informasi, tesaurus adalah suatu daftar
pengendali (authority list) istilah- istilah khusus yang digunakan dalam sistem temu
kembali informasi. Akan tetapi bila ditinjau dari segi fungsinya tesaurus adalah sarana
pengawasan istilah yang digunakan untuk penerjemahan bahasa alamiah dokumen ke
bahasa yang lebih terkendali. Tesaurus berisi sejumlah istilah indeks dengan
menggunakan bahasa yang terkendali, sehingga sering disebut juga dengan bahasa
©2003 Digitized by USU digital library
5
terkontrol (controlled language). Tujuan utama tesaurus adalah juga untuk
memudahkan temu kembali dokumen, dan untuk mencapai konsistensi dalam
pengindeksan dokumen pada sistem simpan dan temu kembali informasi.
Dalam bahasa pengindeksan kosa kata terkontrol seperti tesaurus, istilah yang
digunakan untuk menyatakan kandungan atau isi suatau dokumen telah dibakukan
dalam suatu daftar indeks yang disusun secara alfabetis, misalnya Sears List of
Subject Heading, Library of Congress Subject Heading, Macro Economics Thesaurus,
DDC Index, dan sebagainya. Sedangkan pengindeksan bahasa alamiah adalah
pengindeksan yang dilakukan pada semua istilah baik dari judul, abstrak, maupun dari
teks lengkap (full text) dokumen, terkecuali stop word atau daftar kata umum yang
tidak digunakan dalam penelusuran (Rowley, 1992 : 272). Semua istilah indeks yang
dihasilkan adalah bergantung kepada bahasa dokumen itu sendiri, dan semuanya itu
dapat merupakan representasi dari dokumen itu. Mengingat volume pengindeksan
dalam bahasa alamiah ini sangat besar, maka biasanya dilakukan oleh komputer.
Bahasa alamiah dan kosa kata terkontrol adalah dua bahasa hasil dari
pengindeksan yang sama -sama dapat dipergunakan sebagai representasi dokumen.
Kedua bahasa pengindeksan tersebut digunakan pada waktu pemasukan (input) data
ke database, dan akan digunakan juga pada waktu pencarian / penelusuran (output )
informasi dari database. Yang manakah diantara keduanya yang paling baik digunakan
dalam pencarian / penelusuran informasi pada suatu database ?
5. Bahasa Alamiah versus Kosa Kata Terkontrol Dalam Sitem Temu Kembali
Informasi
5.1. Keunggulan dan Kelemahan Bahasa Alamiah
Keungulan maupun kelemahan bahasa alamiah dalam sistem temu kembali
informasi sangat bervariasi dan kompleks. Banyak faktor yang mungkin dapat
mempengaruhinya. Banyak keunggulan dari penggunaan bahasa alamiah dalam
penelusuran informasi, beberapa diantaranya adalah :
(a) Bahasa alamiah dapat dengan mudah dimengerti oleh pengguna tanpa harus
memerlukan pelatihan khusus, dan berbagai nuansa makna dapat diekspresikan
dengan lebih leluasa (Meadow, 1992 : 37- 38). Maksudnya, dengan kekayaan
perbendaharaan kosa kata, memungkinkan penelusur mengekspresikan gagasan,
perasaan dan keinginannya dengan berbagai cara dan nuansa untuk mendapatkan
dokumen yang diinginkannya.
(b) Bahasa alamiah memiliki spesifikasi (specification) yang tinggi (Lancaster, 1977 :
23). Spesifikasi istilah ini muncul karena dapat menggunakan seluruh isitilah yang
terdapat dalam dokumen sebagai query. Spesifikasi istilah akan memudahkan
pencarian untuk mendapatkan ketepatan (precision) yang tinggi. Semakin tinggi
spesifikasi istilah yang digunakan dalam penelusuran, maka akan semakin tinggi
ketepatan (precision), sedangkan perolehan (recall) akan semakin rendah.
Sebaliknya bila spesifikasi istilah rendah, maka perolehan (recall) akan semakin
tinggi, sedangkan ketepatan (precision) cenderung rendah. Misalnya, bila kita
menggunakan istilah “LINGUISTICS” untuk mencari dokumen yang memuat penelitian
tentang logat bahasa pada suatu database, maka jumlah perolehan (recall) pasti
akan tinggi, sedangkan ketepatan (precision) akan rendah, karena istilah
“LINGUISTICS” adalah istilah umum dalam ilmu bahasa yang berarti spesifikasinya
rendah. Akan tetapi bila kita menggunakan istilah “DIALECT ”, maka jumlah perolehan
(recall) akan rendah, sedangkan ketepatan (precision) tinggi, karena istilah
“DIALECT” adalah isitilah khusus, yang berarti spesifikasinya tinggi.
(c) Bahasa alamiah memiliki kedalaman (exhaustivity) yang tinggi (Foskett, 1985 :
114). Artinya, banyak tema atau subjek baru yang dihasilkan dokumen yang dapat
dijadikan sebagai istilah baru dalam penelusuran. Karena, pada prinsipnya bahwa
©2003 Digitized by USU digital library
6
semua kata terkecuali stop word dapat dijafikan sebagai keyword dalam
penelusuran.
(d) Penelusur yang merupakan praktisi dalam bidangnya dapat melakukan penelusuran
dengan bahasa alamiah dengan lebih efektif.
Selain memiliki sejumlah keunggulan, bahasa alamiah juga memiliki berbagai
kelemahan, beberapa diantaranya adalah :
(a) Bahasa alamiah tidak atau kurang ringkas ( lack of consiseness) (Meadow, 1992 :
38). Query yang digunakan penelusur sering berupa kata atau istilah berbeda atau
tidak standar sehingga sering terjadi kehilangan informasi saat penelusuran.
Misalnya, seorang penelusur ingin mendapatkan dokumen tentang Proses yang
dialami seseorang untuk menjadi semakin tua. Lalu dia menggunakan query
“PROSES MAKIN TUA”. Dengan query itu, mungkin penelusur tersebut akan
mendapatkan perolehan (recall) yang ketepatannya (precsion) tidak ada, karena
dokumen yang berisi istilah itu tidak ada. Akan tetapi bila penelusur itu
menggunakan istilah indeks subjek “PENUAAN” sebagai query, mungkin akan dia
peroleh (recall) sejumlah dokumen yang ketepatannya (precision) sangat tinggi,
yang berarti sangat sesuai dengan yang diinginkannya. Kesalahan yang terjadi
sebenarnya terletak pada penyusunan atau pemilihan istilah yang tepat sebagai
query.
(b) Mempunyai ambiguitas (ambiguity) yang tinggi. (Meadaw, 1992 : 37). Muddamalle
(1998 : 881) menyebut bahwa …”natural language is full of ambiguities”.
Ambiguitas adalah kata atau istilah yang dapat memiliki lebih dari satu arti sehingga
mengakibatkan kerancuan. Ambiguitas dapat terjadi karena sinomim atau homograf.
Sinonim yaitu bentuk kata yang berbeda tetapi artinya sama, dapat menyebabkan
terpencarnya informasi mengenai topik yang sama. Misalnya, kata sado, dokar,
delman. Homograf yaitu kata- kata yang ejaannya sama tetapi maknanya berbeda,
misalnya raut artinya meruncingkan, menghaluskan, tetapi raut dapat juga artinya
tampang, potongan. Sinonim dan homograf dapat mengakibatkan false drops yaitu
terjaringnya dokumen yang sama sekali tidak relevan, atau subjek yang tidak
relevan ikut terjaring atau terambil dalam proses temu kembali.
(c) Kesulitan komputer untuk menginterpretasikan teks (Meadaw, 1992 : 37).
Kelemahan ini terjadi karena ketidak mampuan sistem menyerap atau menangkap
makna dari suatu pernyataan. Hal ini terjadi karena dalam memroses bahasa alami,
komputer tidak bisa bekerja sebagaimana otak manusia, terkecuali komputer
tersebut dilengkapi dengan suatu knowledge base. Misalnya, seseorang ingin
mencari dokumen tentang “Perpustakaan Sekolah” pada suatu database, maka ia
akan menggunakan query Perpustakaan AND Sekolah, akan tetapi dalam pencarian
dokumen tentang “Sekolah Perpustakaan”, juga akan terjaring atau terambil,
padahal konsep “Perpustakaan Sekolah” dengan “Sekolah Perpustakaan” mempunyai
makna yang berbeda. Dalam keadaan ini juga terjadi false drops.
5.2. Keunggulan dan Kelemahan Kosa Kata Terkontrol
Banyak keunggulan dari penggunaan kosa kata terkontrol (controlled
vocabulary) dalam sistem temu kembali informasi, beberapa diantarnya adalah :
(a) Proses penelusuran dan temu kembali informasi lebih efisien (Korfhage, 1997 : 24).
Artinya, dengan menggunakan kosa kata terkontrol seperti indeks subjek atau
tesaurus dalam penelusuran, maka ketepatan dari dokumen yang terambil dengan
kebutuhan pengguna dapat diperoleh dalam waktu yang relatip singkat.
©2003 Digitized by USU digital library
7
(b) Mempunyai representasi dokumen yang konsisten. Kosa kata atau istilah yang
digunakan dalam pengindeksan dokumen pada saat input sistem adalah kosa kata
yang terkontrol dan standar. Oleh karena itu, bila kosa kata atau istilah tersebut
kemudian dijadikan sebagai query untuk pencarian atau penelusuran, maka sudah
pasti akan tetap mewakili atau merepresentasikan dokumen yang sama seperti pada
saat input sistem dilakukan. Misalnya, pada input sistem dokumen A
direpresentasikan oleh kosa kata atau indeks subjek “MICROBIOLOGY ”, pada waktu
pencarian, seorang penelusur menggunakan “MICROBIOLOGY” sebagai query- nya,
maka penelusur tersebut pasti akan menemukan dokumen A karena representasi
dokumennya tetap konsisten. Dengan demikian selalu terjadi kesamaan penggunaan
istilah diantara pengindeks (indexer) dengan penelusur (searcher)
(c) Memudahkan penelusuran komprehensif dengan menyatukan istilah terkait secara
semantis (Lancaster, 1977, 2). Maksudnya, ada kalanya suatu kosa kata atau
indeks subjek tertentu mempunyai hubungan makna dengan indeks yang lain,
sehingga dapat digunakan untuk memperkuat pencarian. Misalnya untuk mencari
dokumen tentang “pengebalan tubuh manusia terhadap penyakit”, maka kosa kata
atau indeks subjek yang dapat dijadikan sebaga query ialah “IMMUNIZATION”, akan
tetapi untuk menguatkan pencarian penelusur juga dapat menggunakan kosa kata
lain seperti “VACCINATION”, karena kedua kosa kata di atas adalah terkait secara
semantis.
(d) Memiliki ambiguity yang sangat kecil. Ambiguitas atau kerancuan dapat diminimize
dengan sekecil mungkin karena kosa kata dapat mengontrol sinonim dan homograf.
Selain keunggulan, penggunaan kosa kata terkontrol (controlled vocabulary)
pada sistem temu kembali juga mempunyai banyak kelemahan, sebagian diantaranya
adalah :
(a) Kosa kata terkontrol harus selalu diperbaharui. Perkembangan ilmu dan teknologi
menyebabkan munculnya berbagai subjek baru yang sekaligus juga berdampak
terhadap pemunculan atau penghilangan suatu istilah atau kosa kata. Oleh karena
itu, suatu tajuk subjek atau tesaurus pada suatu periode tertentu harus
diperbaharui untuk bisa menyesuaikan diri sesuai perkembangan (Muddamalle, 1998
: 881). Misalnya, bila kita menelusur dengan istilah atau kosa kata “CANCER”
sebagai query pada indeks DDC edisi ke 19, maka kita akan dirujuk dengan kata see
“TUMORS”. Sekalipun keduanya semantis, namun terdapat perbedaan. Ini terjadi
karena pada indeks DDC edisi ke 19 subjek CANCER belum dijabarkan secara lengkap
karena mungkin pada masa itu istilah cancer masih belum populer. Akan tetapi bila
ditelusur pada indeks DDC edisi ke 20 dan 21, istilah tersebut telah dijabarkan
secara rinci. Hal itu menunjukkan bahwa indeks DDC tersebut diperbaharui secara
berkala.
(b) Kosa
kata terkontrol (controlled vocabulary) sering dihadapkan kepada
ketidakcocokan (incompatibility) istilah diantara satu database dengan database
yang lainnya pada bidang ilmu yang sama (Lancaster, 1986 : 159). Misalnya, CAB
CD-ROM dan Agricola CD-ROM adalah dua database yang memuat indeks dan
abstrak penelitian pada bidang ilmu yang sama yaitu Pertanian. Akan tetapi ada
kalanya beberapa kosa kata atau istilah yang digunakan untuk indeks subjek pada
kedua database tersebut berbeda. Hal ini tentunya bisa menyulitkan penelusur bila
melakukan penelusuran pada kedua database tersebut.
(c) Kurangnya spesifikasi dalam kosa kata. Berbeda dengan bahasa alamiah, dimana
penelusur dapat menggunakan secara bebas kosa kata yang spesifik. Akan tetapi
pada kosa kata terkontroll, spesifikasi istilah ditentukan oleh ketersediaannya pada
indeks subjek atau tesaurus.
(d) Kosa kata terkontrol memiliki struktur yang tidak lengkap. Artinya rincian subjek
adalah sangat terbatas untuk pencarian atau penelusuran komprehensif.
©2003 Digitized by USU digital library
8
(e) Kosa kata terkontrol memerlukan biaya dan upaya yang besar pada waktu input
sistem yaitu pada saat pengindeksan dilakukan. (Lancaster, 177 : 7).
5.3. Pendekatan penelusuran yang ideal.
Dengan menguraikan sejumlah keunggulan dan kelemahan dalam melakukan
penelusuran menggunakan pendekatan bahasa alamiah (natural language) dan kosa
kata terkontrol (controlled vocabulary) sebagai mana dijelaskan di atas, maka mucul
pertanyaan, “pendekatan manakah yang ideal dilakukan dalam melakukan penelusuran
dalam sistem temu kembali informasi ?“
Untuk menjawab pertanyaan tersebut, Manikya Rao Muddamalle (1998 : 881887) melalui penelitiannya yang berjudul “Natural Language versus Controlled
Vocabulary in Information Retrieval: a Case Study in Soil Mechanics”, menyatakan
bahwa temu kembali bahasa alamiah dan kosa kata terkontrol menunjukkan hasil yang
sangat efektif, dengan perbedaan atau dengan batasan yang sangat tipis, hasilnya
tidak jauh berbeda. Untuk mencapai temu kembali yang opt imum, suatu teknik temu
kembali dengan kombinasi bahasa alamiah dan kosa kata terkontrol dapat diadopsi.
Teknik penelusuran secara kombinasi ini telah diuji, dan ditemukan hasil bahwa
terdapat penambahan 5 % hasil temu kembali melebihi atau lebih tinggi dari pada hasil
temu kembali secara terpisah. Oleh karena itu, alternatif bahasa alamiah atau
kosakata terkontrol tidak perlu diperlakukan lebih lama sebagai teknik terpisah, akan
tetapi lebih baik diperlakukan bersama sebagai suatu teknik kombinasi yang ideal.
6. Kesimpulan
Bahasa atau kosa kata (vocabulary) memegang peranan yang sangat penting
dalam efektifitas dan efisiensi penelusuran pada suatu sistem temu kembali informasi
Pendekatan bahasa alamiah dan kosa kata terkontrol dalam sistem temu kembali
informasi berbasis teks sama- sama memiliki keunggulan dan kelemahan. Kedua
pendekatan tersebut tetap masih efektif untuk digunakan. Akan tetapi teknik temu
kembali dengan menggunakan kombinasi dari bahasa alamiah dan kosa kata terkontrol
adalah bentuk pendekatan yang ideal digunakan dalam temu kembali informasi. Dengan
demikian penelusuran menggunakan bahasa alamiah atau natural language dan kosa
kata terkontrol atau controlled vocabulary ternyata saling melengkapi
Referensi
Dimitroff, Alexandra. “Affective Response and Retrieval Performance: Analysis of
Contributing Factors”. Library and Information Science Research. 18,
1995 : 121132.
Frants, Valery I. Automated Information Retrieval: Theory and Methods, Academic
Press, New York, 1997.
©2003 Digitized by USU digital library
9
Hasibuan, Zainal A. “Kajian Sistem Temu-Kembali Informasi: Pergeseran Paradigma dari
Orientasi Teknologi ke Orientasi Pemakai”. Prosiding Seminar Sehari Layanan
Pusdokinfo Berorientasi Pemakai di Era Informasi. Depok, 16 Maret 1996.
Hasibuan, Zainal A.”Pendekatan Struktur Dokumen Dalam Sistem Temu- Kembali
Informasi”. Kursus Penyegaran dan Penambah Ilmu Perpustakaan Dokumentasi,
dan Informasi (KPP Pusdokinfo VI) di Universitas Indonesia. Depok, 13- 17
Oktober 1997
Hildreth, Charles R. “The Use and Understanding of Keyword Searching in a University
Online Catalog”. Information Technology and Libraries. 1, June 1997 :
52- 62
Korfhage, Robert R. Information Storage and Retrieval, John Wiley & Sons, New York,
1997.
Lancaster, F.W. Indexing and Abstracting in Theory and Practise, Library Association
Publishing, London, 1998.
Lancaster, F.W. Vocabulary Control in Information Retrieval System: in Advances
Librarianship, Academic Press, New York, 1977
Lancaster, F.W. Vocabulary Control for Information Retrieval, Information Resources
Press, Arlington, Virginia, 1986.
McJunkin, Monika Cahill. “Precision and Recall in Title Keyword Searches”. Information
Technology and Libraries, 14 (3), 1995 : 161-171.
McQuire, April R. ; Eastman, Caroline M. “The Ambiguity of Negation in Natural
Language Queries to Information Retrieval Systems”. Journal of The American
Society for Information Science, 49 (8), 1998 : 686- 692.
Meadow, Charles T. Text Information Retrieval Systems, Academic Press, New York,
1997.
Muddamalle, Manikya Rao. “Natural Language versus Controlled Vocabulary in
Information Retrieval: a Case Studi in Soil Mechanics”. Journal of The American
Society for Information Science, 49 (10), 1998 : 881-887.
Pao, Miranda Lee. Concepts of Information Retrieval. Libraries Unlimited, Englewood,
Colorado, 1989.
Rowlands, Ian [editor]. Text Retrieval: an Introduction, Taylor Graham, London, 1986.
©2003 Digitized by USU digital library
10