Penggunaan Bahasa Alamiah dan Kosa Kata Terkendali dalam Sistem Temu Balik Informasi Berbasis Teks

Pustaha: Jurnal Studi Perpustakaan dan Informasi, Vol.2, No.2, Desember 2006

Penggunaan Bahasa Alamiah dan Kosa Kata Terkendali dalam Sistem
Temu Balik Informasi Berbasis Teks
Jonner Hasugian
Departemen Studi Perpustakaan dan Informasi
Universitas Sumatera Utara
Abstract
Language or vocabularies play important role to support both effectiveness and efficiency
searching in text-based information retrieval system. Natural language and controlled
vocabulary approach in text-based information retrieval system with both advantages and
disadvantages. Both of the approaches remain in use effectively. However the retrieval
technique by using combination of natural language and controlled vocabulary is ideal to be
used in text-based information retrieval system. Searching by using natural language and
controlled vocabulary, in fact, are complementary. Efficiency and effectiveness of text-based
information retrieval system can be measured from recall and precision.
Keywords: Information Retrieval System, Indexing, Natural Language, Controlled Vocabulary
1. Pendahuluan
Bahasa dan atau kosa kata (vocabulary)
memegang peranan yang sangat penting
dalam efektivitas dan efisiensi penelusuran

pada suatu sistem temu balik informasi.
(Muddamalle, 1998: 881). Kegiatan penelusuran
pada sistem temu balik informasi (STBI)
bebasis teks hanya dapat berlangsung bila
menggunakan kosa kata, sebab kosa kata
inilah yang digunakan sebagai istilah berupa
query penelusuran untuk menemukan
dokumen yang diinginkan. Dalam STBI
berbasis teks, kosa kata itu dapat berupa
indeks, seperti indeks subjek, pengarang,
judul, maupun istilah lain yang dirumuskan
dalam tesaurus.
Pada dasarnya ada dua bahasa pendekatan
penelusuran yang lazim digunakan dalam
STBI berbasis teks yaitu bahasa alami
(natural language), dan kosa kata terkendali
yang sering juga disebut controlled
vocabulary. Kedua pendekatan ini sejak
semula telah digunakan secara luas dalam
STBI berbasis teks.

Studi tentang efektivitas dan efisiensi
penelusuran menggunakan pendekatan bahasa
alamiah (natural language) dan kosa kata
terkendali (controlled vocabulary) dalam

STBI telah lama dilakukan. Banyak database
yang dibangun untuk digunakan sebagai
eksperimen sarana penelusuran dalam rangka
pembuktian efektivitas dan efisiensi dari
kedua pendekatan tersebut.
Muddamalle (1998: 881-883) mencatat bahwa
sejarah bahasa alamiah (natural language)
kontra kosa kata terkendali (controlled
vocabulary) dalam STBI dibagi kepada tiga
era. Era pertama dimulai pada abad ke-19
dengan penekanan kepada popularitas
pengindeksan istilah berdasarkan judul (title
term indexing). Pada era ini kosa kata
terkendali atau controlled vocabulary lebih
dominan digunakan dalam penelusuran,

terutama digunakan untuk menemukan
cantuman
bibliografi
dalam
katalog
berklasifikasi di perpustakaan. Sedangkan
penelusuran berdasarkan bahasa alamiah yang
biasa disebut dengan sebutan free-text
searching atau penelusuran dengan teks
bebas, baru dalam tahap permulaan dilakukan
pada era ini.
Era kedua dimulai pada saat kehadiran
komputer dalam sistem temu balik informasi.
Pada era ini kegiatan pengindeksan mulai
dilakukan dalam bentuk mekanis yaitu berupa
pengindeksan otomatis. Kemudian, era ketiga
dimulai pada pertengahan tahun 1970-an, di
Halaman 72
Universitas Sumatera Utara


Pustaha: Jurnal Studi Perpustakaan dan Informasi, Vol.2, No.2, Desember 2006

mana pendekatan yang berbeda dilakukan
untuk menguji isu natural language versus
controlled vocabulary, melalui pengujian
rasio Recall dan Precision dalam STBI pada
berbagai database berbasis teks.
Para ahli informasi terus melakukan berbagai
penelitian dan percobaan berkenaan dengan
kedua pendekatan tersebut. Hasil yang
diperoleh bervariasi antara satu peneliti dan
yang lainnya. Beberapa contoh hasil
penelitian tersebut dapat dilihat di bawah ini.
Pada tahun 1976, Barbara Charton melakukan
penelitian melalui penelusuran pada Chemical
Abstracts, untuk menjawab pertanyaan
penelitian, Is a controlled vocabulary
necessary? Dalam hasil penelitiannya, dia
mengemukakan bahwa suatu penelusuran
dengan teks bebas bisa seefektif penelusuran

menggunakan controlled vocabulary, asalkan
dilakukan oleh seseorang yang memiliki
pengalaman dalam penelusuran. Penelusuran
dengan teks bebas bisa lebih efektif, sebab ada
kalanya penelusuran menggunakan controlled
vocabulary mengorbankan ketepatan dalam
kemungkinan mencapai kemudahan.
Markey, Atherton, dan Newton (1982),
membandingkan 165 pernyataan penelusuran
dengan teks bebas (free-text search
statements) yang digunakan dalam mengakses
ERIC database untuk mengetahui apakah
konsep ekspresi dengan istilah teks bebas atau
bahasa alamiah dapat juga diekspresikan dari
deskriptor ERIC (ERIC descriptors). Mereka
menemukan bahwa salah satu dari setiap
delapan pernyataan penelusuran teks bebas
yang tidak direpresentasikan dalam ERIC
controlled vocabulary. Secara keseluruhan,
temu balik informasi secara teks bebas (freetext

retrieval)
dengan
menggunakan
pendekatan bahasa alamiah menghasilkan
perolehan (recall) yang tinggi dengan
ketepatan (precision) yang rendah, dari pada
menggunakan
pendekatan
controlled
vocabulary.
Calkins (1980) sesuai sitiran Muddamalle
(1998: 881-883), dalam hasil pengamatannya
kepada sejumlah penelusur yang hanya
menggunakan istilah controlled vocabulary
dan yang hanya menggunakan penelusuran
Halaman 73

teks bebas, mengemukakan kesimpulan
bahwa penelusuran menggunakan teks bebas
dan controlled vocabulary ternyata saling

melengkapi, dan penampilan terbaik yang
dicapai dalam penelusuran ialah menggunakan
kombinasi dari keduanya.
Dari ketiga contoh hasil penelitian yang
dikemukakan di atas, dapat dilihat bahwa
efektivitas
dan
efisiensi
penelusuran
menggunakan pendekatan bahasa alamiah
atau penelusuran dengan teks bebas (free-text
search) ada kalanya lebih baik dari pada kosa
kata
terkendali,
demikian
sebaliknya
pendekatan
menggunakan
controlled
vocabulary ada kalanya lebih baik dari bahasa

alamiah. Mengingat banyaknya penelitian dan
eksperimen yang telah dilakukan untuk
menguji kedua pendekatan tersebut, maka
keunggulan maupun kelemahan dari kedua
pendekatan tersebut telah banyak yang
diketahui. Tulisan ini mencoba mengangkat
isu tersebut untuk dibahas secara teoretis
melalui tinjauan literatur.
Sasaran utama yang akan dicapai dalam
tulisan ini ialah mengetahui sejumlah
keunggulan dan kelemahan penelusuran
menggunakan pendekatan bahasa alamiah
(natural language) dan kosa kata terkendali
(controlled vocabulary). Kemudian akan
direkomendasikan pendekatan mana yang
ideal digunakan dalam sistem temu balik
informasi berbasis teks. Akan tetapi sebelum
pembahasan itu dilakukan, terlebih dahulu
akan dibahas beberapa hal yang menyangkut
dengan STBI berbasis teks antara lain

mencakup pengertian dan fasilitas STBI
berbasis teks, keefektifan STBI berbasis teks,
serta pengindeksan dan bahasa indeks dalam
STBI.
2. Pengertian,
dan
Berbasis Teks

Fasilitas

STBI

Pada dasarnya sistem temu balik informasi
adalah suatu proses untuk mengidentifikasi,
kemudian memanggil (retrieve) suatu
dokumen dari suatu simpanan (file), sebagai
jawaban atas pemintaan informasi. Pengertian
lain menyatakan bahwa sistem temu balik
informasi adalah proses yang berhubungan
dengan representasi, penyimpanan, pencarian


Universitas Sumatera Utara

Pustaha: Jurnal Studi Perpustakaan dan Informasi, Vol.2, No.2, Desember 2006

dengan pemanggilan informasi yang relevan
dengan kebutuhan informasi yang diinginkan
pengguna (Ingwerson, 1992: 49). Pendapat ini
menunjukkan bahwa pada sistem temu balik
informasi terkandung sejumlah kegiatan yang
meliputi proses penyimpanan, penyediaan
representasi, identifikasi serta pencarian atau
penelusuran dokumen yang relevan pada
suatu database, dalam rangka memenuhi
kebutuhan informasi pengguna. Dari sekian
banyak STBI yang ada, salah satu di
antaranya adalah STBI berbasis teks atau
tekstual.
STBI tekstual adalah salah satu dari berbagai
sistem yang mengelola penyimpanan teks

secara terkomputerisasi, kemudian prosedur
untuk temu balik informasinya (Rowley,
1987: 1). Dalam STBI tekstual, fokus utama
ialah terletak pada penyimpanan dan temu
balik informasi teks yang telah disimpan
sebelumnya, dan bukan data numerik,
tabulasi, data grafis, dan sebagainya. Tetapi
dalam kenyataannya, dokumen-dokumen yang
ada saat ini jarang yang hanya terdiri dari
informasi berbasis teks semata, melainkan
dokumen yang berisi informasi yang berupa
gabungan dari numerik, tabel, grafis, image
dengan informasi yang berupa teks.
Umumnya STBI tekstual didesain untuk
memberi suatu kawasan titik akses (access
points) kepada suatu database dari informasi
yang relatif tidak terstruktur, yang lazim
dikenal dengan sebutan teks bebas. Oleh
karena itu, kegiatan free-text search dapat
dilakukan dengan menggunakan bahasa
alamiah (natural language) dari dokumen
yang berbentuk teks yang tersimpan dalam
suatu database. Keadaan ini sangat menolong
pengguna awam yang tidak mampu menelusur
dengan
menggunakan
bahasa
indeks
(controlled language) yang dibuat oleh
indekser, seperti halnya tesaurus atau tajuk
subjek tertentu.

menetapkan penyimpanan yang sesuai untuk
semua teks, (c) mendapatkan/memperoleh
informasi yang spesifik dari teks yang
tersimpan dalam merespons queries yang
diberikan, (d) memproses teks yang
didapatkan, dan menyajikannya kepada
pengguna dalam format yang dapat diterima
(acceptable).
Suatu STBI berbasis teks, secara normal
karakteristiknya dilihat dari fasilitas temu
balik yang dimilikinya. Seringkali suatu STBI
tidak dapat menelusur informasi melalui fieldfield tertentu, karena keterbatasan fasilitas
yang dimilikinya. Oleh karena itu fasilitas
penelusuran yang ditawarkan dalam suatu
STBI adalah merupakan salah satu unsur yang
paling penting dalam memilih paket-paket
database informasi berbasis teks.
Secara umum bahwa suatu STBI tekstual
memiliki sejumlah fasilitas yang dapat
digunakan untuk query atau bahasa perintah
(query or command language); formulasi
query dengan Boolean (Boolean query
formulation); pemurnian penelusuran (search
refinement); pemendekan/pemotongan dan
penelusuran rentetan teks (truncation and text
string searching); daftar kata yang tidak
dipakai dalam penelusuran (stop list or
common word list); tesaurus/pendukung
perbendaharaan kosa kata (thesaurus/
vocabulary support); kedekatan penelusuran
(proximity searching); pembatasan penelusuran
dengan ruas (limiting searching by field); dan
penelusuran kawasan numerik (numeric range
searching) (Rowlands, 1987: 7-8). Sejumlah
fasilitas yang disebutkan di atas sangat
diperlukan untuk melakukan penelusuran pada
suatu database yang berbasis teks.
Kelengkapan fasilitas ini tentu sangat
mempengaruhi keefektifan STBI yang tentu
akan berdampak kepada tingkat ketepatan
(precision) dalam penelusuran.
3. Efektivitas STBI Berbasis Teks

Teskey (1984) dalam suntingan Rowlands
mengidentifikasikan ada empat fungsi yang
paling penting, yang bisa terbukti dalam
segala STBI tekstual yang baik, yaitu bahwa
suatu STBI tekstual yang baik, seharusnya
dapat untuk: (a) menerima dan menyusun
berbagai teks dari berbagai sumber; (b)

Pesatnya kemajuan teknologi informasi
khususnya
komputer
disertai
dengan
dukungan kecanggihan perangkat lunak
(software) mengakibatkan pengelola informasi
mampu menata, menyimpan sejumlah besar
informasi dan menyediakan akses terhadap
Halaman 74
Universitas Sumatera Utara

Pustaha: Jurnal Studi Perpustakaan dan Informasi, Vol.2, No.2, Desember 2006

informasi tersebut dengan cepat dan tepat.
Kemajuan itu sangat berpengaruh kepada
perkembangan STBI (information retrieval
system). Keakuratan dan kecepatan dari suatu
STBI sangat diharpakan dalam upaya
memenuhi kebutuhan pengguna untuk
memperoleh informasi yang diinginkannya.
Efektivitas dari suatu STBI adalah
kemampuan dari sistem itu untuk memanggil
berbagai dokumen dari suatu database sesuai
dengan permintaan pengguna. Efektivitas dari
STBI tersebut dapat diukur. Ada dua hal
penting yang biasanya digunakan dalam
mengukur kemampuan suatu STBI yaitu rasio
atau perbandingan dari perolehan (recall), dan
ketepatan (precicion) (Lee Pao, 1989: 225).
Perolehan (recall) berhubungan dengan
kemampuan
sistem untuk memanggil
dokumen yang relevan dengan query,
sedangkan ketepatan (precision) berkaitan
dengan kemampuan sistem untuk tidak
memanggil dokumen yang tidak relevan
dengan kebutuhan pengguna. Dokumen
terpanggil (recall) yang relevan dengan query
pengguna belum tentu relevan dengan
kebutuhan pengguna.
Rasio dari tingkat perolehan (recall) dan
ketepatan (precision) yang dicapai dalam
kegiatan penelusuran dapat diungkapkan
sebagai berikut:

Rasio dari recall sebenarnya sulit diukur
karena jumlah seluruh dokumen yang relevan
dalam database sangat besar dan tidak
diketahui. Oleh karena itu, presisi-lah
(precision) yang menjadi salah satu ukuran
yang digunakan untuk menilai keefektifan
suatu STBI. Untuk memudahkan pemahaman
akan kedua rasio tersebut, berikut dikemukakan
sebuah contoh soal dan perhitungan penentuan
recall dan precision.

Halaman 75

Andaikan suatu file dalm database
menyimpan 100 dokumen. Pada suatu
penelusuran menggunakan query “Chemical
Industry”, ternyata diperkirakan ada 10
dokumen yang mungkin dapat terambil
(retrieved) menggunakan query tersebut, akan
tetapi dalam kenyataannya setelah dilakukan
penelusuran hanya 4 dokumen yang terambil
dalam pencarian sedangkan 6 dokumen lain
tidak terambil karena mungkin kurang/tidak
relevan. Kemudian diketahui bahwa ada 2
dokumen lain dalam file dabase diketahui
relevan kepada query akan tetapi tidak
terambil (not retrieved). Untuk menghitung
rasio recall dan precision dari seperti disebut
pada soal di atas, sering digunakan tabel
berikut:
Tabel Perhitungan Recall dan Precision
Relevant
Retrieved
Not Retrieved
Total

4 (a)
2 (c)
6

Not
Relevant
6 (b)
88 (d)
94

Total
10
90
100

Berdasarkan tabel di atas, sekarang
perhitungannya dapat dilakukan dengan
mengacu kepada kepada rasio yang telah
dikemukakan sebelumnya. Untuk menghitung
rasio recall, terlebih dahulu kita tentukan
jumlah dokumen relevan yang terambil,
berdasarkan data pada tabel yaitu a,
sedangkan Jumlah dokumen relevan yang ada
dalam database adalah a + c. Dengan
demikian rasio recall (R) tersebut dapat
dinyatakan sebagai berikut:
a
R = -----a+c
4
= ------4+2
= 0,66
Selanjutnya untuk menghitung precision, hal
yang sama pada penghitungan recall
diberlakukan yaitu jumlah dokumen relevan
yang terambil adalah a, sedangkan Jumlah
dokumen yang terambil dalam pencarian

Universitas Sumatera Utara

Pustaha: Jurnal Studi Perpustakaan dan Informasi, Vol.2, No.2, Desember 2006

adalah a + b. Dengan demikian rasio precision
(P) dapat dinyatakan sebagai berikut:
a
Precision = -------a+b
4
= ------4+6
= 0,40
Kondisi ideal dari keefektifan suatu sistem
temu kembali informasi adalah apabila rasio
recall dan precision sama besarnya (1 : 1)
(Lee Pao, 1989: 229). Selain itu, suatu sistem
temu kembali dinyatakan efektif apabila hasil
penelusuran mampu menunjukkan ketepatan
(precision) yang tinggi sekalipun perolehannya
rendah (Rowley, 1992: 172).
4. Pengindeksan
dalam STBI

dan

Bahasa

Indeks

Salah satu faktor yang berpengaruh terhadap
STBI
ialah
pengindeksan
dokumen.
Pengindeksan (indexing) mencakup proses
pencatatan ciri-ciri dokumen, analisis isi,
klasifikasi maupun pembuatan entri ke dalam
bahasa indeks. Tujuan pengindeksan ialah
untuk memungkinkan ditemukannya dokumen
yang relevan dengan pertanyaan (query)
dengan tepat.
Kegiatan pengideksan akan menghasilkan
indeks. Meadow (1992: 69-70) mengemukakan
bahwa indeks adalah merupakan cantuman
dari
bermacam-macam
atribut
yang
diharapkan dapat digunakan sebagai dasar
pencarian dokumen. Jika atribut tersebut
berupa
subjek,
maka
indeks
yang
mewakilinya disebut sebagai indeks subjek.
Sedangkan bila atribut tersebut berupa
pengarang, maka indeks yang mewakilinya
disebut sebagai indeks pengarang. Umumnya
kegiatan pengindeksan adalah berupa
pengindeksan subjek, namun dalam kenyataannya
di perpustakaan indeks subjek dan pengarang
sama-sama digunakan dalam STBI.
Indeks di perpustakaan berfungsi sebagai
sarana untuk menunjukkan kepada penelusur

dokumen-dokumen yang potensial relevan
dengan permintaannya. Sarana itu sering
disebut sebagai wakil dari dokumen yang
dimiliki, yaitu berupa katalog perpustakaan.
Dengan demikian, fungsi indeks pada
database
maupun
perpustakaan
pada
prinsipnya adalah sama yaitu sebagai sarana
temu balik.
Tujuan utama pengindeksan ialah untuk
membentuk representasi dari dokumen dalam
bentuk yang sesuai untuk dicantuman dalam
berbagai tipe database (Lancaster, 1998: 1).
Indeks sebagai representasi dari dokumen
diharapkan dapat menggambarkan isi atau
subjek yang terkandung di dalam dokumen
tersebut, sehingga dapat ditemukan kembali
melalui istilah (index term) yang digunakan.
Pada dasarnya ada dua jenis bahasa indeks
yaitu bahasa alamiah (natural language) dan
kosa kata terkendali (controlled vocabulary).
Bahasa alamiah adalah bahasa dari dokumen
yang diindeks. Biasanya bahasa tersebut
merupakan bahasa yang tidak terkendali
(uncontrolled vocabulary). Bahasa alamiah ini
umum digunakan dalam komunikasi dan
penulisan ilmiah, yang banyak dipakai oleh
pengarang (Lancaster, 1986: 159). Sedangkan
kosa kata terkendali dapat berupa indeks
subjek, pengarang, judul maupun dalam
tesaurus.
Ditinjau dari sisi STBI, tesaurus adalah suatu
daftar pengendali (authority list) dari istilahistilah khusus yang digunakan dalam STBI
tertentu. Akan tetapi bila ditinjau dari segi
fungsinya tesaurus adalah sarana pengawasan
istilah yang digunakan untuk penerjemahan
bahasa alamiah dokumen ke bahasa yang
terkendali. Tesaurus berisi sejumlah istilah
indeks dengan menggunakan bahasa yang
terkendali, sehingga sering disebut juga
dengan
bahasa
terkendali
(controlled
language). Tujuan utama tesaurus adalah juga
untuk memudahkan temu kembali dokumen,
dan juga untuk mencapai konsistensi dalam
pengindeksan dokumen pada STBI.
Dalam pengindeksan kosa kata terkendali
seperti tesaurus, istilah yang digunakan untuk
menyatakan kandungan atau isi suatau
dokumen telah dibakukan dalam suatu daftar
Halaman 76
Universitas Sumatera Utara

Pustaha: Jurnal Studi Perpustakaan dan Informasi, Vol.2, No.2, Desember 2006

indeks yang disusun secara alfabetis, misalnya
dalam Sears List of Subject Heading, Library
of Congress Subject Heading, Macro
Economics Thesaurus, DDC Index, dan
sebagainya. Sedangkan dalam pengindeksan
bahasa alamiah, pengindeksan dilakukan pada
semua istilah baik dari judul, abstrak, maupun
dari teks lengkap (full text) dokumen,
terkecuali stop word atau daftar kata umum
yang tidak digunakan dalam penelusuran
(Rowley, 1992: 272). Semua istilah indeks
yang dihasilkan adalah bergantung kepada
bahasa dokumen itu sendiri, dan semuanya itu
dapat merupakan representasi dari dokumen
itu. Mengingat volume pengindeksan dalam
bahasa alamiah ini sangat besar, maka
pengindeksan ini biasanya dilakukan oleh
komputer.
Bahasa alamiah dan kosa kata terkendali
adalah dua bahasa hasil dari pengindeksan
yang sama-sama dapat dipergunakan sebagai
representasi
dokumen.
Kedua
bahasa
pengindeksan tersebut digunakan pada waktu
pemasukan (input) data ke dalam database,
dan akan digunakan juga pada waktu
pencarian/penelusuran (output) informasi dari
database. Pertanyaan, yang manakah di antara
keduanya yang paling baik digunakan dalam
pencarian/penelusuran informasi pada suatu
database?
5. Bahasa Alamiah versus Kosa Kata
Terkendali dalam STBI

5.1. Keunggulan dan Kelemahan Bahasa
Alamiah
Keungulan maupun kelemahan bahasa
alamiah dalam STBI sangat bervariasi dan
kompleks. Banyak faktor yang mungkin dapat
mempengaruhinya. Banyak keunggulan dari
penggunaan bahasa alamiah dalam penelusuran
informasi, beberapa di antaranya adalah:
(a) Bahasa alamiah dapat dengan mudah
dimengerti oleh pengguna tanpa harus
memerlukan pelatihan khusus, dan
berbagai nuansa makna dapat diekspresikan
dengan lebih leluasa (Meadow, 1992: 3738). Maksudnya, dengan kekayaan
perbendaharaan kosa kata, memungkinkan
penelusur
mengekspresikan
gagasan,

Halaman 77

perasaan dan keinginannya dengan
berbagai cara dan nuansa untuk
mendapatkan dokumen yang diinginkannya.
(b) Bahasa alamiah memiliki spesifikasi
(specification) yang tinggi (Lancaster,
1977: 23). Spesifikasi istilah ini muncul
karena dapat menggunakan seluruh istilah
yang terdapat dalam dokumen sebagai
query. Spesifikasi istilah memudahkan
pencarian untuk mendapatkan ketepatan
(precision) yang tinggi. Semakin tinggi
spesifikasi istilah yang digunakan dalam
penelusuran akan semakin tinggi ketepatan
(precision), sedangkan perolehan (recall)
akan semakin rendah. Sebaliknya bila
spesifikasi istilah rendah, maka perolehan
(recall) akan semakin tinggi, sedangkan
ketepatan (precision) cenderung rendah.
Misalnya, bila kita menggunakan istilah
“LINGUISTICS” untuk mencari dokumen
yang memuat penelitian tentang logat
bahasa pada suatu database, maka jumlah
perolehan (recall) pasti akan tinggi,
sedangkan ketepatan (precision) akan
rendah, karena istilah “LINGUISTICS”
adalah istilah umum dalam ilmu bahasa,
dengan
demikian
spesifikasi
yang
dirumuskan rendah. Akan tetapi bila kita
menggunakan istilah “DIALECT”, maka
jumlah perolehan (recall) akan rendah,
sedangkan ketepatan (precision) tinggi,
karena istilah “DIALECT” adalah istilah
khusus, yang berarti spesifikasinya tinggi.
(c) Bahasa alamiah memiliki kedalaman
(exhaustivity) yang tinggi (Foskett, 1985:
114). Artinya, banyak tema atau subjek
baru yang dihasilkan dokumen yang dapat
dijadikan sebagai istilah baru dalam
penelusuran. Karena, pada prinsipnya
bahwa semua kata terkecuali stop word
dapat dijadikan sebagai keyword dalam
penelusuran.
(d) Penelusur yang merupakan praktisi dalam
bidangnya dapat melakukan penelusuran
dengan bahasa alamiah dengan lebih
efektif.
Selain memiliki sejumlah keunggulan, bahasa
alamiah juga memiliki berbagai kelemahan,
beberapa di antaranya adalah:
(a) Bahasa alamiah tidak atau kurang ringkas
(lack of conciseness) (Meadow, 1992: 38).

Universitas Sumatera Utara

Pustaha: Jurnal Studi Perpustakaan dan Informasi, Vol.2, No.2, Desember 2006

Query yang digunakan penelusur sering
berupa kata atau istilah berbeda atau tidak
standar sehingga sering terjadi kehilangan
informasi saat penelusuran. Misalnya,
seorang penelusur ingin mendapatkan
dokumen tentang proses yang dialami
seseorang untuk menjadi semakin tua.
Lalu dia menggunakan query “PROSES
MAKIN TUA”. Dengan query itu, mungkin
penelusur tersebut pasti mendapatkan
perolehan (recall) dokumen, akan tetapi
ketepatannya (precsion) dengan kebutuhan
tidak ada, karena dokumen yang berisi
istilah itu tidak ada. Akan tetapi bila
penelusur itu menggunakan istilah indeks
subjek “PENUAAN” sebagai query,
mungkin akan dia peroleh (recall)
sejumlah dokumen yang ketepatannya
(precision) sangat tinggi, yang berarti
sangat sesuai dengan yang diinginkannya.
Kesalahan yang terjadi sebenarnya terletak
pada penyusunan atau pemilihan istilah
yang tepat sebagai query.
(b) Mempunyai ambiguitas (ambiguity) yang
tinggi (Meadaw, 1992: 37). Muddamalle
(1998: 881) menyebut bahwa …”natural
language is full of ambiguities”.
Ambiguitas adalah kata atau istilah yang
dapat memiliki lebih dari satu arti sehingga
mengakibatkan kerancuan. Ambiguitas
dapat terjadi karena sinonim atau
homograf. Sinonim yaitu bentuk kata yang
berbeda tetapi artinya sama, dapat
menyebabkan terpencarnya informasi
mengenai topik yang sama, misalnya, kata
sado, dokar, delman. Homograf yaitu katakata yang ejaannya sama tetapi maknanya
berbeda,
misalnya
raut
artinya
meruncingkan, menghaluskan; akan tetapi
raut dapat juga artinya tampang, potongan.
Sinonim
dan
homograf
dapat
mengakibatkan
false
drops
yaitu
terjaringnya dokumen yang sama sekali
tidak relevan, atau subjek yang tidak
relevan ikut terjaring atau terambil dalam
proses temu balik.
(c) Kesulitan komputer untuk menginterpretasikan
teks (Meadow, 1992: 37). Kelemahan ini
terjadi karena ketidakmampuan sistem
menyerap atau menangkap makna dari
suatu pernyataan. Hal ini terjadi karena
dalam memroses bahasa alami, komputer

tidak bisa bekerja sebagaimana otak
manusia, terkecuali komputer tersebut
dilengkapi dengan suatu knowledge base.
Misalnya, seseorang ingin mencari
dokumen tentang “Perpustakaan Sekolah”
pada suatu database, maka ia akan
menggunakan query Perpustakaan AND
Sekolah, akan tetapi dalam pencariannya
dokumen-dokumen tentang “Sekolah
Perpustakaan” juga akan terjaring atau
terambil, padahal konsep “Perpustakaan
Sekolah” dengan “Sekolah Perpustakaan”
mempunyai makna yang berbeda. Dalam
keadaan ini juga terjadi false drops.

5.2. Keunggulan dan Kelemahan Kosa
Kata Terkendali
Banyak keunggulan dari penggunaan kosa
kata terkendali (controlled vocabulary) dalam
sistem temu kembali informasi, beberapa di
antaranya adalah:
(a) Proses penelusuran dan temu balik
informasi lebih efisien (Korfhage, 1997:
24). Artinya, dengan menggunakan kosa
kata terkendali seperti indeks subjek atau
tesaurus dalam penelusuran, maka
ketepatan dari dokumen yang terambil
dengan kebutuhan pengguna dapat
diperoleh dalam waktu yang relatif singkat.
(b) Mempunyai representasi dokumen yang
konsisten. Kosa kata atau istilah yang
digunakan dalam pengindeksan dokumen
pada saat input ke sistem adalah kosa kata
yang terkendali dan standar. Oleh karena
itu, bila kosa kata atau istilah tersebut
kemudian dijadikan sebagai query untuk
pencarian atau penelusuran, maka sudah
pasti
akan
tetap
mewakili
atau
merepresentasikan dokumen yang sama
seperti pada saat input sistem dilakukan.
Misalnya, pada input sistem dokumen A
direpresentasikan oleh kosa kata atau
indeks subjek “MICROBIOLOGY”, pada
waktu pencarian seorang penelusur
menggunakan “MICROBIOLOGY” sebagai
query-nya, maka penelusur tersebut pasti
akan menemukan dokumen A karena
representasi dokumennya tetap konsisten.
Dengan demikian selalu terjadi kesamaan
penggunaan istilah di antara pengindeks
(indexer) dengan penelusur (searcher).

Halaman 78
Universitas Sumatera Utara

Pustaha: Jurnal Studi Perpustakaan dan Informasi, Vol.2, No.2, Desember 2006

(c) Memudahkan penelusuran komprehensif
dengan menyatukan istilah terkait secara
semantis (Lancaster, 1977: 2). Maksudnya,
ada kalanya suatu kosa kata atau indeks
subjek tertentu mempunyai hubungan
makna dengan indeks yang lain, sehingga
dapat digunakan untuk memperkuat
pencarian. Misalnya untuk mencari
dokumen tentang “pengebalan tubuh
manusia terhadap penyakit”, maka kosa
kata atau indeks subjek yang dapat dijadikan
sebagai query ialah “IMMUNIZATION”, akan
tetapi untuk menguatkan pencarian
penelusur juga dapat menggunakan kosa
kata lain seperti “VACCINATION”, karena
kedua kosa kata di atas adalah terkait
secara semantis.
(d) Memiliki ambiguity yang sangat kecil.
Ambiguitas
atau
kerancuan
dapat
dikurangi sekecil mungkin karena kosa
kata dapat mengontrol sinonim dan
homograf.
Selain keunggulan, penggunaan kosa kata
terkendali (controlled vocabulary) pada STBI
juga mempunyai banyak kelemahan, sebagian
di antaranya adalah:
(a) Kosa kata terkendali harus selalu
diperbaharui. Perkembangan ilmu dan
teknologi
menyebabkan
munculnya
berbagai subjek baru yang sekaligus juga
berdampak terhadap pemunculan atau
penghilangan suatu istilah atau kosa kata.
Oleh karena itu, suatu tajuk subjek atau
tesaurus pada suatu periode tertentu harus
diperbaharui untuk bisa menyesuaikan diri
sesuai perkembangan (Muddamalle, 1998:
881). Misalnya, bila kita menelusur dengan
istilah atau kosa kata “CANCER” sebagai
query pada indeks DDC edisi ke-19, maka
kita akan dirujuk dengan kata see
“TUMORS”. Sekalipun keduanya semantis,
namun terdapat perbedaan. Ini terjadi
karena pada indeks DDC edisi ke-19
subjek CANCER belum dijabarkan secara
lengkap karena mungkin pada masa itu
istilah cancer masih belum populer. Akan
tetapi bila ditelusur pada indeks DDC edisi
ke-20 dan 21, istilah tersebut telah
dijabarkan
secara
rinci.
Hal
itu
menunjukkan bahwa indeks DDC tersebut
diperbaharui secara berkala.

Halaman 79

(b) Kosa

kata
terkendali
(controlled
vocabulary) sering dihadapkan kepada
ketidak-cocokan (incompatibility) istilah di
antara satu database dengan database
lainnya pada bidang ilmu yang sama
(Lancaster, 1986: 159). Misalnya, CAB
CD-ROM dan Agricola CD-ROM adalah
dua database yang memuat indeks dan
abstrak penelitian pada bidang ilmu yang
sama yaitu pertanian (agriculture). Akan
tetapi ada kalanya beberapa kosa kata atau
istilah yang digunakan untuk indeks subjek
pada kedua database tersebut berbeda. Hal
ini tentunya bisa menyulitkan penelusur
bila melakukan penelusuran pada kedua
database tersebut.
(c) Kurangnya spesifikasi dalam kosa kata.
Berbeda dengan bahasa alamiah, di mana
penelusur dapat menggunakan secara
bebas kosa kata yang spesifik. Akan tetapi
pada kosa kata terkendali, spesifikasi
istilah ditentukan oleh ketersediaannya
pada indeks subjek atau tesaurus.
(d) Kosa kata terkendali memiliki struktur
yang tidak lengkap. Artinya rincian subjek
adalah sangat terbatas untuk pencarian atau
penelusuran komprehensif.
(e) Kosa kata terkendali memerlukan biaya
dan upaya yang besar pada waktu input
sistem yaitu pada saat pengindeksan
dilakukan (Lancaster, 177: 7).

5.3. Pendekatan Penelusuran yang Ideal
Dengan menguraikan sejumlah keunggulan
dan kelemahan dalam melakukan penelusuran
menggunakan pendekatan bahasa alamiah
(natural language) dan kosa kata terkendali
(controlled vocabulary) sebagai mana
dijelaskan di atas, maka mucul pertanyaan,
“Pendekatan manakah yang ideal dilakukan
dalam melakukan penelusuran dalam sistem
temu kembali informasi?”
Untuk menjawab pertanyaan tersebut,
Muddamalle (1998: 881-887) melalui
penelitiannya yang berjudul “Natural
Language versus Controlled Vocabulary in
Information Retrieval: a Case Study in Soil
Mechanics”, menyatakan bahwa temu balik
informasi dengan bahasa alamiah dan kosa
kata terkendali menunjukkan hasil yang

Universitas Sumatera Utara

Pustaha: Jurnal Studi Perpustakaan dan Informasi, Vol.2, No.2, Desember 2006

sangat efektif, dengan perbedaan atau dengan
batasan yang sangat tipis, hasilnya tidak jauh
berbeda. Untuk mencapai temu balik
informasi yang optimal, suatu teknik temu
balik informasi dengan kombinasi bahasa
alamiah dan kosa kata terkendali dapat
diadopsi.
Hasil penelitian tersebut juga menyatakan
bahwa teknik penelusuran dengan secara
kombinasi yaitu menggunakan bahasa alamiah
dan kosa kata terkendali menunjukkan hasil
yang lebih baik dari pada penelusuran dengan
cara terpisah. Hasil uji coba menunjukkan
bahwa terdapat 5% lebih tinggi tingkat
ketepatan hasil temu balik informasi
menggunakan cara kombinasi dari pada hasil
penelusuran dengan cara terpisah. Oleh karena
itu, alternatif bahasa alamiah atau kosa kata
terkendali tidak perlu diperlakukan lebih lama
sebagai teknik terpisah, akan tetapi lebih baik
diperlakukan bersama sebagai suatu teknik
kombinasi yang ideal.
6. Kesimpulan
Bahasa atau kosa kata (vocabulary)
memegang peranan yang sangat penting
dalam efektivitas dan efisiensi penelusuran
pada suatu STBI berbasis teks. Pendekatan
bahasa alamiah dan kosa kata terkendali
dalam STBI berbasis teks sama-sama
memiliki keunggulan dan kelemahan. Kedua
pendekatan tersebut tetap masih efektif untuk
digunakan. Akan tetapi teknik temu balik
dengan menggunakan kombinasi dari bahasa
alamiah dan kosa kata terkendali adalah
bentuk pendekatan yang ideal digunakan
dalam temu balik informasi. Penelusuran
menggunakan bahasa alamiah atau natural
language dan kosa kata terkendali atau
controlled vocabulary ternyata saling
melengkapi.

Frants, Valery I. (1997). Automated
Information Retrieval: Theory and
Methods. New York: Academic Press.
Hasibuan, Zainal A. (1996). “Kajian Sistem
Temu-Kembali Informasi: Pergeseran
Paradigma dari Orientasi Teknologi ke
Orientasi Pemakai”. Prosiding Seminar
Sehari Layanan Pusdokinfo Berorientasi
Pemakai di Era Informasi. Depok, 16
Maret 1996.
Korfhage, Robert R. (1997). Information
Storage and Retrieval. New York:
John Wiley and Sons.
Lancaster, F.W. (1998). Indexing and
Abstracting in Theory and Practise.
London: Library Association Publishing.
Lancaster, F.W. (1977). Vocabulary Control
in Information Retrieval System: in
Advances Librarianship. New York:
Academic Press.
Lancaster, F.W. (1986). Vocabulary Control
for Information Retrieval. Arlington,
Virginia: Information Resources Press.
McQuire, April R.; Eastman, Caroline M.
(1998) “The Ambiguity of Negation in
Natural Language
Queries
to
Information Retrieval Systems”. Journal
of The American Society for information
Science. 49 (8): 686-692.
Meadow, Charles T. (1997). Text Information
Retrieval
Systems.
New
York:
Academic Press.
Muddamalle, Manikya Rao. (1998). “Natural
Language versus Controlled Vocabulary in
Information Retrieval: a Case Studi in
Soil Mechanics”. Journal of The
American Society for Information
Science. 49 (10): 881-887.
Pao, Miranda Lee. (1988). Concepts of
Information Retrieval. Englewood,
Colorado: Libraries Unlimited.

Rujukan
Dimitroff, A. (1995). “Affective Response
and Retrieval Performance: Analysis of
Contributing Factors”. Library and
Information Science Research. 18: 121132.

Halaman 80
Universitas Sumatera Utara