Ontologi Populasi Teks Tentang Penyakit Tanaman

6

BAB 2
TINJAUAN PUSTAKA

Ontologi populasi teks berkaitan dengan populasi ontologi dengan basis dokumen
teks, yang menentukan instansi hubungan sebagai konsep, dengan penentuan instansi
hubungan adalah sesuatu yang sulit dan secara praktis memerlukan pemahaman
terhadap bahasa alamiah. Oleh karena itu, dalam ruang tinjauan pustaka ini akan
diulas beberapa hal yang berkaitan dengan penurunan populasi ontologi dalam teks.
2.1

Ontologi

Ontologi pada dasarnya adalah untuk mencari makna eksistensi dan struktur umum
yang terdapat pada eksistensi, struktur yang kemudaian dinamakan sebagai kategori
dan susunan eksistensi. Pada awalnya, ontologi seperti pencarian Aristoteles yang
menunjukan bahwa pertanyaan mengenai makna eksistensi sesuatu membawa kepada
penghargaan terhadap keajaiban eksistensi manusia sedangkan studi mengenai
kategori membawa pada sebab pertama, asal usul dari segala sesuatu (Hu dan Zhang,
2010). Tidak berlebihan bila dikatakan bahwa motivasi yang sesungguhnya dalam

studi mengenal ontologi berkaitan dengan adalah putusan berdasarkan alasan atau
gugahan terhadap agama, disamping putusan atas pengetahuan dan emosi etis. Dalam
hal ini, gaya pemikiran melibatkan popularitas aliran pemikiran, sebagaimana ontologi
tidak saja mempengaruhi metodologi penelitian tetapi juga berkaitan dengan
pemaknaan: Ontologi adalah platform semantik, tanpa ontologi pemaknaan tidak akan
ada. Setiap aliran pemikiran, seperti pemetaan ontologi, evolusi ontologi, ontologi
taksonomi, atau ontologi populasi telah mempengaruhi banyak area ilmiah
sebagaimana akuisisi pengetahuan dari populasi teks (Cimiano, 2006).
Ontologi

menyiapkan

pemahaman

terhadap

bagian-bagian

domain


pembicaraan untuk mendukung komunikasi antara manusia dan komputer. Secara
khusus segala sesuatu yang dapat diwakili oleh bahasa sehingga dapat diolah oleh
mesin dan kemudian menjadi bentuk formal yang secara eksplisit menawarkan

Universitas Sumatera Utara

7

pemaknaan konsep dalam domain dan hubungan, dan dianggap sebagai faktor
penting dalam keberhasilan banyak aplikasi berbasis pengetahuan (Nasution, 2010).
Ontologi dianggap sebagai tulang punggung banyak aplikasi saat ini, seperti sistem
berbasis pengetahuan, sistem manajemen pengetahuan, dan aplikasi web semantik.
Salah satu tugas penting dalam pengembangan sistem tersebut adalah akuisisi
pengetahuan. Pendekatan konvensional untuk akuisisi pengetahuan terutama dari
wawancara pakar domain, kemudian pemodelan dan transformasi pengetahuan yang
diperoleh dalam beberapa bentuk teknik representasi pengetahuan.
Namun, sejumlah besar pengetahuan saat ini tertanam dalam berbagai
dokumen, banyak di antaranya tersimpan dalam repositori atau Web, terutama
literatur akademik dan memiliki potensi untuk dieksploitasi demi konstruksi
pengetahuan. Masalah utama yang melekat adalah bahwa pengetahuan seperti ini

sangat tidak terstruktur dan sulit untuk berubah menjadi model yang bermakna.
Sistem presentasi pengetahuan berkaitan dengan logika deskripsi yang terdiri dari
TBox (Terminology Box) dan ABox (Assertion Box) seperti berikut (Lutz dan Miličić,
2007).
2.1.1 TBox dan ABox
Meskipun sejumlah pendekatan otomatis dalam memperoleh pengetahuan tersebut
telah diusulkan (Gartner, 2008.), tetapi sedikit di antaranya yang berhasil sebab
pendekatan tersebut hanya diuji pada domain umum sedangkan domain seperti
penyakit dan tumbuhan belum dieksplorasi. Sementara pendekatan otomatis
tampaknya menawarkan solusi yang menjanjikan, manusia tetap berperan dalam
memvalidasi kebenaran pengetahuan yang diperoleh, khususnya dalam domain ilmiah
(Nasraoui dan Goswami, 2006).
Nalar manusia terus diperlukan untuk membangun TBox ontologi, yaitu
sehimpunan tuntutan aksioma yang mendefinsikan atribut konsep dan jenjang konsep
dan atribut. Ini melibatkan pengetahuan umum dan merupakan dasar inferensi
(kesimpulan). Sedangkan ABox adalah sehimpunan tuntutan instansi yang
menerangkan instansi konsep dan hubungan yang berkaitan dengan TBox. Ontologi
dan logika deskripsi sesuai dan merupakan bentuk substansi dari basis pengetahuan

Universitas Sumatera Utara


8

logis deskripsi. Oleh karena itu, ontologi dapat dideklarasikan dengan TBox dan
ABox (Ibrahim et al., 2010).
Penelitian ini, diusulkan seperangkat aturan untuk mengisi penyakit tanaman
ontologi domain dari teks yang tidak terstruktur. TBox ontologi untuk domain ini
dibangun dari serangkaian pertanyaan dari ahli domain serta analisis dari literatur
terkemuka. Pendekatan yang diusulkan didasarkan pada pencocokan pola dan Named
Entity Recognition (NER), hubungan semantik di identifikasi dengan analisis utama
yang terlibat memiliki aturan dan mengidentifikasi entitas hubungan selanjutnya
menegaskan sebagai contoh konsep ontologi Tbox (Lutz, 2004).
2.2

Sistem Pendukung Keputusan

Pendekatan umum yang digunakan untuk populasi ontologi didasarkan kepada konsep
instansi. Setiap instansi secara literal diwakili oleh teks, yaitu satu atau lebih kata atau
dikenali dengan istilah tk = {wi|i = 1,....,k}, w adalah kata. Instansi dapat berupa objek
dan atribut yang melekat padanya, contohnya Fakultas Ilmu Komputer dan Teknologi

Informasi (Fasilkom-TI) sebagai objek mempunyai atribut Universitas Sumatera Utara
atau Medan sebagai atribut yang mengungkapkan jati diri dari Fasilkom-TI. Misalkan
terdapat instansi (entitas atau atribut) yang diberikan secara literal, semua pemaknaan
objek didasarkan atas kata yang diwakil oleh objek itu secara harfiah. Vokabulari
berkaitan dengan pengindeksan yang diberi pengenal 1,...,L, wl = 1 jika l dalam L dan
wl = 0 dalam hal lain. Jadi tk adalah istilah dengan ukuran |tk| = k, l lebih kecil atau
sama dengan k, untuk mana l bilangan parameter yang mewakili kata.
Apabila untuk sebarang istilah tx diperoleh satu singleton (Nasution, 2012a)
dari okkurensi sebagai |s| dan doubleton (Nasution, 2012b) untuk dua istilah tx dan ty
atau tx

∩ ty

dari kookurensi diperoleh similaritas antara dua istilah sebagai berikut

(Nasution, 2012c)
sim(tx,ty) = (tx,ty,tx ∩ ty) di dalam [0,1]
yang menerangkan hubungan antara dua istilah tersebut secara semantik.

Universitas Sumatera Utara


9

2.3

Pemaknaan Teks

Pemaknaan teks adalah cabang baru dalam bidang penambangan data. Pertama
beberapa istilah dinyatakan dari teks dengan teknik tertentu dan mengubah data teks
menjadi data terstruktur yang dpat menguraikan isi dari teks tersebut. Teks secara
umum memiliki wacana yang mengandung arti sesuai dengan bentuknya dan
susunannya, apakah dalam kalimat atau hubungan yang diuraikan dalam konsep
tertentu atau dalam hitungan statistik. Teknik penambangan data melibatkan
klasifikasi, penggugusan, analisis hubungan dan seterusnya merupakan bagian model
dari pemaknaan teks. Konsepsi baru mungkin ditemukan berkaitan dengan hubungan
yang relevan dalam struktur dimaksudkan.
2.3.1 Korpus
Populasi teks untuk domain tertentu dapat dikumpulkan dalam korpus. Korpus adalah
kumpulan dokumen dalam domain tertentu, dokumen mengandungi sejumlah kata.
Jadi, dalam korpus ditemukan kumpulan tema, masalah, pengarang, atau bentuk yang

sama, karena dokumen berasal dari domain yang sama. Dengan demikian, korpus
memiliki ruang vektor teks dengan mana setiap kata dapat diberi bobot. Pembobotan
kata dapat diberikan melalui probabilitas kata pada setiap dokumen dibandingkan
probabilitas kata dalam korpus, atau melibatkan perhitungan frekuensi kata dalam
dokumen dan dalam korpus sehingga dimungkinkan ruang vektor diwakili oleh
TF.IDF (Nasution dan Noah, 2010; Nasution dan Noah, 2011a).
Selain itu, melalui susunan kata dalam satu kalimat dimungkinkan untuk
membentuk satu pola hubungan kata yang mewakili objek tertentu, dan akan
dipetakan melalui TBox dan Abox. Pemetaan ini untuk menentukan aturan-aturan
yang berlaku apabila kata tertentu muncul dalam populasi teks akan diikuti oleh kata
lain sesuai dengan prediksi aturan yang telah dipolakan. Dalam korpus ditentukan
aturan-aturan hubungan kata ini berdasarkan ontologi, dan kemudian akan diuji ke
dalam sekumpulan dokumen yang lain.

Universitas Sumatera Utara

10

2.3.2 Sampel dan Populasi teks
Korpus adalah sampel teks, sebagai penentu pola hubungan kata secara tekstual. Oleh

karena itu, korpus dibangun dalam satu domain, dan melibatkan bentuk baku dalam
plain text, sehingga dimungkinkan untuk membangun model data yang sesuai dengan
metode yang akan diterapkan (Cimiano et al., 2007). Walau bagaimanapun, populasi
teks terbesar adalah Web. Kumpulan dokumen yang terus menerus berkembang dan
mewakili secara semantik milliu sosial dan kecenderungannya. Web adalah kumpulan
dokumen yang pernah ada dalam sejarah. Web mewakili seluruh pengetahuan
manusia saat ini, informasi yang terkandung di dalamnya begitu berharga, dan siapa
saja yang mampu mengambil kesempatan dalam hal ini, memiliki peluang lebih baik.
Akan tetapi, untuk mengakses informasi demikian diperlukan alat seperti mesin cari
dan berbagai metode untuk mendapatkan informasi atau pemaknaan dalam
pengetahuan tertentu.
Populasi teks terbesar ini seperti Web, akan digunakan sebagai bahan bandingan
terhadap beberapa aturan yang diturunkan dari populasi teks, dan diuji dan dinilai
berdasarkan sistem temu kembali informasi (information retrieval) (Alfred et al.
2010).
2.4

Text Mining

Text mining adalah menarik sebuah ekstraksi didalam penemuan, pengetahuan dari

yang ada di dalam teks bebas atau tidak terstruktur. Text mining mencakup segala
sesuatu dari pengambilan informasi (yaitu: dokumen atau pengambilan situs web)
untuk klasifikasi teks dan clustering, untuk entitas, relasi dan kegiatan ekstraksi.
Hal demikian dapat menempatkan kira-kira sebagai penggalian sebuah dokumen
yang biasanya memanfaatkan konsep seperti kata-kata yang tidak mengandung text
mining yaitu: ”dan”, ”pada”, ”di”, ”dengan”, dan lain-lain. (Kao, A. dan Stephen R.
Poteet. 2007).

Universitas Sumatera Utara

11

2.5

Recall dan Presisi

Secara statistic, recall dan presisi menunjukkan perbandingan antara data percobaaan
dan data survey (Croft et al., 2010). Misalkan, terdapat sekumpulan butir data A
sebagai percobaan dan sekumpulan butir data B sebagai survei dengan ukuran masingmasing adalah |A| dan |B|. Andaikan melalui perhitungan diperoleh |A∩B| untuk
menyatakan hal-hal yang sama, maka penilaian berdasarkan recall dinyatakan dengan


rec = |A∩B|/|A|

(2.1)

sedangkan presisi dapat dinyatakan sebagai

pre = |A∩B|/|B|

(2. 2)

dengan ketentuan bahwa |A∩B|≤|A| dan |A∩B|≤|B|. Sebaliknya, dengan kondisi yang
berbeda bahwa |A B|≥|A| dan |A B|≥|A|, recall dan presisi merupakan perbandingan
antara nilai-nilai perhitungan antara ketiganya.

Universitas Sumatera Utara