Terjemahan Versi Komarudin Tasdik

Terjemahan Versi Komarudin Tasdik

MANAJEMEN PENGETAHUAN, DATA MINING, DAN TEXT MINING
DALAM INFORMATIKA MEDIS
Penerjemah: http://komarudintasdik.wordpress.com
Judul Asli: Knowledge Management, Data Mining, and Text Mining in Medical
Informatics
Bab 1
Hsinchun Chen, Sherrilynne S. Fuller, Carol Friedman, dan William Hersh
Identitas penulis

Gambaran Umum Bab
Pada bab ini kami membahas gambaran umum teknik-teknik knowledge
management (manajemen pengetahuan), data mining (penambangan data), dan
text mining (penambangan teks) pilihan dan penggunaannya dalam berbagai
aplikasi biomedis yang ada. Ini bertujuan menyusun konteks untuk bab-bab
berikutnya. Pertama, kami memperkenalkan lima paradigma utama untuk
pembelajaran mesin dan analisis data yang mencakup: model-model probabilistik
dan statistik, pembelajaran simbol dan induksi rule, jaringan saraf tiruan,
algoritma berbasis evolusi, dan pembelajaran analitis serta logika fuzzy. Kami
juga membahas relevansi dan potensinya untuk penelitian biomedis. Aplikasiaplikasi contoh penelitian manajemen pengetahuan, data mining, dan text mining

yang relevan, kemudian direview yang mencakup: ontologi; manajemen
pengetahuan untuk perawatan kesehatan, literatur biomedis, basis data heterogen,
visualisasi informasi, dan basis data multimedia; dan data serta text mining untuk
perawatan, literatur kesehatan, dan data biologis. Kami menyimpulkan paper ini
dengan pembahasan tentang isu-isu pribadi dan rahasia yang berhubungan dengan
data mining biomedis.
Kata kunci

Terjemahan Versi Komarudin Tasdik

Knowledge management; data mining; text mining
1. PENDAHULUAN
Bidang informatika biomedis telah menunjukkan peningkatan popularitas
dan perhatian, dan telah berkembang dengan cepat selama dua dekade. Berkenaan
dengan kemajuan dalam teknik-teknik molekular, genomik, dan biomedis baru
serta aplikasi-aplikasi seperti genome sequencing, protein identification, medical
imaging, dan data medis pasien, sejumlah besar data penelitian biomedis yang
dihasilkan setiap hari. Memulai dari usaha-usaha penelitian individu dan praktekpraktek klinik, data biomedis ini tersedia dalam ratusan basis data publik dan
pribadi, yang telah dibuat dengan teknologi-teknologi basis data baru dan Internet.
Digitisasi informasi medis penting seperti laporan lab, data pasien, paper

penelitian, dan gambar anatomik juga sudah berhasil dalam sejumlah data
perawatan pasien. Para peneliti dan praktisi biomedis sekarang menghadapi
masalah “info-glut” (berlimpah informasi yang belum terorganisir, pent.).
Sekarang, rate akumulasi data jauh lebih cepat daripada rate interpretasi data. Data
ini harus diorganisir dan dianalisis secara efektif agar bermanfaat.
Teknik komputasi dan teknologi informasi baru dibutuhkan untuk
memanaj repositori besar data biomedis ini dan untuk melakukan discover pola
dan pengetahuan yang bermanfaat darinya. Fakta, bahwa teknik knowledge
management, data mining, dan text mining telah diadopsi dalam berbagai aplikasi
biomedis yang sukses di tahun baru-baru ini. Teknik dan metodologi knowledge
management telah digunakan untuk mendukung storing (penyimpanan), retrieving
(penemuan kembali), sharing (berbagi), dan manajemen multimedia serta
pengetahuan biomedis eksplisit dan tacit yang bermisi penting. Teknik data
mining telah digunakan untuk melakukan discover (penemuan) pengetahuan
biologis, drug discovery, dan perawatan pasien serta pola yang menggunakan
metode analisis statistik, pembelajaran mesin (macine learning), dan jaringan saraf
tiruan pilihan. Teknik text mining telah digunakan untuk menganalisis publikasi
penelitian seperti data pasien elektronik. Entitas-entitas biomedis seperti nama-

Terjemahan Versi Komarudin Tasdik


nama obat, protein, gene, dan penyakit dapat diekstrak secara otomatis dari
dokumen-dokumen

yang

sudah

dipublikasikan

dan

digunakan

untuk

mengkonstruksi gene pathway atau menyediakan pemetaan ke dalam ontologi
medis yang ada.
Pada bagian berikutnya, kami melakukan survey dahulu terhadap latar
belakang penelitian knowledge management, data minimg, dan text mining.

Kemudian, kami membahas penggunaan teknik-teknik ini dalam aplikasi-aplikasi
biomedis yang ada.
2. KNOWLEDGE MANAGEMENT, DATA MINING, DAN TEXT MINING:
GAMBARAN UMUM
Teknik-teknik knowledge management, data mining, dan text mining telah
banyak digunakan di berbagai aplikasi penting dalam domain bisnis dan ilmiah
pada tahun baru-baru ini.
Manajemen pengetahuan adalah pendekatan sistem dan manajerial untuk
pengumpulan, manajemen, penggunaan, analisis, berbagi, dan knowledge
discovery dalam organisasi atau komunitas untuk memaksimalkan performa
(Chen, 2001). Walaupun definisi universal apa pengetahuan itu, pada umumnya
sepakat adanya kesatuan data, informasi, dan pengetahuan. Sebagian besar data itu
terstruktur, faktual, dan sering kali numerik, serta terletak dalam database
management systems. Informasi itu faktual, tapi tidak terstruktur, dan di banyak
kasus bersifat tekstual. Pengetahuan itu inferensial, ringkas, dan dibutuhkan untuk
mendukung pembuatan keputusan atau pembuatan hipotesis. Konsep pengetahuan
itu telah lazim dalam berbagai disiplin dan praktek bisnis. Contohnya, para pakar
informasi memikirkan taksonomi, subject heading, dan skema klasifikasi sebagai
representasi pengetahuan. Konsultasi perusahaan juga secara aktif telah
mendukung praktek dan metodologi untuk menangkap aset-aset pengetahuan

perusahaan dan memori organisasi. Dalam konteks biomedis, praktek-praktek
manajemen pengetahuan seringkali harus mengungkil dukungan keputusan klinik

Terjemahan Versi Komarudin Tasdik

yang ada, information retrieval, dan teknik perpustakaan digital untuk menangkap
serta menyampaikan pengetahuan biomedis eksplisit dan tacit.
Data mining sering digunakan selama proses knowledge discovery dan
merupakan salah satu dari sub bidang yang sangat penting dalam manajemen
pengetahuan. Data mining bertujuan untuk menganalisis sekelompok data atau
informasi yang ada untuk mengidentifikasi pola-pola baru dan sangat bermanfaat.
(Fayyad, dkk., 1996). Teknik-teknik ini, seperti Bayesian model, pohon
keputusan, jaringan saraf tiruan, associate rule mining, dan algoritma genetika,
sering digunakan untuk melakukan discover pola atau pengetahuan yang
sebelumnya tidak diketahui untuk sistem dan user (Dunham, 2002; Chen dan
Chau, 2004). Data mining telah digunakan dalam banyak aplikasi seperti
pemasaran, manajemen relasi pelanggan, engineering, obat, analisis kesalahan,
prediksi pakar, web mining, dan mobile computing, dan sebagainya.
Text mining bertujuan untuk mengekstrak pengetahuan yang berguna dari
data atau dokumen tekstual (Hearst, 1999; Chen, 2001). Walaupun text mining

sering dianggap sebagai sub bidang dari data mining, banyak teknik text mining
berasal dari disiplin-disiplin lain, seperti information retrieval, visualisasi
informasi, linguistik komputasional, dan ilmu informasi. Contoh aplikasi text
mining mencakup klasifikasi dokumen, clustering dokumen, ekstraksi entitas,
ekstraksi informasi, dan sumarisasi.
Banyak sekali teknik manajemen pengetahuan, data mining, dan text
mining melibatkan pola-pola pembelajaran dari data atau informasi yang ada,
sehingga dibangun berdasarkan dasar pembelajaran mesin dan kecerdasan buatan.
Selanjutnya, kami mereview paradigma-paradima utama dalam pembelajaran
mesin, metodologi evaluasi penting, dan aplikabilitasnya dalam biomedicine.
2.1 Paradigma Pembelajaran Mesin dan Analisis Data
Sejak penemuan komputer pertama pada tahun 1940, para peneliti telah
berusaha menciptakan komputer yang banyak pengetahuan, dapat belajar, dan
cerdas. Banyak pengetahuan berbasis manajemen pengetahuan telah dibangun

Terjemahan Versi Komarudin Tasdik

untuk berbagai aplikasi seperti diagnosis medis, engineering troubleshooting, dan
sebagian besar sistem ini telah didesain untuk memperoleh pengetahuan secara
manual dari para pakar (manusia), yang bisa membutuhkan sangat banyak waktu

dan proses yang panjang. Untuk mengatasi masalah ini, algoritma-algoritma
pembelajaran mesin telah dikembangkan untuk memperoleh pengetahuan secara
otomatis dari contoh-contoh atau sumber data. Simon (1983) mendefinisikan
pembelajaran mesin sebagai “semua proses yang sistemnya memperbaiki
performa sendiri.” Mitchell (1997) memberikan definisi serupa, yang menganggap
pembelajaran mesin menjadi “studi algoritma komputer yang meningkat
kualitasnya

secara

otomatis

melalui

pengalaman.”

Walaupun

istilah


“pembelajaran mesin” telah banyak diadopsi dalam komunitas ilmu komputer,
dalam konteks informatika medis, “analisis data” lebih umum digunakan untuk
merepresentasikan “studi algoritma komputer yang meningkat kualitasnya secara
otomatis melalui analisis data.” Analisis data statistik telah lama diadopsi dalam
penelitian biomedis.
Pada umumnya, algoritma pembelajaran mesin dapat diaplikasikan sebagai
supervised learning (pembelajaran terkontrol) atau unsupervised learning
(pembelajaran terkontrol). Dalam supervised learning, contoh-contoh training
terdiri atas input/output pair patterns. Algoritma pembelajaran bertujuan untuk
memprediksi nilai-nilai output dari contoh-contoh baru berdasarkan nilai-nilai
inputnya. Dalam unsupervised learning, contoh-contoh training hanya memuat
pola-pola input dan tidak ada output target eksplisit yang diasosiasikan dengan
tiap input. Algoritma unsupervised learning harus menggunakan nilai-nilai input
untuk melakukan discover asosiasi atau pola yang penuh arti.
Banyak sistem pembelajaran mesin yang sukses telah dikembangkan
selama tiga dekade dalam komunitas ilmu komputer dan statistik. Chen dan Chau
(2004) telah mengkategorikan lima paradigma utama tentang penelitian
pembelajaran mesin, yakni model-model probabilistik dan statistik, pembelajaran
simbolik dan induksi rule, jaringan saraf, model-model berbasis evolusi, dan
pembelajaran analitik dan logika fuzzy. Kami dengan singkat akan mereview


Terjemahan Versi Komarudin Tasdik

penelitian di masing-masing bidang ini dan membahas aplikabilitasnya dalam
biomedicine.
2.1.1 Model-Model Probabilistik dan Statistik
Beberapa teknik dan model analisis probabilistik dan statistik memiliki
sejarah sangat panjang dan dasar teori sangat kuat untuk analisis data. Walaupun
tidak berakar dalam penelitian kecerdasan buatan, analisis statistik mencapai
tujuan analisis data dan knowledge discovery mirip dengan pembelajaran mesin.
Teknik-teknik statistik populer, seperti analisis regresi, analisis diskriminan, time
series analysis, analisis komponen dasar, dan skala multi dimensi, sering
digunakan dalam analisis data biomedis dan sering dianggap benchmark untuk
perbandingan dengan teknik-teknik pembelajaran mesin terbaru lainnya.
Salah satu model probabilistik yang lebih maju dan populer dalam
biomedis adalah Bayesian model. Berawal dalam penelitian pengenalan pola
(Duda dan Hart, 1973), metode ini sering digunakan untuk mengklasifikasikan
objek yang berbeda ke dalam kelas-kelas yang sudah dikenal (predefined classes)
berdasarkan sekelompok fitur. Bayesian model menyimpan probabilitas tiap kelas,
probabilitas tiap fitur, dan probabilitas tiap fitur yang ada di masing-masing kelas,

berdasarkan training data. Ketika hal baru ditemukan, ia dapat diklasifikasikan
menurut probabilitas-probabilitas ini (Langley, dkk., 1992). Variasi Bayesian
model, disebut Naive Bayesian model, berasumsi bahwa semua fitur itu
independen di dalam kelas masing-masing. Karena kesederhanaan itu, Naïve
Bayesian model telah diadopsi dalam domain yang berbeda (Fisher, 1987;
Kononenko, 1993). Berkaitan dengan kekakuan matematis dan keelokan
pemodelannya, pembelajaran Bayesian telah sering digunakan dalam penelitian
data mining biomedis, terutama sekali, genomenic and microarray analysis.
Teknik pembelajaran mesin yang mengalami peningkatan pengenalan dan
popularitas pada tahun-tahun ini adalah support vector machines (SVMs). SVM
berbasis teori pembelajaran statistik yang mencoba untuk menemukan hyperplane
untuk memisahkan dua atau multiple kelas yang terbaik (Vapnik, 1998). Model

Terjemahan Versi Komarudin Tasdik

pembelajaran statistik ini telah diaplikasikan dalam aplikasi yang berbeda dan
hasil sudah memberikan harapan. Contohnya, tampak bahwa SVM telah mencapai
performa terbaik di antara beberapa metode pembelajaran dalam klasifikasi
dokumen (Joachims, 1998; Yang dan Liu, 1999). SVM juga sesuai untuk berbagai
masalah klasifikasi biomedis, seperti disease state classification berbasis variabelvariabel genetik atau diagnosis medis berbasis indikator-indikator pasien.

2.1.2 Pembelajaran Simbolis dan Induksi Rule
Pembelajaran simbolis (symbolic learning) dapat diklasifikasikan menurut
strategi pembelajaran dasar seperti rote learning (belajar dengan menghapal),
learning by being told (belajar dengan mendengar), learning by analogy (belajar
dengan analogi), learning from examples (belajar dengan contoh), dan learning
from discovery(belajar dengan menemukan) (Cohen dan Feigenbaum, 1982;
Carbonell, dkk., 1983). Di antaranya, learning from examples muncul menjadi
pendekatan pembelajaran simbolis yang sangat menjanjikan untuk knowledge
discovery dan data mining. Ia diimplementasikan dengan mengaplikasikan
algoritma yang berusaha mendukung deskripsi konsep umum yang terbaik untuk
mendeskripsikan kelas-kelas contoh training yang berbeda. Banyak algoritma
telah dikembangkan, tiap penggunaan satu atau lebih teknik itu berbeda dalam
mengidentifikasi pola yang berguna untuk menghasilkan deskripsi konsep. Pohon
keputusan Quinlan’s ID3 yang membangun algoritma (Quinlan, 1983) dan
variasinya seperti C4.5 (Quinlan, 1993) telah menjadi salah satu dari teknik
pembelajaran simbolis yang sangat banyak digunakan. Ada sekumpulan objek,
ID3 memproduksi pohon keputusan yang berusaha untuk mengklasifikasikan
objek-objek yang ada dengan tepat. Pada tiap langkah, algoritma menemukan
attribute yang terbaik untuk membagi objek-objek ke dalam kelas yang berbeda
dengan meminimalisir entropi (ketidaktahuan informasi). Setelah semua objek
diklasifikasikan atau semua attribute digunakan, hasilnya dapat direpresentasikan
dengan pohon keputusan atau sekumpulan rule produksi.

Terjemahan Versi Komarudin Tasdik

Walaupun tidak sehebat SVM atau jaringan saraf (istilahnya akurasi
klasifikasi), teknik-teknik pembelajaran simbolis itu efisien secara komputasional
dan hasilnya mudah diinterpretasikan. Untuk banyak aplikasi biomedis,
kemampuan untuk menginterpretasikan hasil-hasil data mining dalam cara yang
dapat dipahami pasien, dokter, dan ahli biologi itu tidak terhingga nilainya.
Teknik-teknik pembelajaran mesin yang sangat bagus seperti SVM dan jaringan
saraf sering bermasalah karena diperlakukan sebagai “black-box.”
2.1.3 Jaringan Saraf
Jaringan saraf tiruan berusaha untuk mencapai performa seperti manusia
dengan memodelkan sistem emosi manusia. Jaringan saraf merupakan graf
banyak node aktif (neuron) yang saling terkoneksi dengan link berbobot besar
(synapses). Ketika pengetahuan direpresentasikan dengan deskripsi simbolis
misalnya pohon keputusan dan rule produksi dalam pembelajaran simbolis,
pengetahuan dipelajari dan diingat dengan jaringan saraf yang saling terkoneksi,
wighted synapses, dan unit-unit logika threshold (Rumelhart, dkk., 1986a;
Lippmann, 1987). Berdasarkan contoh-contoh training, algoritma pembelajaran
dapat digunakan untuk mengatur beban koneksi dalam jaringan seperti ia dapat
memprediksi atau mengklasifikasikan contoh-contoh yang tidak diketahui dengan
tepat. Algoritma-algoritma aktivasi untuk node-node itu dapat digunakan untuk
mendapatkan kembali (retrieve) konsep dan pengetahuan dari jaringan (Belew,
1989; Kwok, 1989; Chen dan Ng, 1995).
Banyak jenis jaringan saraf yang berbeda telah dikembangkan, di
antaranya feedforward/backpropagation model sangat sering digunakan. Jaringan
backpropagation secara penuh terkoneksi, layered, feed-forward networks di mana
aktivasi mengalir dari input layer melalui hidden layer kemudian ke output layer
(Rumelhart, dkk., 1986b). Jaringan ini biasanya mulai dengan sekumpulan
random weights dan mengatur bobotnya berdasarkan masing-masing contoh
pembelajaran. Tiap contoh pembelajaran dilewati melalui jaringan untuk
mengaktivasi node-node itu. Output aktual jaringan itu kemudian dibandingkan

Terjemahan Versi Komarudin Tasdik

dengan target output dan estimasi errornya dipropagasi kembali ke hidden and
input layers. Jaringan melakukan update bebannya secara inkremental menurut
estimasi-estimasi error ini hingga jaringan itu stabil. Mode jaringan saraf populer
lain mencakup Kohonen’s self-organizing map dan Hopfield network. Selforganizing maps sudah banyak digunakan dalam unsupervised learning,
clustering, dan pengenalan pola (Kohonen, 1995); Hopfield networks kebanyakan
telah digunakan hanya dalam aplikasi pencarian dan optimisasi (Hopfield, 1982).
Terkait dengan performanya (istilahnya kekuatan prediktif dan akurasi
klasifikasi), jaringan saraf telah banyak digunakan dalam eksperimen dan diadopsi
untuk masalah klasifikasi dan clustering biomedis penting.
2.1.4 Algoritma Berbasis Evolusi
Algoritma berbasis evolusi mengandalkan analogi-analogi untuk prosesproses alami dan Darwinian survival of the fittest. Fogel (1994) mengidentifikasi
tiga kategori algoritma berbasis evolusi: algoritma genetik, strategi evolusi, dan
pemrograman evolusioner. Di antaranya, algoritma genetik itu sangat populer dan
telah sukses diaplikasikan untuk berbagai masalah optimisasi. Algoritma genetik
telah dikembangkan berdasarkan prinsip genetika (Holland, 1975; Goldberg,
1989;

Michalewicz,

1992).

Populasi

individu

di

mana

tiap

individu

merepresentasikan solusi potensial diinisiasi dahulu. Populasi ini mengalami
sekumpulan operasi genetik yang dikenal sebagai crossover dan mutation.
Crossover adalah proses level tinggi yang bertujuan pada eksploitasi sedangkan
mutation adalah proses unary yang bertujuan pada eksplorasi. Individu-individu
berjuang untuk survival berdasarkan skema pilihan yang disimpangkan menuju
penyeleksian fitter individuals (individu-individu yang merepresentasikan solusi
terbaik). Individu terpilih itu membentuk generasi baru dan proses yang
berkelanjutan. Setelah itu, sejumlah generasi program berkonvergensi dan solusi
optimum direpresentasikan oleh individu terbaik. Dalam penelitian informatika
medis, algoritma genetik di antara teknik-teknik yang sangat bagus untuk masalah
seleksi fitur (contoh, mengidentifikasi subset gene yang sangat relevan terhadap
desease state) berkaitan dengan stokastiknya, kapabilitas pencarian global.

Terjemahan Versi Komarudin Tasdik

2.1.5 Pembelajaran Analitis dan Logika Fuzzy
Pembelajaran analitis merepresentasikan pengetahuan sebagai rule logis
dan melakukan reasoning pada rule-rule seperti itu untuk mencari pembuktian.
Bukti dapat mengalami compile ke dalam rule-rule yang lebih kompleks untuk
mengatasi masalah-masalah serupa dengan sejumlah pencarian lebih kecil yang
dibutuhkan. Contohnya, Samuelson dan Rayner (1991) telah menggunakan
pembelajaran

analitis

untuk

merepresentasikan

rule-rule

gramatis

yang

meningkatkan kecepatan parsing system.
Sedangkan sistem pembelajaran analitis tradisional tergantung pada hard
computing rules, biasanya tidak ada perbedaan yang jelas di antara nilai dan kelas
dalam dunia nyata. Untuk mengatasi masalah ini, fuzzy system membolehkan
nilai False atau True untuk beroperasi di atas range bilangan riil dari 0 sampai 1
(Zedah, 1965). Kekaburan telah diaplikasikan untuk memberikan imprecision and
approximate reasoning.
2.1.6 Pendekatan Hybrid
Sebagaimana Langley dan Simon (1995) telah tunjukkan, alasan-alasan
untuk membedakan paradigma-paradigma itu “lebih historis daripada ilmiah.”
Batasan di antara paradigma yang berbeda itu biasanya tidak jelas dan banyak
sistem telah dibangun untuk mengkombinasikan pendekatan yang berbeda
tersebut. Contohnya, logika fuzzy telah diaplikasikan ke induksi rule dan
algoritma genetik (contoh, Mendes, dkk., 2001), algoritma genetika telah
dikombinasikan dengan jaringan saraf (contoh, Maniezzo, 1994; Chen dan Kim,
1994), dan karena jaringan saraf memiliki kesamaan dengan model probabilitas
dan logika fuzzy maka dapat digabungkan dengan mudah (contoh, Paass, 1990).
Tidak heran ditemukan bahwa banyak sistem manajemen pengetahuan biomedis,
data mining, dan text mining praktis mengadopsi pendekatan hybrid seperti ini.
2.2 Metodologi Evaluasi

Terjemahan Versi Komarudin Tasdik

Akurasi

sistem

pembelajaran

harus

dievaluasi

sebelum

dapat

dimanfaatkan. Ketersedian data yang terbatas sering membuat akurasi estimasi
tugas yang sulit (Kohavi, 1995). Memilih metodologi evaluasi bagus itu sangat
penting untuk perkembangan sistem pembelajaran mesin.
Ada beberapa metode populer yang digunakan untuk evaluasi seperti ini,
termasuk holdout sampling, cross validation, leave-one-out, dan bootstrap
sampling (Stone, 1974; Efron dan Tibshirani, 1993). Dalam metode holdout, data
dibagi ke dalam training set dan testing set. Biasanya 2/3 data ditetapkan untuk
training set dan 1/3 untuk testing set. Setelah sistem itu terlatih dengan training
data set, sistem itu memprediksi nilai output tiap hal dalam testing set. Nilai-nilai
ini kemudian dibandingkan dengan nilai-nilai real output untuk menentukan
akurasi.
Dalam cross-validation, data set secara acak dibagi ke dalam sejumlah
subset ukuran yang secara kasar sama. Ten-fold cross validation, di mana data set
dibagi ke dalam 10 subset, sangat umum digunakan. Sistem ini mengalami
training dan testing untuk 10 iterasi. Di tiap iterasi, 9 subset data digunakan
sebagai training data dan remaining set digunakan sebagai testing data. Dalam
rotasi, tiap subset data berperan sebagai testing set hanya dalam satu iterasi.
Akurasi sistem merupakan akurasi rata-rata di atas 10 iterasi. Leave-one-out
merupakan kasus ekstrim dari cross-validation, di mana data aslinya dibagi (split)
ke dalam n subset, di mana n merupakan ukuran data asli. Sistem menjalani
training dan testing untuk n iterasi, di tiap n-1 contoh digunakan untuk training
dan contoh remaining digunakan untuk testing.
Dalam metode bootstrap, n sampel acak independen diambil dari data set
asli berukuran n. Karena sampel-sampel ini dilakukan dengan penggantian, maka
sejumlah contoh unik akan lebih kecil dari n. Sampel-sampel ini kemudian
digunakan sebagai training set untuk sistem pembelajaran, dan remaining data
yang tidak dicontohkan digunakan untuk menguji sistem (Efron dan Tibshirani,
1993).

Terjemahan Versi Komarudin Tasdik

Masing-masing metode ini memiliki keunggulan dan kelemahan. Beberapa
kajian telah membandingkan dalam masa akurasinya. Hold-out sampling adalah
yang paling awal diimplementasikan, tapi masalah utamanya adalah bahwa
training set dan testing set itu tidak independen. Metode ini juga tidak membuat
efisien penggunaan data sejak 1/3 data tidak digunakan untuk melakukan training
sistem (Kohavi, 1995). Leave-one-out menyediakan estimasi yang sangat tidak
memihak, dan secara komputasional mahal serta estimasinya sangat berbeda,
terutama untuk data set kecil (Efron, 1983; Jain, dkk., 1987). Breiman dan Spector
(1992) serta Kohavi (1995) telah memimpin eksperimen independen untuk
membandingkan performa beberapa metode yang berbeda, dan hasil eksperimen
menunjukkan ten-fold cross validation hingga metode terbaik untuk seleksi
model.
Sederhananya, konsekuensi pasien dan medis penting diasosiasikan
dengan banyak aplikasi data mining biomedis, yang penting bahwa metode
validasi sistematik telah diadopsi. Tambahan pula, validasi detil, kualitatif dari
hasil data mining atau text mining harus dibangun dengan bantuan domain experts
(contoh, dokter dan ahli biologi), sehingga ini pada umumnya membutuhkan
banyak waktu dan proses yang membutuhkan anggaran mahal.
3. APLIKSI KNOWLEDGE MANAGEMENT, DATA MINING, DAN TEXT
MINING DALAM BIOMEDIS
Teknik-teknik knowledge management, data mining, dan text mining telah
diaplikasikan untuk bidang biomedicine yang berbeda, berkisar dari manajemen
data pasien ke diagnosis klinis, dari pembuatan hipotesis ke gene clustering, dan
dari deteksi sinyal spike ke prediksi struktur protein. Pada bagian ini, dengan
singkat kami melakukan survey sebagian penelitian yang relevan dalam bidang
itu,

mencakup

aplikasi-aplikasi

teknik

pembelajaran

dalam

manajemen

pengetahuan, dan data mining serta text mining dalam biomedicine. Review dan
pembahasan yang lebih lengkap dan detil tentang teknik dan aplikasi knowledge

Terjemahan Versi Komarudin Tasdik

management, data mining, dan text mining pilihan dalam biomedicine dapat
ditemukan pada bab-bab berikutnya dalam buku ini.
3.1 Ontologi
Sebelum kami menguji aplikasi biomedis yang berbeda, penting untuk
dipahami bahwa peran ontologi-ontologi dalam manajemen pengetahuan, dan
knowledge discovery, terutama untuk aplikasi-aplikasi text mining. ontologi
adalah spesifikasi konseptualisasi. Ia mendeskripsikan konsep-konsep dan relasirelasi yang bisa eksis dan memformulasi terminologi dalam sebuah domain
(Gruninger dan Lee, 2002). Ontologi sering digunakan untuk memfasilitasi
berbagi pengetahuan antar manusia, pengolahan informasi, data mining,
komunikasi antar software agents, atau aplikasi pengolahan pengetahuan lain.
Banyak ontologi telah dikembangkan dalam bidang biomedis. Unified
Medical Language System (UMLS), didukung oleh National Library of Medicine
(NLM), merupakan sumber utama untuk memfasilitasi program-program
komputer untuk memproses dan memanaj dokumen-dokumen biomedis (McCray,
dkk., 1993; Humpreys, dkk., 1993; Campbell, dkk., 1998; Humpreys, dkk., 1998).
UMLS menawarkan tiga sumber pengetahuan: Metathesaurus, Semantic Network,
dan Specialist Lexicon. Metathesaurus merupakan multi bahasa yang dikontrol
basis data kosakata untuk biomedicine yang membolehkan user untuk
mempetakan nama-nama dan istilah-istilah tekstual biomedis menjadi berbagai
konsep (yakni, istilah kosakata terkontrol), atau mengidentifikasi sekumpulan
istilah berbeda yang diasosiasikan dengan konsep tunggal. Metathesaurus
dibentuk dengan mengintegrasikan kira-kira 100 kosakata terkontrol berbeda yang
mencakup Medical Subject Headings (MeSH), kosakata terkontrol, dan
SNOMED-CT, kosakata klinis terkontrol yang dibangun oleh College of
American Pathologies. Semantic Network menetapkan kategorisasi konsep dalam
Metathesaurus dan relasi antar konsep. Specialist Lexicon, didesain untuk
memfasilitasi pengolahan bahasa alami untuk teks biomedis, merupakan kamus
yang memuat definisi-definisi sintaksis untuk istilah-istilah biomedis dan istilah-

Terjemahan Versi Komarudin Tasdik

istilah bahasa Inggris umum. Sumber daya ini memberikan framework dan
ontologi untuk representasi pengetahuan dalam biomedicine. Sumber daya UMLS
telah sering digunakan dalam pengolahan bahasa biomedis (Baclawski, dkk.,
2000; Bodenredier dan McRay, 2003; Perl dan Geller, 2003; Rosse dan Mejino,
2003; Zhang, dkk., 2003; Caviedes dan Cimino, 2004). Beberapa kajian telah
menginvestigasi pemetaan konsep-konsep dari Metathesaurus menjadi Semantic
Network (Cimino, dkk., 2003; Rindflesch dan Fiszman, 2003).
Di samping dokumen-dokumen biomedis, penting juga bagi para peneliti
dan komputer untuk memahami terminologi-terminologi yang berbeda tentang
gene dan protein. Proyek Gene Ontology (GO) merupakan usaha untuk memenuhi
kebutuhan deskripsi konsisten dari produk-produk gene dalam basis data yang
berbeda (The Gene Ontology Consortium, 2000). Bertujuan untuk memproduksi
kosakata terkontrol, dinamis yang dapat diaplikasikan untuk semua eukaryotes,
proyek itu mencakup banyak basis data, mencakup FlyBase (Drosophila),
Saccharomyces Genome Database (SGD), Mouse Genome Database (MGD), dan
beberapa basis data genome utama lain. GO terdiri atas tiga ontologi terstruktur
yang mendeskripsikan gene dan produk-produk gene. Istilah GO juga mengalami
cross-reference dengan indeks-indeks dari basis data lain. Dengan cara yang sama,
Human Genome Nomenclature (HUGO) menetapkan standar, nama-nama dan
simbol-simbol yang sudah terbukti untuk gene manusia (Wain, dkk., 2002).
Sebagian besar data ini dapat dicari pada Web sebagai file-file teks. Terdapat
basis data publik besar yang menetapkan gene dan produk-produk gene yang
diasosiasikan dengan multiple organism seperti dengan organisme model spesifik.
3.2 Manajemen Pengetahuan
Teknik-teknik kecerdasan buatan telah digunakan dalam manajemen
pengetahuan dalam biomedicine di awal 1970, ketika program MYCIN telah
dikembangkan untuk mendukung konsultasi dan pembuataan keputusan
(Shortliffe, 1976). Di MYCIN, pengetahuan diperoleh dari para pakar telah
direpresentasikan sebagai sekumpulan rule produksi IF-THEN. Sistem jenis ini

Terjemahan Versi Komarudin Tasdik

kemudian akan dikenal sebagai sistem pakar dan menjadi sangat populer di tahun
1980. Sistem pakar tergantung pada pengetahuan pakar yang dibangun ke
dalamnya, yang telah menghabiskan waktu dan proses yang panjang.
Performa MYCIN telah memberi harapan dan membantu para pakar
(manusia) dalam berbagai kasus (Yu, dkk., 1979). Meskipun sudah sukses di
awal, ia tidak pernah digunakan dalam setting klinis aktual. Sistem diagnostik
medis lain juga jarang digunakan secara klinis. Alasan-alasan itu adalah two-fold.
Pertama, orang-orang sudah skeptis tentang teknologi komputer dan performa
sistem. Komputer-komputer tidak populer pada waktu itu, dan banyak dokter
tidak percaya bahwa komputer-komputer bisa berfungsi dengan baik daripada
manusia. Kedua, komputer-komputer merupakan mesin-mesin mahal, besar di
tahun 1970. Tidak mungkin mendukung program-program kompleks seperti
MYCIN pada komputer yang dapat menghasilkan respon-respon cepat (Shortliffe,
1987). Karena itu, dengan performa yang baik dan cost lebih rendah dari
komputer modern dan sistem berbasis pengetahuan medis, kami percaya terdapat
kesempatan besar untuk mengadopsi sistem manajemen pengetahuan dan
teknologi pilihan dalam konteks biomedis, terutama sekali, tidak seperti
penggantian manusia (yakni, sistem pakar) tapi sebagai pembantu pembuatan
keputusan biomedis.
3.2.1 Manajemen Pengetahuan dalam Perawatan Kesehatan
Pada umumnya telah dikenal bahwa sistem manajemen data pasien sangat
diinginkan dalam setting klinis (Heathfield dan Louw, 1999; Jackson, 2000;
Abidi, 2001). Alasan-alasan utama itu mencakup kebutuhan informasi penting
tentang dokter (Dawes dan Sampson, 2003) dan overload informasi klinis. Hersh
(1996) telah mengklasifikasikan informasi kesehatan tekstual ke dalam dua
kategori utama: informasi klinis khusus pasien dan informasi berbasis
pengetahuan, yang mana mencakup penelitian yang dilaporkan dalam jurnal,
buku, laporan teknis dan sumber akademik lain.
tumbuh dalam berbagai langkah.

Kedua jenis informasi itu

Terjemahan Versi Komarudin Tasdik

Walaupun sistem klinis awal merupakan sistem data storage yang sangat
sederhana, sebagian kemampuan manajemen pengetahuan telah disatukan sejak
tahun 1980. Contohnya, sistem HELP, dikembangkan pada Latter Day Saints
Hospital di Utah, memberikan program monitoring pada puncak sistem data
medis

tradisional.

Logika

keputusan

disimpan

dalam

sistem

untuk

memungkinkannya merespon data baru yang dimasukkan (Kuperman, dkk.,
1991). Sistem SAPHIRE melakukan pengindeksan

otomatis laporan-laporan

radiologi dengan menggunakan UMLS Metathesaurus (Hersh, dkk., 2002).
Repositori data klinik di Columbia-Presbyterian Medical Center (Friedman, dkk.,
1990) merupakan contoh lain dari basis data yang digunakan untuk pendukung
keputusan (Hripcsak, 1993) sebaik review dokter. Repositori data klinik pada
University of Virginia Health System merupakan contoh lain (Schubart dan
Einbinder, 2000). Dalam sistem data warehouse, klinik, administrasi mereka,dan
data pasien lain tersedia untuk para user melalui web browser. Alasan berbasis
kasus juga telah diusulkan untuk memungkinkan dokter mengakses pengetahuan
operasi dan literatur medis berdasarkan kebutuhan informasi medisnya (Montani
dan Bellazzi, 2002). Janetzki, dkk. (2004) menggunakan pendekatan pengolahan
bahasa alami untuk menghubungkan data kesehatan elektronik ke sumber daya
informasi online. Teknik-teknik text mining maju lain juga telah diaplikasikan
untuk manajemen pengetahuan untuk perawatan kesehatan dan akan dibahas lebih
detil lagi pada bab ini.
Pak irwan
3.2.2 Manajemen Pengetahuan untuk Literatur Biomedis
Di samping informasi klinis, manajemen pengetahuan telah diaplikasikan
untuk artikel-artikel dan laporan-laporan penelitian, sebagian besar melalui
teknik-teknik information retrieval dan digital library pilihan. National Library of
Medicine (NLM) menawarkan layanan PubMed, yang mencakup lebih dari 13
juta kutipan untuk artikel biomedis dari MEDLINE dan jurnal terkait lain. Banyak
sistem pencarian telah dibangun untuk membantu para user menemukan kembali

Terjemahan Versi Komarudin Tasdik

paper dan laporan penelitian biomedis dalam sistem basis data dan web. Teknik
pengindeksan dan penemuan kembali otomatis sering diaplikasikan. Contohnya,
sistem Telemakus menawarkan kepada para peneliti sebuah framework untuk
information retrieval, visualisasi, dan knowledge discovery (Fuller, dkk., 2002,
Fuller, dkk., 2004; Revere, dkk., 2004). Menggunakan teknik ekstraksi informasi
dan visualisasi, sistem itu memungkinkan para peneliti untuk mencari basis data
artikel-artikel penelitian untuk penemuan signifikan secara statistik. Sistem
HelpfulMed memungkinkan user mencari dokumen-dokumen biomedis dari
beberapa basis data yang mencakup MEDLINE, CancerLit, PDQ, dan basis data
obat berbasis fakta (Chen, dkk., 2003). Basis data HelpFulMed mencakup
halaman web yang terkait dengan perawatan kesehatan berkualitas tinggi,
dikumpulkan dari situs-situs bereputasi tinggi yang menggunakan algoritma
aktivasi penyebaran berbasis jaringan saraf (Chau dan Chen, 2003). Sistem ini
juga menyediakan term-suggestion tool yang disebut Concept Mapper, yang mana
memungkinkan user berkonsultasi tentang system-generated thesaurus dan
NLM’s UMLS untuk memfilter query pencariannya (Houston, dkk., 1999; Leroy
dan Chen, 2001).
MARVIN merupakan contoh sistem information retrieval medis yang
telah mengaplikasikan teknik-teknik pembelajaran mesin pilihan (Baujard, dkk.,
1998). Dibangun pada arsitektur multi agen, sistem itu memfilter dokumendokumen relevan dari sekumpulan halaman web dan mengikuti link-link untuk
menemukan kembali dokumen-dokumen baru. Sementara MARVIN’s filtering
telah berbasis metrics kesamaan dokumen yang sederhana, algoritma lain seperti
jarak maksimum, jaringan saraf tiruan, dan support vektor machine telah
diaplikasikan untuk filterisasi halaman web medis (Palakal, dkk., 2001; Chau dan
Chen, 2004). Bayesian model berbasis analisis kekuatan istilah juga telah
digunakan dalam retrieval dokumen biomedis (Wilbur dan Yang, 1996). Shatkay,
dkk. (2000; 2002) menggunakan pencarian berbasis kesamaan probabilistik untuk
menemukan kembali dokumen-dokumen biomedis yang berbagi tema serupa.

Terjemahan Versi Komarudin Tasdik

Teknik-teknik text mining lain juga telah digunakan untuk memfasilitasi
manajemen dan memahami literatur biomedis. Contohnya, teknik-teknik
pengolahan bahasa alami dan pemfrasean kata benda telah diaplikasikan untuk
mengekstrak frase kata benda dari dokumen-dokumen medis (Tolledan Chen,
2000). Frase kata benda sering menyampaikan pemaknaan yang lebih tepat
daripada istilah-istilah tunggal dan sering kali lebih berguna untuk analisis lebih
jauh. Ekstraksi entitas bernama juga telah banyak diaplikasikan secara otomatis
untuk mengidentifikasi dokumen-dokumen teks nama entitas menarik (Chau,
dkk., 2002). Sedangkan kebanyakan yang diuji pada entitas-entitas umum seperti
nama orang, lokasi, organisasi, tanggal, waktu, ekspresi jumlah, dan alamat email
(Chinchor, 1998), ekstraksi entitas bernama telah digunakan untuk mengekstraksi
entitas-entitas biomedis spesifik seperti nama gene, nama protein, penyakit, dan
gejala dengan hasil yang menjanjikan (Fukuda, dkk., 1998; Leroy, dkk., 2003).
Entitas-entitas dan relasi-relasi yang telah diekstrak berguna untuk tujuan
information retrieval dan manajemen pengetahuan. Teknik ekstraksi entitas dan
relasi akan dibahas lebih detil dalam review kami tentang text mining pada artikel
berikutnya.
3.2.3 Mengakes Basis Data Heterogen
Pada era post-genome, data biomedis sekarang dihasilkan pada kecepatan
yang jauh lebih cepat daripada para peneliti yang menggunakan metode-metode
tradisional (National Research Council, 2000). Banyaknya data genomic dan
biomedis telah menghasilkan potensi besar untuk penelitian dan aplikasi dalam
biomedicine, tapi data itu sering didistribusikan dalam basis data yang bermacammacam. Seperti fenomena biologis yang seringkali kompleks, para peneliti
dihadapkan dengan tantangan integrasi informasi dari sumber data heterogen
(Barrera, dkk., 2004). Banyak teknik telah diusulkan untuk memungkinkan para
peneliti dan masyarakat umum berbagi datanya dengan lebih efektif. Contohnya,
Sujansky (2001) mengusulkan framework untuk mengintegrasikan basis data
heterogen dalam biomedicine dengan menyediakan skema konseptual yang sama
dan menggunakan teknik-teknik terjemahan query pilihan. Program BLAST

Terjemahan Versi Komarudin Tasdik

banyak digunakan untuk mencari basis data protein dan DNA untuk kesamaan
sequensial (Altschul, dkk., 1997). Sistem MedBlast, memanfaatkan BLAST,
memungkinkan para peneliti mencari artikel terkait dengan sequence yang ada
(TU, dkk., 2004). Sun (2004) menggunakan algoritma-algoritma otomatis untuk
mengidentifikasi konsep-konsep ekuivalen yang ada dalam basis data berbeda
untuk mendukung information retrieval. Arsitektur software agent juga telah
diusulkan untuk membantu para user menemukan kembali data dari basis data
terdistribusi (Karasavvas, dkk. 2004).
3.2.4 Visualiasi Informasi dan Akses Informasi Multimedia
Visualisasi informasi (dan pengetahuan) untuk informasi biomedis itu
penting untuk memahami dan berbagi pengetahuan. Dengan peningkatan yang
cepat dalam kecepatan komputer dan reduksi cost, visualisasi grafis telah menjadi
semakin populer dalam aplikasi-aplikasi biomedis. Teknik-teknik visualisasi
mendukung tampilan informasi yang lebih bermanfaat dan mendukung
pemahaman user. Maps, trees, dan network merupakan bagian dari representasi
visualisasi informasi yang sangat populer. Dalam sistem HelpfulMed yang sudah
dibahas di awal, dokumen-dokumen mengalami retrieve dari basis data berbeda
yang mengalami cluster menggunakan algoritma self-organizing map (Kohonen,
1995) dan peta dua dimensi yang dihasilkan untuk menampilkan cluster-cluster
dokumen (Chen, dkk., 2003). Bodenreider dan McCray (2003) mengaplikasikan
teknik-teknik analisis radial diagram dan persesuaian untuk memvisualisasikan
kelompok-kelompok semantik dalam jaringan semantik UMLS. Han dan Byun
(2004) menggunakan tampilan tiga dimensi untuk memvisualisasikan jaringan
interaksi protein. Realitas virtual juga telah diaplikasikan dalam jaringan
metabolik (Rojdestvenski, 2003).
Tampilan tiga dimensi, visualiasi interaktif, tampilan multimedia, dan
teknik-teknik visualisasi modern lain telah diaplikasikan dengan sukses dalam
banyak aplikasi biomedis. Contoh yang sangat terkenal adalah NLM’s Visible
Human Project (Ackerman, 1991), yang memproduksi representasi tiga dimensi

Terjemahan Versi Komarudin Tasdik

dari tubuh manusia laki-laki dan perempuan dengan memperoleh garis melintang
CT, MR, dan gambar cryosection dari mayat-mayat laki-laki dan perempuan yang
representatif. Data itu lengkap dan secara otomatis dirinci sebagaimana laki-laki
dibagi pada satu millimeter interval dan perempuan pada satu-tiga millimeter
interval. Data itu menyediakan testbed yang baik untuk algoritma gambar medis
dan pengolahan multimedia serta telah diaplikasikan untuk berbagai penggunaan
diagnosis, edukasi, dan penelitian.
Karena algoritma-algoritma pengolahan teks dapat diaplikasikan untuk
data multimedia secara langsung, teknik pengolahan gambar dan pengindeksan
sering dibutuhkan untuk aplikasi-aplikasi biomedis pilihan. Teknik-teknik ini
memungkinkan para user untuk memvisualisasikan, retrieve, dan memanaj data
multimedia seperti gambar sinar-X dan CAT-scan secara lebih efektif dan efisien.
Contohnya, Yoo dan Chen (1994) telah mengembangkan sebuah sistem untuk
menyediakan navigasi alami dari data pasien menggunakan teknik-teknik gambar
tiga dimensi dan surface rendering. Antani, dkk. (2004) mengkaji metode
representasi bentuk yang berbeda untuk mengukur kesamaan antara gambar sinarX agar memungkinkan para user memanaj dan mengorganisir gambar-gambar ini.
Sistem mereka memungkinkan para user untuk menemukan kembali tulang
belakang yang banyak

membentuk ilmu penyakit yang terindikasikan dalam

query. Berkaitan dengan peningkatan popularitas dan maturitas sistem gambar
medis, kami dapat memperkirakan kebutuhan penting untuk kemampuan
pengolahan multimedia dan manajemen pengetahuan dalam biomedicine.
3.3 Data Mining dan Text Mining
Teknik-teknik data mining telah sering digunakan untuk menemukan polapola dan pengetahuan baru dari data biomedis. Sedangkan Bayesian model telah
banyak digunakan di hari-hari pertama, metode pembelajaran mesin yang lebih
modern, seperti jaringan saraf tiruan dan support vector machine, telah
diaplikasikan di tahun-tahun ini. Teknik-teknik ini digunakan dalam berbagai
bidang biomedicine yang berbeda, di antaranya mencakup genomics, proteomics,

Terjemahan Versi Komarudin Tasdik

dan diagnosis medis. Selanjutnya, kami mereview sebagian aplikasi teknik data
mining dan knowledge discovery utama dalam bidang ini.
3.3.1 Data Mining untuk Perawatan Kesehatan
Karena kekuatan prediktif ini, teknik-teknik data mining telah banyak
digunakan dalam aplikasi diagnostic dan perawatan kesehatan. Algoritma data
mining dapat belajar dari contoh-contoh yang lalu dalam data klinis dan
memodelkan relasi non-linier oftentimes di antara variabel-variabel independen
dan dependen. Model hasil merepresentasikan pengetahuan yang sudah
diformulasikan, yang sering mampu memberikan opini diagnostik bagus.
Klasifikasi sangat banyak digunakan dalam teknik data mining media.
Dreiseitl, dkk. (2001) membandingkan lima algoritma klasifikasi untuk diagnosis
luka kulit sayatan. Hasilnya menunjukkan bahwa regresi logistik, jaringan saraf
tiruan, dan support vector machines dilakukan dengan comparable, sementara knearest neighbors dan pohon keputusan dilakukan lebih buruk. Ini lebih banyak
atau lebih kurang konsisten dengan performa algoritma klasifikasi dalam aplikasi
lain (contoh, Yang dan Liu, 1999). Teknik-teknik klasifikasi juga diaplikasikan
untuk menganalisis berbagai sinyal dan relasinya dengan penyakit-penyakit atau
gejala tertentu. Contohnya, Acir dan Guzelis (2004) mengaplikasikan support
vector

machines

untuk

deteksi

sinyal

spike

otomatis

dalam

ElectroEncephaloGrams (EEG), yang dapat digunakan dalam mendiagnosis
neurological disorders yang berhubungan dengan epilepsi. Kandaswamy, dkk.
(2004) menggunakan jaringan saraf tiruan untuk mengklasifikasikan tanda-tanda
suara paru-paru ke dalam enam kategori yang berbeda (contoh, normal, wheeze,
dan rhonchus) untuk membantu diagnosis.
Data mining juga digunakan untuk mengekstraksi rule-rule dari data
perawatan kesehatan. Contohnya, ia telah digunakan untuk mengekstraksi rulerule diagnostik dari data kanker payudara (Kovalerchuck, dkk., 2001). Aturan
yang telah dihasilkan itu mirip dengan yang dihasilkan secara manual dalam
sistem pakar sehingga dapat dengan mudah divalidasi oleh domain experts. Data

Terjemahan Versi Komarudin Tasdik

mining juga telah diaplikasikan untuk basis data klinik guna mengidentifikasi
pengetahuan medis baru (Prather, dkk., 1997; Hripcsak, dkk., 2002).
Pak irwan
3.3.2 Data Mining untuk Molecular Biology
Rentetan teknologi baru dan cost komputasi yang rendah telah berhasil
dalam sejumlah besar data biologis yang dapat diakses dengan mudah oleh para
peneliti. Tidak mudah untuk menganalisis data ini secara manual, dan gap antara
sejumlah data sekuensial yang disubmit dan anotasi, struktur, atau profil ekpresi
terkait yang berkembang dengan cepat.
Data mining sudah mulai memainkan peran penting dalam masalah ini.
Clustering mungkin sangat sering digunakan oleh teknik data mining untuk data
biologis. Contohnya, analisis clustering sering diaplikasikan ke data ekspresi
microarray gene untuk mengidentifikasi kelompok gene yang berbagi profil
ekspresi serupa. Eisen, dkk. (1998) telah mengaplikasikan clustering hirarkis pada
data ekspresi gene Saccharomyces cerevisiae dan diperoleh hasil-hasil yang
menjanjikan. Berbagai algoritma clustering lain juga sudah diuji pada data
ekspresi

gene,

mencakup

k-means

clustering

(Herwig,

dkk.,

1999),

backpropagation neural network (Sawa dan Ohno-Machado, 2003), selforganizing maps (Tamayo, dkk., 1999; Herrero, dkk., 2001), fuzzy clustering
(Belacel, dkk., 2004), expectation maximization (Qu dan Xu, 2004), dan support
vector machines (Brown, dkk., 2000). Qin, dkk. (2003) telah menggunakan ide
kernel (seperti dalam support vector machines) serta telah mengkombinasikannya
dengan clustering hirarkis. Analisis ekspresi gene juga telah diaplikasikan dalam
prediksi dan penemuan kelas kanker (Golub, dkk., 1999; Hsu, dkk., 2003).
Di samping clustering, teknik data mining prediktif lain juga telah
diaplikasikan untuk data biomedis. Contohnya, model-model jaringan saraf tiruan
telah banyak digunakan dalam memprediksi struktur sekunder protein (Qian dan
Sejnowski, 1988; Hirst dan Sternberg, 1992). Selanjutnya, algoritma-algoritma
data mining juga telah digunakan untuk prediksi dalam berbagai aplikasi biomedis

Terjemahan Versi Komarudin Tasdik

yang mencakup prediksi protein backbone angle (Kuang, dkk., 2004), protein
domain (Nagarajan dan Yona, 2004), efek-efek biologis (Krishnan dan Westhead,
2004), dan DNA binding (Ahmad, dkk., 2004). Metode prediktif ini sering
berdasarkan pada algoritma-algoritma klasifikasi (supervised learning) seperti
jaringan saraf tiruan atau mesin vektor pendukung.
3.3.3 Text Mining untuk Literatur dan Catatan Klinik
Text mining telah sering digunakan untuk menganalisis literatur biomedis.
Karena sejumlah besar artikel penelitian dalam basis data publik dan perbedaan
penelitian biomedis, tidak lazim kalau para peneliti menghadapi beberapa susunan
gene baru tanpa pengetahuannya. Sangat mungkin bahwa banyak relasi penting
antara entitas-entitas biologis yang masih tidak diketahui karena datanya terpencar
dan tidak ada peneliti yang menelitinya (Swanson, 1986; Smalheiser dan
Swanson, 1998). Ada sejumlah besar literatur yang sudah dipublikasikan dan
banyak para peneliti hanya berspesialisasi pada sub-domain kecil (contoh,
beberapa gene tertentu), teknik-teknik text mining bisa tidak terhingga nilainya
dalam melakukan discover pola atau hipotesis pengetahuan baru dari sejumlah
besar literatur yang ada dan baru dalam bidang biomedicine (Yandell dan
Majoros, 2002).
Text mining untuk literatur biomedis sering mencakup dua langkah utama.
Pertama, harus mengidentifikasi entitas-entitas biomedis dan konsep-konsep
menarik dari teks bebas yang menggunakan teknik-teknik pengolahan bahasa
alami. Contohnya, jika kita ingin mempelajari relasi antar gene (contoh, hal. 53)
dan penyakit (contoh, tumor otak), nama-nama entitas secara tepat diidentifikasi
dari dokumen tekstual yang relevan. Banyak algoritma text mining telah
diaplikasikan untuk masalah ini. Contohnya, Fukuda, dkk. (1998) menggunakan
petunjuk morfologis sederhana untuk mengenali nama-nama protein dan materialmaterial lain dengan akurasi tinggi. Mesin vektor pendukung telah digunakan
dalam ekstraksi entitas dengan mengklasifikasikan kata ke dalam 24 kelas entitas
dalam GENIA corpus (Kazama, dkk., 2002). Tanabe dan Wilbur (2002)

Terjemahan Versi Komarudin Tasdik

menggunakan

part-of-speech

tagging

dan

Bayessian

model

untuk

mengidentifikasi gene dan protein dalam teks. Hatzivassiloglou, dkk. (2001) telah
membandingkan tiga teknik pembelajaran mesin, yakni Naïve Bayesian model,
pohon keputusan, dan pembelajaran rule induktif, menyelesaikan klasifikasi
entitas biologis (contoh, protein, gene, dan RNA) setelah diidentifikasi. Hasilhasilnya menunjukkan bahwa tiga model pembelajaran memiliki performa
sebanding. Studi lain telah menginvestigasi pemetaan antara singkatan dan nama
lengkap, sehingga nama-nama ini tidak akan dianggap oleh sistem sebagai entitasentitas yang berbeda (Yu, dkk., 2002).
Setelah nama-nama entitas telah diidentifikasi, lebih jauh analisis
dilakukan untuk melihat apakah entitas-entitas ini memiliki semua relasi, seperti
regulasi gene, metabolic pathways, atau interaksi protein-protein (Blaschke, dkk.,
1999; Dickerson, dkk., 2003). Shallow parsing sering digunakan untuk fokus pada
bagian-bagian khusus dari teks guna menganalisis kata-kata yang sudah dikenali
seperti kata kerja dan kata benda (Leror, dkk., 2003). Sekimizu, dkk. (1998) telah
mengidentifikasi sekelompok kata kerja yang sering digunakan dalam koleksi
abstraksi dan dikembangkan sekumpulan rule untuk mengidentifikasi subjeksubjek dan objek-objek kata kerja. Pustejovsky, dkk. (2002) telah menggunakan
relational parsing dan finite state automata untuk mengidentifikasi inhibit
relationship dari teks biomedis. Sistem GENIES, berbasis MedLEE parser
(Friedman dan Hripscak, 1998), juga telah digunakan untuk mengekstrak
molecular pathways dari berbagai teks (Friedman, dkk., 2001). Sistem Telemakus
mengekstrak informasi dengan menganalisis heading and surrounding text dari
tabel-tabel dan gambar-gambar (Fuller, dkk., 2002; Revere, dkk., 2004). Sistem
Genescene menggunakan pendekatan berbasis ontologi untuk ekstraksi relasi
dengan mengintegrasikan Gene Ontology, Human Genome Nomenclature, dan
UMLS (Leroy dan Chen). Sistem ini mengkombinasikan teknik-teknik
pengolahan bahasa alami dan analisis co-occurrence untuk mengidentifikasi relasi
istilah-istilah dan gene pathway dari abstraksi biomedis. Sistem EDGAR
mengekstaksi obat, gene, dan relasi dari teks (Rindflesc