penulis pedoman. Gejala tersebut, jika dibuat menjadi sebuah dokumen berdasar tiap jenis penyakit, menjadi sebuah dokumen pendek.
3.2 Cara Penyelesaian Masalah
Untuk membantu petugas PU melakukan differential diagnose dapat diupayakan dengan melakukan komputerisasi. Komputerisasi
dilakukan dengan cara membangun perangkat lunak untuk melakukan differential diagnose
yang menerapkan algoritma dari pendekatan pada ilmu IR.
3.2.1 Indexing
Proses diawali dengan melakukan proses pengindeksan. Proses pengindeksan akan diawali dengan melakukan stemming. Proses stemming
dilakukan menggunakan algoritma Porter Stemmer for Bahasa Indonesia. Pada proses stemming, untuk tiap dokumen dalam koleksi akan dicari kata
dasar pembentuknya. Sebelum dilakukan proses stemming , untuk setiap kata pada dokumen yang masuk ke dalam golongan stop words akan
dihilangkan, sehingga dapat mempercepat proses stemming. Sebagai contoh terdapat kata ”tidak” pada dokumen ke – i maka kata “tidak”
tersebut akan dihilangkan. Rancangan flowchart untuk proses stemming
menggunakan algoritma Porter Stemmer for Bahasa Indonesia yang digunakan untuk aplikasi ini adalah:
Gambar 3. 1 Gambar flowchart Porter Stemmer yang diimplementasikan Hasil dari proses stemming dokumen akan disimpan pada
database sebagai kata dasar. Hasil proses stemming ini akan menjadi dasar
proses indexing. Perhitungan term frequency akan diimplementasikan sebagai store procedured pada basis data. Stored procedure ini juga akan
berfungsi untuk menyimpan kata dasar beserta nilai term frequency pada tabel. Rancangan flowchart stored procedure adalah sebagai berikut:
Gambar 3. 2 Rancangan flowchart stored procedure indexing database Pada stored procedure, term frequency masih dihitung secara raw
TF. Hal ini dilakukan untuk menyimpan nilai term frequency yang
sebenarnya pada dokumen. Penentuan term frequency TF selanjutnya diubah menggunakan metode binary TF, dimana kata yang terdapat pada
dokumen ataupun pada query akan diberi nilai 1 dan 0 untuk sebaliknya. Pemilihan metode ini dilakukan untuk menyamakan nilai TF untuk setiap
algoritma, dimana untuk algoritma Probabilistic Model harus menggunakan binary TF. Sebagai contoh dapat dilihat pada tabel 3.1.
Tabel 3. 1 Contoh penggunaan binary TF D1: Batuk kronis; Bernapas cepat; Mudah lelah;
D2: Batuk; Berat badan turun; Rinoera; Q : Batuk Sesak napas Rinoera
No Term
D1 D2
Q 1 badan
1 2 batuk
1 1
1 3 berat
1 .....
12 turun 1
Perhitungan binary tf akan dilakukan pada saat proses pengambilan data indek pada basis data. Data indek yang diambil akan
disimpan pada variabel hash yang bertipe Hashmap. Data pada hash akan berisi id dokumen, id kata, dan tf. Rancangan proses perhitungan binary tf
yang akan diimplementasikan adalah sebagai berikut:
Gambar 3. 3 Rancangan proses perhitungan binary tf Dari algoritma tersebut, maka akan didapat nilai tf dari semua
kata beserta id kata dasar dan id dokumen. Penggunaan hash ini dimaksudkan untuk mempermudah dalam proses pencarian. Proses indek
akan dilakukan pada saat pengguna melakukan penambahan data penyakit
dokumen, merubah isi dokumen, menambah stopword, dan pada saat merubah stopword. Pengisian hash dilakukan pada saat melakukan
pencarian.
3.2.2 Pemrosesan