Indexing Cara Penyelesaian Masalah

penulis pedoman. Gejala tersebut, jika dibuat menjadi sebuah dokumen berdasar tiap jenis penyakit, menjadi sebuah dokumen pendek.

3.2 Cara Penyelesaian Masalah

Untuk membantu petugas PU melakukan differential diagnose dapat diupayakan dengan melakukan komputerisasi. Komputerisasi dilakukan dengan cara membangun perangkat lunak untuk melakukan differential diagnose yang menerapkan algoritma dari pendekatan pada ilmu IR.

3.2.1 Indexing

Proses diawali dengan melakukan proses pengindeksan. Proses pengindeksan akan diawali dengan melakukan stemming. Proses stemming dilakukan menggunakan algoritma Porter Stemmer for Bahasa Indonesia. Pada proses stemming, untuk tiap dokumen dalam koleksi akan dicari kata dasar pembentuknya. Sebelum dilakukan proses stemming , untuk setiap kata pada dokumen yang masuk ke dalam golongan stop words akan dihilangkan, sehingga dapat mempercepat proses stemming. Sebagai contoh terdapat kata ”tidak” pada dokumen ke – i maka kata “tidak” tersebut akan dihilangkan. Rancangan flowchart untuk proses stemming menggunakan algoritma Porter Stemmer for Bahasa Indonesia yang digunakan untuk aplikasi ini adalah: Gambar 3. 1 Gambar flowchart Porter Stemmer yang diimplementasikan Hasil dari proses stemming dokumen akan disimpan pada database sebagai kata dasar. Hasil proses stemming ini akan menjadi dasar proses indexing. Perhitungan term frequency akan diimplementasikan sebagai store procedured pada basis data. Stored procedure ini juga akan berfungsi untuk menyimpan kata dasar beserta nilai term frequency pada tabel. Rancangan flowchart stored procedure adalah sebagai berikut: Gambar 3. 2 Rancangan flowchart stored procedure indexing database Pada stored procedure, term frequency masih dihitung secara raw TF. Hal ini dilakukan untuk menyimpan nilai term frequency yang sebenarnya pada dokumen. Penentuan term frequency TF selanjutnya diubah menggunakan metode binary TF, dimana kata yang terdapat pada dokumen ataupun pada query akan diberi nilai 1 dan 0 untuk sebaliknya. Pemilihan metode ini dilakukan untuk menyamakan nilai TF untuk setiap algoritma, dimana untuk algoritma Probabilistic Model harus menggunakan binary TF. Sebagai contoh dapat dilihat pada tabel 3.1. Tabel 3. 1 Contoh penggunaan binary TF D1: Batuk kronis; Bernapas cepat; Mudah lelah; D2: Batuk; Berat badan turun; Rinoera; Q : Batuk Sesak napas Rinoera No Term D1 D2 Q 1 badan 1 2 batuk 1 1 1 3 berat 1 ..... 12 turun 1 Perhitungan binary tf akan dilakukan pada saat proses pengambilan data indek pada basis data. Data indek yang diambil akan disimpan pada variabel hash yang bertipe Hashmap. Data pada hash akan berisi id dokumen, id kata, dan tf. Rancangan proses perhitungan binary tf yang akan diimplementasikan adalah sebagai berikut: Gambar 3. 3 Rancangan proses perhitungan binary tf Dari algoritma tersebut, maka akan didapat nilai tf dari semua kata beserta id kata dasar dan id dokumen. Penggunaan hash ini dimaksudkan untuk mempermudah dalam proses pencarian. Proses indek akan dilakukan pada saat pengguna melakukan penambahan data penyakit dokumen, merubah isi dokumen, menambah stopword, dan pada saat merubah stopword. Pengisian hash dilakukan pada saat melakukan pencarian.

3.2.2 Pemrosesan