UJI ALGORITMA PROBABILISTIC MODEL, VECTOR SPACE MODEL, DAN EXTENDED BOOLEAN MODEL PADA SISTEM REKOMENDASI DIFFERENTIAL DIAGNOSE PENYAKIT PARU – PARU

UJI ALGORITMA PROBABILISTIC MODEL, VECTOR SPACE

  

SISTEM REKOMENDASI DIFFERENTIAL DIAGNOSE

PENYAKIT PARU – PARU

  (Studi Kasus: Puskesmas Jebed, Pemalang)

  

SKRIPSI

  Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer

  Program Studi Teknik Informatika Oleh:

  Vincentius Ardha Dian Rigitama 095314051

  

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

  

PROBABILISTIC MODEL, VECTOR SPACE MODEL, AND

EXTENDED BOOLEAN MODEL ALGORITHMS TEST IN

LUNG DISEASE DIFFERENTIAL DIAGNOSE

RECOMMENDATION SYSTEMS

  (Case Study: Puskesmas Jebed, Pemalang) A Thesis

  Presented As A Partial Fulfillment of The Requrements To Obtain The Bachelor Degree

  Informatics Engineering Study Program By:

  Vincentius Ardha Dian Rigitama 095314051

  

INFORMATIC ENGINEERING STUDY PROGRAM

FACULTY OF SCIENCE AND TECHNOLOGY

UNIVERSITAS SANATA DHARMA

  

HALAMAN PERSETUJUAN

SKRIPSI

UJI ALGORITMA PROBABILISTIC MODEL, VECTOR SPACE MODEL,

DAN EXTENDED BOOLEAN MODEL PADA SISTEM REKOMENDASI

  

DIFFERENTIAL DIAGNOSE PENYAKIT PARU - PARU

Oleh:

Vincentius Ardha Dian Rigitama

  

NIM: 095314051

Telah disetujui oleh:

Dosen Pembimbing Tugas Akhir

Puspaningtyas Sanjoyo Adi, S.T., M.T. Tanggal: ………………

  

HALAMAN PENGESAHAN

SKRIPSI

UJI ALGORITMA PROBABILISTIC MODEL, VECTOR SPACE MODEL,

DAN EXTENDED BOOLEAN MODEL PADA SISTEM REKOMENDASI

DIFFERENTIAL DIAGNOSE

  PENYAKIT PARU - PARU

Dipersiapkan dan ditulis oleh

Vincentius Ardha Dian Rigitama

  

NIM: 095314051

Telah dipertahankan di depan Panitia Penguji

Pada tanggal 18 Juli 2013

Dan dinyatakan memenuhi syarat

  

Susunan Panitia Penguji

Nama lengkap Tanda Tangan Ketua Sri Hartati Wijono, S.Si., M.Kom. …………………. Sekretaris JB. Budi Darmawan, S. T., M. Sc. …………………. Anggota Puspaningtyas Sanjoyo Adi, S.T., M.T. ………………….

  

Yogyakarta, ……..

Faklutas Sains dan Teknologi

Universitas Sanata Dharma

  

Dekan,

PERNYATAAN KEASLIAN KARYA

  Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini tidak memuat karya atau bagian karya orang lain, kecuali yang telah disebutkan dalam kutipan dan daftar pustaka sebagaimana layaknya karya ilmiah.

  Yogyakarta, 18 Juli 2013 Penulis,

  Vincentius Ardha Dian Rigitama

HALAMAN MOTO

  

“Jalan yang berlubang itu bukan sebuah hambatan, tetapi

jalan yang harus dilalui. Tidak ada sesuatu yang tidak

mungkin, everything is possible.”

HALAMAN PERSEMBAHAN

  Kupersembahkan skripsi ini kepada: Tuhan Yesus Kristus dan Bunda Maria atas lindungan dan kasih – Nya.

  Keluarga saya, Bapak Iwan, Ibu Yudhia, kakak Andreas dan Mita, dan adik Tika yang selalu mendoakan dan memberi dukungan saya.

  Orang – orang spesial yang selalu membantu, memberikan semangat, kritik, dan saran:  Bp. Puspaningtyas, Ibu Tatik, & Pak Wawan selaku trio tim penguji pendadaran yang hebat, “usted hace todo el mundo tiene miedo”.

   Yosefina Agustin, Agustinus Wikrama, & Benediktus Eki yang selalu menjadi senasib seperjuangan.

   J.S Wulandari, Aden, Henfry, Unggul, Jenny, Audris, & Ageng yang selalu mendukung, memotivasi, dan membantu dalam pengerjaan, gracias!!  TIM DEJ yang sangat memotivasi dan menginspirasi.  Teman – teman TI 2009, Ustedes son lo máximo! muchas gracias por todo,

  @vincentiusardha

  

ABSTRAKSI

Differential diagnose adalah penentuan dua atau lebih penyakit atau

  kondisi yang diderita pasien dengan membandingkan dan mengontraskan secara sistematis hasil – hasil tindakan diagnostik. Petugas pelayanan kesehatan, dengan berdasarkan pada pengamatan gejala pasien, akan menemukan sejumlah penyakit yang mungkin terjadi. Hal ini tidak menutup kemungkinan adanya kesalahan

  

differential diagnose penyakit pasien. Masalah tersebut kemudian akan

  diselesaikan menggunakan sebuah solusi dengan membuat sebuah aplikasi yang mampu memberi urutan penyakit yang mungkin menjadi differential diagnose.

  Dengan berdasar pada gejala – gejala umum yang ada dalam pedoman yang telah dijadikan menjadi dokumen pendek, differential diagnose dihitung menggunakan 3 (tiga) algoritma information retrieval, yakni extended boolean

  model

  , vector space model, dan probabilistic model. Sistem akan diuji oleh 4 orang dokter, dengan mengisi kuesioner yang berisi gejala umum pasien dan membandingkannya dengan hasil sistem. Hasil dari sistem kemudian dihitung menggunakan algoritma recall – precision.

  EBM mempunyai unjuk kerja paling tinggi diantara ketiga model dengan rerata penurunan terhadap titik optimal sebesar 0,32473871. Rerata penurunan terhadap titik optimal VSM adalah 0,3031798. PM mempunyai rerata penurunan terhadap titik optimal sebesar 0,3676046. Algoritma EBM merupakan algoritma terbaik yang dapat diterpakan pada sistem yang mampu memberikan akurasi

  

ABSTRACT

  Differential diagnose is the determination of two or more diseases or conditions suffered by patients, with comparing and contrasting the results of diagnostic measures in systematic way. A doctor, based on the observations of the patient's symptoms, will make a differential diagnosis. There is a possibility of a wrong differential diagnosis. Based on that problem, will be solved by creating an application that is able to provide feedback to the user the sequence of diseases that may be included in the differential diagnosis.

  Based on general symptoms that written in the guidelines, thats will be present as a short document. Few of short documents, will be use as a collections.

  Differential diagnosis will be calculated using three (3) information retrieval algorithms, the extended Boolean models, the vector space models, and the probabilistic models. We can define a short document is a document with number of maximal term is 30. The system will be tested by 4 doctors. Testing method is by filling out a questionnaire and then compared with the results of the system. After that, the results will be calculated using recall – precision algorithm.

  EBM has the highest performance among the three models, with a mean decrease from the optimal point is a 0,2473871. The mean decrease from the optimal point of VSM is a 0,3031798. PM has the lowest performance, with a mean decrease from the optimal point is a 0,3676046. Extended Boolean Models is the best algorithm that will be used in system and able to provide an accuracy at

  

LEMBAR PERNYATAAN PERSETUJUAN

PUBLIKASI KARYA ILMIAH UNTUK KEPERLUAN AKADEMIS

  Yang bertanda tangan di bawah ini, saya mahasiswa Universitas Sanata Dharma: Nama : Vincentius Ardha Dian Rigitama Nomor Mahasiswa : 095314051 Demi mengembangkan ilmu pengetahuan, saya memberikan kepada perpustakaan Universitas Sanata Dharma karya ilmiah saya yang berjudul:

  

UJI ALGORITMA PROBABILISTIC MODEL, VECTOR SPACE MODEL,

DAN EXTENDED BOOLEAN MODEL PADA SISTEM REKOMENDASI

DIFFERENTIAL DIAGNOSE

  PENYAKIT PARU – PARU

  Beserta perangkat yang diperlukan. Dengan demikian saya memberikan kepada Perpustakaan Universitas Sanata Dharma hak untuk menyimpan, mengalihkan dalam bentuk media lain, mengelolanya dalam bentuk pangkalan data, mendistribusikan secara terbatas, dan mempublikasikannya di Internet atau media lain untuk kepentingan akademis tanpa perlu meminta izin dari saya maupun memberikan royalti kepada saya selama tetap mencantumkan nama saya sebagai penulis.

  Demikian pernyataan ini saya buat dengan sebenarnya. Dibuat di Yogyakarta, Pada tanggal: 18 Juli 2013 Yang menyatakan,

KATA PENGANTAR

  Puji dan syukur kepada Tuhan karena atas segala berkat dan bimbingan- Nya, penulis dapat menyelesaikan tugas akhir ini dengan baik. Tugas akhir ini ditulis untuk memenuhi salah satu syarat untuk memperoleh gelar Sarjana Komputer dari Program Studi Teknik Informatika Universitas Sanata Dharma. Penulis menyadari bahwa selesainya tugas akhir ini tak lepas dari bantuan orang – orang di sekitar penulis. Oleh sebab itu, penulis mengucapkan terima kasih kepada:

  1. Tuhan Yesus Kristus yang selalu membimbing dan menuntun penulis dalam menyelesaikan tugas akhir ini dan juga karena telah mengabulkan doa penulis sehingga tugas akhir ini dapat selesai dengan baik.

  2. Bapak Puspaningtyas Sanjoyo Adi, S. T., M. T., selaku dosen pembimbing yang telah meluangkan waktu, ide, serta pikiran untuk membantu penulis dalam menyelesaikan tugas akhir ini.

  3. Ibu Sri Hartati Wijono, S.Si., M.Kom., selaku ketua dosen penguji yang telah meluangkan waktu untuk menguji tugas akhir ini.

  4. Kepala Puskesmas Jebed, dr. Setiawan Raharjana, dan seluruh keluarga besar Puskesmas Jebed, yang telah membantu saya dalam mendapatkan data penelitian.

  5. Keluarga saya, Bapak Iwan, Ibu Yudhia, kakak Andreas dan Mita, kepada penulis sehingga tugas akhir ini dapat selesai dengan baik dan tepat pada waktunya.

  6. Yosefina Agustin Nugraheni Bere, wanita spesial yang juga selalu memberikan yang terbaik untuk memberi dukungan tak terbatas kepada penulis agar tidak menyerah dan selalu bersemangat untuk menyelesaikan tugas akhir ini dengan baik dan tepat waktu.

7. Tim DEJ, yang selalu menjadi inspirasi dan motivasi kepada penulis.

  8. J.S. Wulandari, Tinus, Eki, Audris, Aden, Unggul, Henfry, Surya, mb. Anas, dan teman yang tidak bisa saya sebutkan, yang selalu menyemangati, menghibur, memberi inspirasi, dan membantu penulis dalam menyelesaikan tugas akhir ini.

  Yogyakarta, 18 Juli 2013 Penulis

  

DAFTAR ISI

  HALAMAN PERSETUJUAN ................................................................................ ii HALAMAN PENGESAHAN ................................................................................ iii PERNYATAAN KEASLIAN KARYA ................................................................ iv HALAMAN MOTO ............................................................................................... v HALAMAN PERSEMBAHAN ............................................................................ vi ABSTRAKSI ........................................................................................................ vii ABSTRACT ......................................................................................................... viii LEMBAR PERNYATAAN PERSETUJUAN ...................................................... ix KATA PENGANTAR ............................................................................................ x DAFTAR ISI ......................................................................................................... xii DAFTAR GAMBAR ........................................................................................... xvi DAFTAR TABEL ............................................................................................... xvii DAFTAR QUERY BASIS DATA........................................................................ xx DAFTAR LIST CODE ........................................................................................ xxi DAFTAR GRAFIK ............................................................................................. xxii DAFTAR LAMPIRAN ...................................................................................... xxiii

  BAB I ...................................................................................................................... 1 PENDAHULUAN .................................................................................................. 1

  1.1. Latar Belakang Permasalahan .................................................................. 1

  1.2. Rumusan Masalah .................................................................................... 3

  1.3. Batasan ..................................................................................................... 4

  1.6. Metode Penelitian ..................................................................................... 7

  2.6. Tokenizing .............................................................................................. 24

  BAB III ................................................................................................................. 46 ANALISIS DAN PERANCANGAN .................................................................... 46

  2.11. Algoritma Evaluasi: Recall – Precission ............................................ 45

  2.10.1. Probability Ranking Principle (PRP) .......................................... 38

  2.10. Probabilistic Model ............................................................................ 36

  2.9. Extended Boolean Model ........................................................................ 32

  2.8. Vector Space Model ................................................................................ 30

  2.7.2. Aturan Algoritma Porter untuk Bahasa Indonesia .......................... 27

  2.7.1. Porter Stemmer Algorithm .............................................................. 26

  2.7. Stemming ................................................................................................ 25

  2.5. Term Frequency ..................................................................................... 21

  1.7. Luaran ....................................................................................................... 8

  2.4. Indexing .................................................................................................. 18

  ............................................................................. 16

  2.3. Information Retrieval

  2.2. Penyakit Paru – Paru .............................................................................. 14

  2.1.2. Penyakit Paru – Paru di Puskesmas Jebed ...................................... 12

  2.1.1. Gambaran Umum Kondisi Kesehatan Masyarakat ......................... 12

  2.1. Gambaran Umum Lokasi Penelitian ...................................................... 10

  BAB II ................................................................................................................... 10 LANDASAN TEORI ............................................................................................ 10

  1.8. Sistematika Penulisan ............................................................................... 9

  3.1 Deskripsi Kasus ...................................................................................... 46

  3.2.1 Indexing ........................................................................................... 48

  3.5.2 Extended Boolean Model ................................................................ 83

  4.3.4. Pembacaan File Dokumen .............................................................. 97

  4.3.3. Stemming ......................................................................................... 91

  4.3.2. Pemisahan Kata (Tokenizing) .......................................................... 90

  4.3.1. Proses Indexing ............................................................................... 90

  4.3. Implementasi Kelas Indexing ................................................................. 89

  4.2. Implementasi Tabel Basis Data .............................................................. 88

  4.1. Spesifikasi Perangkat Keras dan Lunak ................................................. 87

  BAB IV ................................................................................................................. 87 IMPLEMENTASI ................................................................................................. 87

  3.5.3 Probabilistic Model ......................................................................... 85

  3.5.1 Vector Space Model ........................................................................ 81

  3.2.2 Pemrosesan Query ........................................................................... 52

  3.5. Perhitungan Contoh Kasus ..................................................................... 77

  3.4.5 Class Diagram ................................................................................ 74

  3.4.4 Cara Pengujian dan Analisa Hasil ................................................... 73

  3.4.3 Desain Antarmuka ........................................................................... 71

  3.4.2 Perancangan Basis Data .................................................................. 67

  3.4.1 Langkah penelitian .......................................................................... 65

  3.4 Perancangan Sistem ................................................................................ 65

  3.3 Diagram dan Skenario Use Case ............................................................ 54

  3.2.3 Permodelan ...................................................................................... 53

  4.3.5. Stopword Removal .......................................................................... 99

  4.3.7. Penambahan Dokumen.................................................................. 104

  BAB V ................................................................................................................. 125 HASIL DAN PEMBAHASAN ........................................................................... 125

  6.1. Kesimpulan ........................................................................................... 158

  BAB VI ............................................................................................................... 158 KESIMPULAN DAN SARAN ........................................................................... 158

  5.4. Perhitungan Akurasi Differential Diagnose Sistem ............................. 155

  5.3. Perbandingan Lama Waktu Pencarian.................................................. 151

  5.2. Analisa Unjuk Kerja Model ................................................................. 141

  5.1. Hasil Pengukuran (kuesioner) .............................................................. 125

  4.5.3. Extended Boolean Model (EBM) .................................................. 123

  4.3.8. Perubahan Dokumen ..................................................................... 105

  4.5.2. Vector Space Model (VSM) .......................................................... 121

  (PM) ............................................................. 117

  Probabilistic Model

  4.5. Implementasi Proses Searching ............................................................ 113 4.5.1.

  4.4. Implementasi Proses Query Processing ............................................... 112

  4.3.10. Perubahan Stopword .................................................................. 109

  4.3.9. Penambahan Stopword .................................................................. 108

  6.2. Saran ..................................................................................................... 159 DAFTAR PUSTAKA ......................................................................................... 160 LAMPIRAN ........................................................................................................ 162

  

DAFTAR GAMBAR

  Gambar 2. 1 Kerangka dari sistem IR sederhana (P. Ingwersen, 1992) ............. 17 Gambar 2. 2 Operasi teks logical view dari sebuah dokumen ............................. 20 Gambar 2. 3 Proses tokenizing ............................................................................. 24 Gambar 2. 4 Desain dari Porter Stemmer for Bahasa Indonesia .......................... 26 Gambar 2. 5 Vector Space Model ........................................................................ 30 Gambar 2. 6 Contoh perhitungan peringkat menggunakan persamaan 26 .......... 43 Gambar 2. 7 Contoh perhitungan peringkat menggunakan persamaan 27 .......... 44 Gambar 2. 8 Contoh recall dan precision hasil IR............................................... 45 Gambar 3. 1 Gambar flowchart Porter Stemmer yang diimplementasikan ......... 49 Gambar 3. 2 Rancangan flowchart stored procedure indexing database ............ 50 Gambar 3. 3 Rancangan proses perhitungan binary tf ......................................... 51 Gambar 3. 4 Rancangan pemrosesan query ......................................................... 52 Gambar 3. 5 Rancangan proses pencarian ........................................................... 53 Gambar 3. 6 Diagram Use Case ........................................................................... 54 Gambar 3. 7 Diagram blok (indexing) ................................................................. 66 Gambar 3. 8 Diagram blok (searching) ............................................................... 66 Gambar 3. 9 ER Diagram..................................................................................... 67 Gambar 3. 10 Relasi antar tabel ........................................................................... 67 Gambar 3. 11 Desain menu utama MainForm ..................................................... 71 Gambar 3. 12 Desain menu DiagnoseForm ......................................................... 72 Gambar 3. 13 Desain menu DaftarForm untuk mengelola dokumen .................. 72 Gambar 3. 14 Desain menu StopwordsForm untuk mengelola kata buang ......... 73 Gambar 3. 15 Diagram kelas keseluruhan ........................................................... 74 Gambar 3. 16 Diagram kelas proses indexing ...................................................... 75 Gambar 3. 17 Diagram kelas untuk proses searching.......................................... 76 Gambar 5. 1 Hasil pencarian PM query 1 .......................................................... 134

  

DAFTAR TABEL

  Tabel 2. 1 Tabel Detail Penduduk ......................................................................... 11 Tabel 2. 2 Gambaran lima besar penyakit di Puskesmas Jebed ............................ 13 Tabel 2. 3 10 besar penyakit paru – paru Puskesmas Jebed.................................. 13 Tabel 2. 4 Tabel gejala umum penyakit paru - paru ............................................. 14 Tabel 2. 5 Perbedaan sistem data retrieval dan sistem information retrieval ...... 16 Tabel 2. 6 Kelompok rule pertama: inflectional particles .................................... 27 Tabel 2. 7 Kelompok rule kedua: inflectional possesive pronouns ...................... 28 Tabel 2. 8 Kelompok rule ketiga: first order of derivational prefixes .................. 28 Tabel 2. 9 Kelompok rule keempat: second order of derivational prefixes ......... 29 Tabel 2. 10 Kelompok rule kelima: derivational suffixes ..................................... 29 Tabel 2. 11 Tabel persamaan perhitungan ukuran kesamaan dalam EBM ........... 35 Tabel 2. 12 Contingency Table (Baeza-Yates dan Ribeiro-Neto, 2011)............... 41 Tabel 3. 1 Contoh penggunaan binary TF ............................................................ 50 Tabel 3. 2 Tabel skenario case Differential Diagnose .......................................... 55 Tabel 3. 3 Tabel skenario case Melihat Dokumen ................................................ 56 Tabel 3. 4 Tabel skenario case Menambah Dokumen .......................................... 56 Tabel 3. 5 Tabel skenario case Mengubah Dokumen ........................................... 58 Tabel 3. 6 Tabel skenario case Melihat Stopword ................................................ 59 Tabel 3. 7 Tabel skenario case Mengubah Stopword ........................................... 59 Tabel 3. 8 Tabel skenario case Mengubah Stopword ........................................... 60 Tabel 3. 9 Tabel skenario case Memasukkan Default Stopword .......................... 61 Tabel 3. 10 Tabel skenario case Pengaturan Sistem: Setting General .................. 62 Tabel 3. 11 Tabel skenario case Pengaturan Sistem: Setting Algoritma .............. 63 Tabel 3. 12 Tabel skenario case Pengaturan Sistem: Setting Koneksi ................. 64 Tabel 3. 13 Keterangan tabel dokumen pada basis data ....................................... 68 Tabel 3. 14 Keterangan tabel kata_dasar pada basis data ..................................... 69

  Tabel 3. 17 Keterangan tabel dictionary pada basis data ...................................... 71 Tabel 3. 18 Tabel pendataan token ....................................................................... 78 Tabel 3. 19 Tabel pengurutan dan pengelompokan token .................................... 79 Tabel 3. 20 Tabel frekuensi kata dalam dokumen contoh .................................... 80 Tabel 3. 21 Perhitungan idf menggunakan persamaan log

  ............................ 80 Tabel 3. 22 Perhitungan w dokumen dan query contoh kasus (VSM) .................. 81 Tabel 3. 23 Perhitungan w dokumen dan query contoh kasus (EBM) .................. 83 Tabel 3. 24 Contingency table PM ........................................................................ 85 Tabel 3. 25 Perhitungan w dokumen contoh kasus (PM)...................................... 86 Tabel 3. 26 Tabel pengurutan dokumen PM ......................................................... 86 Tabel 5. 1 Daftar query ...................................................................................... 126 Tabel 5. 2 Rekap kemungkinan differential diagnose query 1 .......................... 128 Tabel 5. 3 Rekap differential diagnose query 2 ................................................. 128 Tabel 5. 4 Rekap differential diagnose query 3 ................................................. 129 Tabel 5. 5 Rekap differential diagnose query 4 ................................................. 129 Tabel 5. 6 Rekap differential diagnose query 5 ................................................. 129 Tabel 5. 7 Rekap differential diagnose query 6 ................................................. 130 Tabel 5. 8 Rekap differential diagnose query 7 ................................................. 130 Tabel 5. 9 Rekap differential diagnose query 8 ................................................. 130 Tabel 5. 10 Rekap differential diagnose query 9 ............................................... 130 Tabel 5. 11 Rekap differential diagnose query 10 ............................................. 131 Tabel 5. 12 Rekap differential diagnose query 11 ............................................. 131 Tabel 5. 13 Rekap differential diagnose query 12 ............................................. 131 Tabel 5. 14 Rekap differential diagnose query 13 ............................................. 131 Tabel 5. 15 Rekap differential diagnose query 14 ............................................. 132 Tabel 5. 16 Rekap differential diagnose query 15 ............................................. 132 Tabel 5. 17 Rekap differential diagnose query 16 ............................................. 132 Tabel 5. 18 Rekap differential diagnose query 17 ............................................. 132 Tabel 5. 19 Rekap differential diagnose query 18 ............................................. 133

  Tabel 5. 22 Rekap differential diagnose query 21 ............................................. 133 Tabel 5. 23 Precision-Recall responden R1 pada query 1 (PM)........................ 135 Tabel 5. 24 Maksimal precision setiap titik recall R1 pada query 1 (PM) ........ 135 Tabel 5. 25 Precision-Recall responden R1 pada query 1 (VSM) ..................... 135 Tabel 5. 26 Maksimal precision setiap titik recall R1 pada query 1 (VSM) ..... 136 Tabel 5. 27 Precision-Recall responden R1 pada query 1 (EBM) ..................... 136 Tabel 5. 28 Maksimal precision setiap titik recall R1 pada query 1 (EBM) ..... 136 Tabel 5. 29 Perhitungan interpolasi responden R1 untuk query 1 (PM) ............ 137 Tabel 5. 30 Perhitungan interpolasi responden R1 untuk query 1 (VSM) ......... 138 Tabel 5. 31 Perhitungan interpolasi responden R1 untuk query 1 (EBM) ......... 138 Tabel 5. 32 Perhitungan rerata interpolasi (PM) ................................................ 142 Tabel 5. 33 Perhitungan rerata interpolasi (VSM) ............................................. 142 Tabel 5. 34 Perhitungan rerata interpolasi (EBM) ............................................. 143 Tabel 5. 35 Daftar penurunan nilai precision PM .............................................. 145 Tabel 5. 36 Daftar penurunan nilai precision VSM ........................................... 146 Tabel 5. 37 Daftar penurunan nilai precision EBM ........................................... 148 Tabel 5. 38 Perhitungan rerata interpolasi seluruh model beserta nilai penurunan terhadap optimal .................................................................................................. 148 Tabel 5. 39 Tabel perbandingan nilai penurunan precision seluruh model ....... 150 Tabel 5. 40 Daftar waktu pencarian (PM) .......................................................... 152 Tabel 5. 41 Daftar waktu pencarian (VSM) ....................................................... 153 Tabel 5. 42 Daftar waktu pencarian (EBM) ....................................................... 153 Tabel 5. 43 Tabel perbandingan waktu pencarian ............................................. 154 Tabel 5. 44 Diagnose penyakit untuk setiap query ............................................ 156 Tabel 5. 45 Perhitungan akurasi model .............................................................. 157 Tabel 6. 1 Perbandingan rerata penurunan interpolasi model mengacu pada tabel 5.39 ...................................................................................................................... 158 Tabel 6. 2 Perbandingan algoritma mengacu pada tabel 5.39, 5.43, dan 5.45 ... 159

  

DAFTAR QUERY BASIS DATA

  Query 4. 1 Query DDL tabel dokumen ................................................................ 88 Query 4. 2 Query DDL tabel katadasar ................................................................ 88 Query 4. 3 Query DDL tabel katastop ................................................................. 88 Query 4. 4 Query DDL tabel dokumen_kata ....................................................... 89 Query 4. 5 Query DDL tabel dictionary............................................................... 89 Query 4. 6 Query SQL_CEKKATA .................................................................. 100 Query 4. 7 Stored procedure insert_dokumen_table .......................................... 101 Query 4. 8 Stored procedure insertKata ............................................................. 103

  

DAFTAR LIST CODE

  List Code 4. 1 List indexingDokumen .................................................................. 90 List Code 4. 2 Penggunaan metode replaceAll .................................................... 90 List Code 4. 3 Penggunaan metode split .............................................................. 91 List Code 4. 4 Stemming ...................................................................................... 92 List Code 4. 5 List rule1 ....................................................................................... 92 List Code 4. 6 List rule2 ....................................................................................... 93 List Code 4. 7 List rule3 ....................................................................................... 94 List Code 4. 8 List rule4 ...................................................................................... 95 List Code 4. 9 List rule5 ....................................................................................... 96 List Code 4. 10 getCountWord ............................................................................ 97 List Code 4. 11 List pembacaan dokumen .......................................................... 98 List Code 4. 12 Stopword removal .................................................................... 100 List Code 4. 13 List insertDokumen ................................................................. 102 List Code 4. 14 Penambahan Dokumen ............................................................. 105 List Code 4. 15 List ubahIsiDokumen .............................................................. 107 List Code 4. 16 List penambahan stopword ....................................................... 109 List Code 4. 17 List perubahan stopword .......................................................... 111 List Code 4. 18 List pemrosesan query .............................................................. 113 List Code 4. 19 List getIndex ............................................................................ 115 List Code 4. 20 List getSimilarity ...................................................................... 116 List Code 4. 21 List hitungBobotPerKata .......................................................... 117 List Code 4. 22 List getDokumenRelevanByQuery .......................................... 118 List Code 4. 23 getDFRelevan ........................................................................... 119 List Code 4. 24 similarity (PM) ......................................................................... 121 List Code 4. 25 similarity (VSM) ..................................................................... 123 List Code 4. 26 similarity (EBM) ...................................................................... 124

  

DAFTAR GRAFIK

  Grafik 5. 1 Grafik interpolasi responden R1 untuk query 1 (PM) ..................... 139 Grafik 5. 2 Grafik interpolasi responden R1 untuk query 1 (VSM) .................. 139 Grafik 5. 3 Grafik interpolasi responden R1 untuk query 1 (EBM) .................. 140 Grafik 5. 4 Grafik unjuk kerja PM pada pencarian query .................................. 144 Grafik 5. 5 Grafik unjuk kerja VSM pada pencarian query ............................... 145 Grafik 5. 6 Grafik unjuk kerja EBM pada pencarian query ............................... 147 Grafik 5. 7 Grafik interpolasi seluruh model ..................................................... 149

  

DAFTAR LAMPIRAN

  Lampiran 1 Contoh Form Kuesioner ................................................................. 163 Lampiran 2 Query Gejala ................................................................................... 169 Lampiran 3 Kuesioner Responden 1 .................................................................. 171 Lampiran 4 Kuesioner Responden 2 .................................................................. 176 Lampiran 5 Kuesioner Responden 3 .................................................................. 181 Lampiran 6 Kuesioner Responden 4 .................................................................. 186 Lampiran 7 Hasil Perhitungan Precision Semua Responden (PM) ................... 191 Lampiran 8 Hasil Perhitungan Precision Semua Responden (VSM) ................ 199 Lampiran 9 Hasil Perhitungan Precision Semua Responden (EBM) ................ 207 Lampiran 10 Tabel Interpolasi Semua Query (PM) ........................................... 215 Lampiran 11 Tabel Interpolasi Semua Query (VSM) ........................................ 216 Lampiran 12 Tabel Interpolasi Semua Query (EBM) ........................................ 217 Lampiran 13 Source Code Program ................................................................... 218

BAB I PENDAHULUAN 1.1. Latar Belakang Permasalahan Paru – paru adalah organ tubuh manusia yang terdapat di dalam

  dada. Paru – paru berfungsi sebagai tempat pertukaran oksigen dan mengeluarkan karbondioksida dari darah dengan bantuan hemoglobin.

  Manusia membutuhkan pasokan oksigen secara terus – menerus untuk proses respirasi sel, dan membuang kelebihan karbondioksida sebagai limbah beracun produk dari proses tersebut. Pertukaran gas antara oksigen dengan karbondioksida dilakukan agar proses respirasi sel terus berlangsung. Oksigen yang dibutuhkan untuk proses respirasi sel ini berasal dari atmosfer, yang menyediakan kandungan gas oksigen sebanyak 21% dari seluruh gas yang ada. Oksigen masuk kedalam tubuh melalui perantaraan alat pernapasan yang berada di luar. Pada manusia, alveolus yang terdapat di paru – paru berfungsi sebagai permukaan untuk tempat pertukaran gas.

  Kekurangan pasokan oksigen selama selang waktu diluar ambang batas kemampuan seseorang dapat menyebabkan kematian (PDPI, 2003).

  Dengan demikian, mendapatkan oksigen merupakan kebutuhan primer sangat dibutuhkan oleh sistem pernapasan manusia untuk melakukan proses metabolisme. Akan tetapi, udara yang tercemar dapat merusak fungsi dari paru – paru, atau bahkan merusak paru – paru secara fisik.

  Dampak kesehatan dari pencemaran udara yang paling umum dijumpai adalah INSA (infeksi saluran napas atas), termasuk di antaranya, asma, bronkitis, dan gangguan pernapasan lainnya. Beberapa zat pencemar dikategorikan sebagai toksik dan karsinogenik (PDPI, 2003). Sebagai contoh dampak dari pencemaran udara di Jakarta yang berkaitan dengan kematian prematur, perawatan rumah sakit, berkurangnya hari kerja efektif, dan INSA pada tahun 1998 senilai dengan 1,8 trilyun rupiah dan akan meningkat menjadi 4,3 trilyun rupiah di tahun 2015 (DEPKES RI,2000).

  Tingginya tingkat pencemaran udara di Indonesia menjadi salah satu faktor penyebab terjangkitnya penyakit paru – paru. Penyakit paru – paru dapat menyerang manusia di segala usia. Beberapa penyakit paru – paru mempunyai gejala umum yang sama, seperti batuk, sesak nafas, mengi, ataupun nyeri di dada. Hal tersebut menyebabkan kemunculan sejumlah penyakit pada differential diagnose.

  Differential diagnose merupakan tahap sebelum diagnose dan

  ditentukan berdasarkan pada gejala yang ditemukan pertama kali. Pada tahap ini, diagnose penyakit yang pasti belum dapat disimpulkan tetapi hanya kemungkinan – kemungkinan penyakit yang muncul dari gejala khususnya pada bagian poli umum, dengan berdasarkan pada pengamatan gejala pasien, akan menemukan sejumlah penyakit yang mungkin terjadi (differential diagnose). Hal ini tidak menutup kemungkinan adanya kesalahan differential diagnose penyakit pasien. Kesalahan pada

  differential

  diagnose akan berimbas pada kesalahan pemberian obat, dengan demikian pasien mengkonsumsi obat yang seharusnya tidak dikonsumsi.

  Perkembangan teknologi dapat membantu dalam penentuan

  differential diagnose. Komputerisasi dilakukan dengan memanfaatkan algoritma pada ilmu information retrieval (temu kembali informasi).

  Komputerisasi pada differential diagnose ini bukan merupakan hal yang mudah. Hal ini dikarenakan gejala umum pada tiap penyakit yang akan dijadikan model bukan merupakan dokumen panjang. Model dari tiap penyakit biasanya hanya terdiri dari 5 – 10 gejala umum. Hal ini berbeda dengan penerapan ilmu information retrieval pada umumnya, yaitu menggunakan dokumen dengan jumlah kata atau kalimat dalam jumlah yang besar (dokumen panjang).

1.2. Rumusan Masalah

  Berdasarkan pada latar belakang permasalahan, maka masalah yang akan dibahas pada tulisan ini adalah:

  1. Bagaimana membangun sistem rekomendasi differential

  diagnose penyakit paru – paru yang dapat melakukan differential diagnose dengan baik berbasis pada information retrieval dengan menggunakan dokumen pendek? Dokumen

  pendek adalah dokumen yang berjumlah kata maksimal 30 kata.

  2. Bagaimana unjuk kerja algoritma extended boolean model,

  vector space model: cosine similarity, dan probabilistic model

  untuk dokumen pendek pada sistem rekomendasi differential

  diagnose

  penyakit paru – paru secara akurat?

  3. Bagaimana keakuratan algoritma information retrieval (extended boolean model, vector space model: cosine

  similarity, dan probabilistic model) untuk dokumen pendek

  pada sistem rekomendasi differential diagnose penyakit paru – paru?

1.3. Batasan

  Dengan permasalahan yang terjadi dan telah diungkapkan di atas, penulis bermaksud menyusun skripsi dengan judul “Uji Algoritma

  Probabilistic Model, Vector Space Model, dan Extended Boolean Model Pada Sistem Rekomendasi Differential Diagnose Penyakit Paru - Paru”.

  1. Studi kasus hanya dilakukan di Puskesmas Jebed Pemalang.

  2. Melakukan differential diagnose hanya pada penyakit paru – paru yang termasuk sepuluh besar di Puskesmas Jebed.

  3. Data yang digunakan dari tahun 2009 hingga tahun 2011.

  4. Differential diagnose hanya dilakukan berdasarkan gejala awal, penyakit yang awal diagnose dengan cek lab tidak digunakan.

  5. Differential diagnose lanjutan berdasar hasil cek lab tidak akan dibahas.

  6. Sistem rekomendasi yang dibangun tidak menangani pemberian saran terkait (langkah lanjutan yang dilakukan).

  7. Differential diagnose dilakukan secara terkomputerisasi dengan penerapan teknologi informatika, ilmu information

  retrieval .

  8. Algoritma information retrieval yang digunakan adalah

  extended boolean model , vector space model: cosine similarity, dan probabilistic model.

1.4. Tujuan Penelitian

  Tujuan yang akan dicapai dalam penulisan skripsi ini adalah:

1. Mengkaji algoritma extended boolean model, vector space

  dokumen pendek yang akan diterapkan pada sistem rekomendasi differential diagnose penyakit paru – paru.

2. Melakukan implementasi algoritma extended boolean model,

  vector space model: cosine similarity, dan probabilistic model

  dengan menggunakan dokumen pendek pada sistem rekomendasi differential diagnose penyakit paru – paru.

  3. Melakukan pengujian aplikasi yang telah dibangun menggunakan algoritma recall – precission untuk mengetahui algoritma information retrieval terbaik untuk menangani

  differential diagnose

  penyakit paru – paru menggunakan dokumen pendek.

1.5. Manfaat Penelitian

  Manfaat dari pembangunan perangkat lunak sistem rekomendasi

  differential diagnose penyakit paru – paru ini adalah membantu

  mengkonversi gejala – gejala yang muncul dari pengamatan terhadap pasien menjadi sebuah rekomendasi differential diagnose penyakit paru – paru secara tepat, cepat, akurat, dan efisien dengan algoritma yang menghasilkan nilai paling baik. Tidak hanya itu, pembangunan perangkat lunak ini sekaligus menguji algoritma pada dokumen pendek. Dengan demikian pengujian algoritma extended boolean model, vector space menentukan algoritma yang paling baik pada dokumen pendek. Dengan penerapan algoritma terbaik, sistem diharapkan dapat membantu peran pelaku pelayanan kesehatan dalam menentukan tindak lanjut sebagai penanganan serta dasar pengambilan diagnose akhir pada penyakit paru – paru.