SISTEM DIAGNOSA PENYAKIT HEPATITIS DENGAN MENGGUNAKAN METODE NAÏVE BAYESIAN

  SISTEM DIAGNOSA PENYAKIT HEPATITIS DENGAN MENGGUNAKAN METODE NAÏVE BAYESIAN SKRIPSI Ditujukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Jurusan Teknik Informatika Oleh : Estu Karunianingtyas 065314045 JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2012

  THE HEPATITIS DIAGNOSE SYSTEM BY USING THE NAÏVE BAYESIAN METHODE A Thesis Presented as Partial Fulfillment of the Requirements To Obtain the Engineering Bachelor Degree In Informatics Engineering By : Estu Karunianingtyas Student Number : 065314045

INFORMATICS ENGINEERING STUDY PROGRAM FACULTY OF SCIENCE AND TECHNOLOGY SANATA DHARMA UNIVERSITY YOGYAKARTA 2012

  HALAMAN PERSETUJUAN SKRIPSI SISTEM DIAGNOSA PENYAKIT HEPATITIS DENGAN MENGGUNAKAN METODE NAÏVE BAYESIAN

  Disusun Oleh : Estu Karunianingtyas

  065314045 Telah diperiksa dan disetujui Di Yogyakarta Pada tanggal : .... Februari 2012 Dosen Pembimbing

  Dr. Cyprianus Kuntoro Adi, SJ,

HALAMAN PERSEMBAHAN

  

Yakobus 2:22b

“ bahwa iman bekerjasama dengan perbuatan -perbuatan dan oleh

perbuatan-perbuatan itu iman menjadi sempurna”

  Skripsi ini saya persembahkan untuk : Tuhan Yesus Kristus, Keluarga tercinta dan Sahabat terkasih Terima kasih untuk segalanya.

PERNYATAAN KEASLIAN KARYA

  Saya menyatakan dengan sesungguhnya bahwa tugas akhir yang saya tulis tidak memuat karya atau bagian karya orang lain, kecuali yang telah disebutkan dalam kutipan dan daftar pustaka, sebagai mana layaknya karya ilmiah.

  Yogyakarta, 8 Februari 2012 Penulis

  Estu Karunianingtyas

  

LEMBAR PERNYATAAN PERSETUJUAN

PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS

  Yang bertanda tangan dibawah ini, saya mahasiswa Univer sitas Sanata Dharma : Nama : Estu Karunianingtyas NIM : 065314045

  Demi pengembangan pengetahuan, saya memberikan kepada perpustakaan Universitas Sanata Dharma karya ilmiah yang berjudul :

  

SISTEM DIAGNOSA PENYAKIT HEPATITIS DENGAN

MENGGUNAKAN METODE NAÏVE BAYESIAN

  Beserta perangkat yang diperlukan (bila ada). Dengan demikian saya memberikan kepada perpustakaan Universitas Sanata Dharma hak untuk menyimpan, mengalihkan dalam bentuk media lain, mengelolanya dalam bentuk pangkalan data mendistribusikan secara terbatas, dan mempublikasikan di internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya maupun memberikan royalti kepada saya selama tetap mencantumkan nama saya sebagai penulis. Demikian pernyataan ini saya buat dengan sebe narnya. Yogyakarta, 8 Februari 2012 Yang menyatakan, Estu Karunianingtyas

  

SISTEM DIAGNOSA PENYAKIT HEPATITIS DENGAN

MENGGUNAKAN METODE NAIVE BAYESIAN

ABSTRAK

  Penyakit hepatitis dapat meningkatkan risiko kematian bagi penderita dan dapat juga menjadi pemicu timbulnya penyakit lain yang menyebabkan kematian.

  Sistem pakar adalah sistem berbasis komputer yang menggunakan pengetahuan, fakta, dan teknik penalaran dalam memecahkan masalah yang biasanya hanya dapat dipecahkan oleh seorang pakar dalam bidang tert entu. Sistem pakar memberikan nilai tambah pada teknologi untuk membantu dalam menangani era informasi yang semakin canggih. Pada penelitian ini dibangun aplikasi sistem pakar yang menghasilkan keluaran berupa kemungkinan penyakit hepatitis yang diderita berdasarkan gejala yang dirasakan oleh user. Sistem ini juga menampilkan besarnya kepercayaan gejala tersebut terhadap kemungkinan penyakit hepatitis yang diderita oleh user. Besarnya nilai kepercayaan tersebut merupakan hasil perhitungan dengan menggunakan metode Naïve Bayesian

  Classification.

  Dalam penelitian ini, proses klasifikasi penyakit hepatitis menggunakan Naive Bayesian dalam proses pengujian sistem yang dilakukan dengan dua percobaan yaitu percobaan pengenalan per-gejala menghasilkan akurasi sebe sar 44,44% untuk gejala mata, sedangkan percobaan yang kedua yaitu pengenalan kombinasi gejala menghasilkan akurasi sebesar 51,11%. Pengujian ini dilakukan untuk mengetahui feature yang paling berpengaruh pada pengenalan jenis penyakit hepatitis.

  

ABSTRACT

  Hepatitis can increase the death risk to the patient and it can also become the cause of another disease which can cause death. The Expert System is a system which is based on computer which uses knowledge, fact, and technique to solve a problem which usually can be solved by an expert of certain field. The Expert System gives an additional value to the technology to help in handling the information in this modern era.In this research, the Expert System Application is made to get a result about the hep atitis possibility which is suffered by the patient based on the symptoms which are felt by the patient. This system will show how big of possibilities on hepatitis symptoms which are suffered by the patient . The mount of possibilities is a result of coun ting by using the Naive Bayesian Classification method.

  In the research, the classification process of hepatitis uses the Naive Bayesian in the process of testing the system which are done in two experiments, the first is the experiment of introduction f or each symptom which produces 44,41% accuracy for the eye symptom , then the second experiment is the introduction of symptom combination which produces 51,11% accuracy. This test is done in order to know the most influenced feature or symtom tointrodu ction of the kind of hepatitis.

KATA PENGANTAR

  Puji dan syukur penulis panjatkan kepada Tuhan Yesus Kristus, karena atas kebaikan dan kehendak-Nya saya dapat menyelesaikan tugas akhir yang berjudul

  

“Sistem Diagnosa Penyakit Hepatitis Dengan Menggun akan Naive

Bayesian”. Tugas akhir ini ditulis sebagai salah satu syarat memperoleh gelar

  sarjana program studi Te knik Informatika, Fakultas Sains dan Teknologi Universitas Sanata Dharma.

  Dalam proses penulisan tugas akhir ini , penulis mengucapkan terima kasih yang sebesar-besarnya kepada :

  1. Romo Dr. Cyprianus Kuntoro Adi, SJ, MA, M.Sc selaku Dosen Pembimbing, terimakasih atas segala bimbingan , kesabaran dan mengarahkan serta membimbing penulis dalam menyelesaikan tugas akhir ini.

  2. Ibu Ridowati Gunawan, sela ku ketua program studi Teknik Informatika Fakultas Sains dan Teknologi Universitas Sanata Dharma Yogyakarta.

  3. Ibu P.H. Prima Rosa, S.Si, M.Sc . dan Bapak Albert Agung Hadhiatma, S.T.,M.T. selaku dosen penguji yang telah memberikan banyak kritik dan saran untuk tugas akhir saya.

  4. Seluruh staff dosen Teknik Informatika Universitas Sanata Dharma yang telah banyak memberikan bekal ilmu, arahan dan pengalaman selama saya menempuh studi.

  5. Seluruh staff Sekretariat Teknik, yang banyak membantu saya dalam urusan administrasi akademik terutama menjelang ujian tugas akhir.

  6. Kedua orang tua, yaitu papa Idrisman yang disurga dan mama Suwaningsih .

  Terima kasih atas semua yang telah dilakukan untukku, doa, semangat, dukungan dan cintanya sehingga saya bisa menyelesaikan studi dengan lancar.

  7. Kakak-kakakku, Norma Ika Damasanti, Purbo Yohanes Cristo Oktova, dan Kinasih Amrih Rahayu, walau kita sering berjauhan tapi aku selalu sayang pada kalian. Selain itu terima kasih juga untuk keponakan tersayang Ezekiel Locano Yovada yang selalu mendukung dengan penuh semangat.

  8. Teman-teman Teknik Informatika : Ridoan Wibisono, Floriska Nuhan, Fransiskus Anggit Dwi Suhendro, Hendra Christian, Ellis Renatal Samosir, Caecilia Nova P, Tulus Wardoyo , dan semua teman-teman TI lainnya.

  9. Seluruh pihak yang telah ambil bagian dalam proses penulisan tugas akhir ini yang tidak bisa saya sebutkan satu per satu.

  Dengan rendah hati penulis menyadari bahwa tugas akhir ini masih jauh dari sempurna, oleh karena itu berbagai kritik dan saran untuk perbaikan tug as akhir ini sangat penulis harapkan. Akhir kata, semoga tugas akhir ini bermanfaat bagi semua pihak. Terima kasih.

  Yogyakarta, 8 Februari 2012 Penulis

  

DAFTAR ISI

HALAMAN JUDUL …………………………………………………………........... i

HALAMAN JUDUL (Inggris)..………………………………… ……………........... ii

HALAMAN PERSETUJUAN ………………………………………………............ iii

HALAMAN PENGESAHAN ………………………………………………............ iv

  

HALAMAN PERSEMBAHAN ………………………………………………......... v

HALAMAN PERNYATAAN KEASLIAN KARYA ……………………….......... vi

HALAMAN PERSETUJUAN PUBLIKASI ……………… …………………........ vii ABSTRAK …………………………………………………………………….......... viii

ABSTRACT …………………………………………………………………............ ix

  

KATA PENGANTAR ………………………………………………………............ x

DAFTAR ISI ………………………………………………………………….......... xii

DAFTAR GAMBAR …………………………………………………………......... xv

DAFTAR TABEL …………………………………………………………….......... xvi

  BAB I. PENDAHULUAN 1 1.1 Latar Belakang .................................................................................

  1 1.2 Rumusan Masalah ............................................................................

  3 1.3 Tujuan …………..............................................................................

  3 1.4 Batasan Masalah ..............................................................................

  3 1.5 Metodelogi Penelitian ....................................................... ..............

  4 1.6 Sistematika Penulisan ......................................................................

  6 BAB II. LANDASAN TEORI 2.1 Data Mining .....................................................................................

  8 2.2 Metode Naive Bayesian Classification ............................................

  13

  2.2.1 Teorema Bayes .................................................................

  13 2.2.2 Naive Bayesian .................................................................

  15 2.2.3 Naive Bayes Algorithm................. …………………….....

  16 2.3 K-fold Cross Validation...………………………………………….

  18 2.4 Penyakit Hepatitis.............................................................................

  18 BAB III. DESAIN SISTEM 25 3.1 Data ……....................................................................... ...................

  25 3.2 Desain Sistem....................................................................................

  35 3.3 Tahap Pelatihan (Training)...............................................................

  36 3.4 Tahap Pengujian (Testing)................................................................

  37 3.5 Penghitungan Akurasi.......................................................................

  38 3.6 Desain User Interface .......................................................................

  39 3.7 Spesifikasi Software dan Har dware..................................................

  43 BAB IV. IMPLEMENTASI DAN ANALISA HASIL

  44 4.1 Hasil Penelitian dan Analisa..……… ................................................

  44 4.2 Perancangan Naive Bayes..................................................... ............

  46 4.3 Seleksi Atribut...................................................................................

  50 4.4 Hasil dan Akurasi.......................…………………………………...

  51 4.5 Implementasi User Interface............................................................ .

  57

  4.5.1 Menu Utama ….....………………………………………

  57 Bantuan........ …………………………………………….

  4.5.2

  59 Uji Sistem.. ………………………………………………

  4.5.3

  59

  4.5.4 Klasifikasi......……………………………………………

  61 BAB V. PENUTUP 63 5.1 Kesimpulan …………......................................................................

  63

  5.2 Saran …………………… ………....................................................

  64

DAFTAR PUSTAKA LAMPIRAN

  65

  66

  

DAFTAR GAMBAR

Gambar Keterangan Halaman

  59

  52

  4.2 Grafik Akurasi Percobaan kombinasi gejala Hepatitis

  55

  4.3 Menu Utama

  57

  4.4 Halaman Bantuan

  4.5 Halaman Pengujian Sistem

  42

  59

  4.6 Error Handling

  60

  4.7 Halaman Klasifikasi Sistem

  61

  4.8 Halaman Klasifikasi Sistem(2)

  4.1 Grafik Akurasi Percobaan per -gejala Hepatitis

  3.7 Halaman Klasifikasi Sistem

  2.1 Langkah Penambangan Data ( Data Mining)

  36

  9

  2.2 Ilustrasi Pemodelan teknik Classification untuk mengukur akurasi

  17

  3.1 Garis Besar Sistem Pengenalan

  35

  3.2 Skema Tahap Pelatihan

  3.3 Skema Tahap Pengujian

  41

  37

  3.4 Tampilan Awal

  40

  3.5 Halaman Bantuan

  40

  3.6 Halaman Pengujian Sistem

  62

  DAFTAR TABEL Tabel Keterangan Halaman

  4.3 Data Binerisasi Gejala Hepatitis

  33

  3.12 Confusion Matrix

  39

  4.1 Deskripsi Data Gejala Hepatitis

  45

  4.2 Data Nominal Gejala Hepatitis

  48

  50

  32

  4.4 Hasil Akurasi Percobaan per -gejala

  52

  4.5 Confusion Matrix Gejala Perut

  53

  4.6 Hasil Akurasi Percobaan Kombinasi Gejala

  54

  4.7 Confusion Matrix Kombinasi Gejala

  3.11 Sample Penyakit Hepatitis (2)

  3.10 Sampel Penyakit Hepatitis dengan nilai Probabilitas

  3.1 Data Gejala Hepatitis

  3.5 Feature Gejala Otot

  26

  3.2 Pembagian Sample

  29

  3.3 Percobaan Hepatitis

  29

  3.4 Sample Penyakit Hepatitis

  30

  30

  31

  3.6 Feature Gejala Perut

  30

  3.7 Feature Gejala Kulit

  31

  3.8 Feature Gejala Mata

  31

  3.9 Feature Gejala Mirip Flu

  56

Bab I. Pendahuluan

1.1 Latar Belakang

  Perkembangan Teknologi Informasi yang semakin berkualitas dan menuntut kemudahan manusia dalam setiap melakukan aktifitasnya. Hal tersebut memicu terus berkembangnya perangkat keras dan perangkat lunak dalam penggunaan komputer di bidang teknologi informasi. Komputer yang dalam penggunaannya dulu hanya terbatas pada bidang -bidang tertentu saja, telah digunakan secara luas diberbagai bidang.

  Kecerdasan buatan atau artificial intelligence merupakan bagian dari ilmu komputer yang membuat agar komputer dapat melakukan pekerjaan seperti dan sebaik yang dilakukan oleh manusia. Ada beberapa cabang yang terdapat dalam kecerdasan buatan yang salah satunya adalah sistem pakar.

  Sistem Pakar (expert sistem ) adalah program berbasis pengetahuan yang menyediakan solusi-solusi dengan kualitas pakar untuk masalah -masalah dalam suatu domain yang spesifik. Sistem pakar merupakan program komputer yang meniru proses pemikiran dan pengetahuan pakar dalam menyelesaikan suatu masalah tertentu. Implementasi sistem pakar banyak digunakan untuk kepentingan komersial karena sistem pakar dipandang sebagai cara penyimpanan p engetahuan pakar pada bidang tertentu dalam program komputer sehingga keputusan dapat diberikan dalam melakukan penalaran secara cerdas. Umumnya pengetahuannya diambil dari seorang manusia yang pakar dalam domain tersebut dan sistem pakar itu berusaha meniru metodologi dan kinerja (performance) (Faisal, 2009).

  Metode Naïve Bayesian Classification yang digunakan dalam sistem diagnosa penyakit hepatitis berfungsi untuk mengatasi ketidakpastian pada penalaran sistem. Sistem akan memberikan pengetahuan berupa output (hasil diagnosa) berdasar input yang diberikan (gejala penyakit) berupa nilai kepastian sebuah data (akurasi nilai data). Metode Naïve Bayesian Classification melakukan perhitungan berupa probabilitas, hasil nilai probabilitas yang diperoleh akan dijadikan nilai kepastian (akurasi nilai). Dengan adanya nilai kepastian (akurasi nilai), maka memudahkan untuk mengambil keputusan terhadap permasalahan yang ada.

  Hati atau liver merupakan organ terbesar dalam tubuh manusia. Di dalam hati terjadi proses-proses penting bagi kehidupan kita, yaitu proses penyimpanan energi, pembentukan protein dan asam empedu, pengaturan metabolisme kolesterol, dan penetralan racun atau obat yang masuk dalam tubuh kita. Sehingga dapat dibayangkan akibat yang akan timbul apabila terjadi kerusakan pada hati. Berbagai penyakit pada hati seperti hepatitis A, B dan C kini menjadi masalah kesehatan masyarakat. Khususnya di Indonesia penyakit -penyakit infeksi pada hati masih merupakan penyebab kematian yang sangat penting. Oleh sebab i tu, apabila penyakit hepatitis ini bisa dideteksi secara dini, penyakit ini pun segera diatasi. Sehingga penyakit hati tidak akan menyebabkan kematian. Dari tahapan awal, bisa dilakukan deteksi dini sebelum pasien menderita penyakit yang lebih ganas, yang akan menyebabkan kematian seperti hepatitis A, B dan C.

  Untuk mengatasi masalah tersebut dibuatlah suatu sistem diagnosa penyakit hepatitis dengan metode Naïve Bayesian Classification , agar memudahkan dalam mengambil keputusan berupa diagnosa jenis penyak it hepatitis pada user apabila user tersebut positif mengidap penyakit hepatitis.

  1.2 Rumusan Masalah

  Dari latar belakang tersebut, dapat dirumuskan suatu masalah yaitu bagaimana metode Naive Bayesian membantu ketepatan diagnosa penyakit hepatitis.

  1.3 Tujuan

  Membangun sistem yang digunakan untuk mengenali diagnosa penyakit hepatitis khususnya hepatitis A, B dan C dengan menggunakan metode Naïve

  Bayesian Classification.

  1.4 Batasan Masalah

  Pembuatan sistem diagnosa penyakit hepatitis terbatas pada:

  1. Data yang diolah hanya data yang berhubungan dengan penyakit yang menyerang hati khususnya gejala penyakit hepatitis A, B dan C.

  2. Sedangkan sumber data yang digunakan ialah data pasien penyakit hepatitis hanya berdasarkan data status rekam medis yang masuk yaitu, dilihat dari gejala yang tampak seperti gejala otot, gejala perut, gejala kulit, gejala mata dan gejala mirip flu. Data pasien yang digunakan tersebut adalah data tahun 2000 -2010.

  3. Metode yang akan digunakan untuk mengenali gejala hepatitis adalah metode Naïve Bayesian Classification.

  4. Software yang digunakan adalah Matlab R2010a.

1.5 Metodologi Penelitian

  Dalam penyelesaian tugas akhir yang berjudul Sistem Diagnosa Penyakit Hepatitis Dengan Metode Naïve Bayesian Classification ini, akan ditempuh langkah-langkah kerja sebagai berikut:

  1. Studi Pustaka

  a. Penelitian pustaka, yaitu dengan mempelajari hal -hal yang berkaitan dengan Data Mining metode Naive Bayesian, dengan mengumpulkan dan mempelajari informasi dari buku -buku, artikel dan website internet.

  b. Interview, yaitu dengan melakukan konsultasi atau tanya jawab dengan orang-orang yang memiliki pengetahuan dan wawasan yang berhubungan dengan topik tugas akhir ini.

  c. Penelitian dan pengumpulan data pasien penyakit hepatitis di rekam medis Rumah Sakit Panti Rapih Yogyakarta.

  2. Teknik Penambangan Data Metodologi yang kedua dilakukan dengan teknik penambangan data, yang langkah-langkahnya seperti dibawah ini: a. Pembersihan data yaitu membersihkan dan menyiapkan data dengan cara menghilangkan noise dan data yang tidak konsisten .

  b. Integrasi data yaitu proses menggabungkan data dari bermacam - macam feature atau atribut gejala ke dalam satu tempat penyimpanan data yang koheren.

  c. Seleksi data yaitu proses seleksi data, dimana dipilih atribut-atribut yang relevan untuk dilakukan penambangan d ata. Atribut yang tidak relevan akan dibuang karena atribut yang diharapkan adalah atribut yang bersifat independen.

  d. Transformasi data yaitu data ditransformasikan ke dalam bentuk yang tepat untuk di proses penambangan . Data mentah hepatitis yang semula merupakan data berbentuk file teks terdiri gejala -gejala yang terdiagnosa berupa gejala otot, gejala perut, gejala kulit, gejala mata dan gejala mirip flu. Gejala dari tiap pasien tersebut per gejalanya di konversi menjadi nilai 0 sampai 1. Konversi dari seb uah file yang berbentuk teks menjadi nilai 0 -1 ini disebut binerisasi. Hasil binerisasi adalah berupa vektor baris yang bernilai 0 -1 untuk tiap elemennya.

  e. Penambangan data yaitu mengaplikasikan metode yang tepat untuk mengekstrak pola data, yaitu dengan m enggunakan metode Naive

  Bayesian.

  f. Evaluasi pola yaitu mengidentifikasi pola yang diperoleh dari proses penambangan data.

1.6 Sistematika Penulisan

  Sistematika penulisan dalam tugas akhir yang berjudul Sistem Diagnosa Penyakit Hepatitis Dengan Metode Naïve Bayesian Classification ini dijelaskan sebagai berikut :

  Bab I. Pendahuluan Pada Bab ini dijelaskan mengenai latar belakang masalah yang mendorong dibangunnya sistem ini, rumusan masalah, tujuan , batasan masalah ,metodologi penelitian yang dilakukan dan sistematika penulisan yang digunakan dalam menyelesaikan laporan tugas akhir .

  Bab II. Landasan Teori Pada Bab ini berisi tentang Landasan Teori yang berfungsi sebagai sumber dalam memahami permasalahan yang berkaitan dengan Penambangan Data (Data

  

Mining), metode Naïve Bayesian Classification , teori-teori yang berhubungan dan

  yang diperlukan dalam pembuatan sistem informasi , yaitu mengenai jenis penyakit hepatitis, dan gejala -gejalanya khususnya gejala dan jenis penyakit hepatitis A, B, dan C.

  Bab III. Desain Sistem Pada bagian ini digambarkan komponen dan algoritma yang digunakan dalam penelitian. Bab IV. Implementasi dan Analisa Hasil Pada bagian ini digambarkan penerapan rancangan yang dibuat dalam suatu program, hasil implementasi serta analisis dari hasil implementasi.

  Bab V. Penutup Pada Bab ini berisi kesimpulan-kesimpulan yang merupakan rangkaian dari hasil analisis kinerja pada bab sebelumnya dan saran untuk pengembangan lebih lanjut pada penelitian tugas akhir ini

BAB II. LANDASAN TEORI Pada bab ini akan dibahas mengenai teori -teori yang digunakan untuk

  mendukung penulisan tugas akhir sistem diagnosa penyakit hepatitis dengan metode Naive Bayesian classification. Teori-teori yang akan dibahas mencakup pengertian dasar data mining, metode Naive Bayesian Classification, dan pengertian hepatitis serta jenis -jenisnya yang mencakup hepatitis A, B dan C.

2.1 Data Mining

  Data Mining yang merupakan bagian dari Knowledge Discovery in

Databases (KDD), adalah kegiatan yang meliputi pengumpulan, pemak aian data

  historis untuk menemukan keteraturan, pola atau hubungan dalam sekumpulan data berukuran besar (Budi Santosa, 2006).

  Penambangan data (data mining) didefinisikan sebagai proses pengambilan atau menambang informasi/pengetahuan dari sekumpulan data dengan jumlah yang sangat besar. Secara fungsional, penambangan data adalah proses dari pengumpulan informasi penting dari sejumlah data yang besar yang tersimpan di basis data, gudang data, atau tempat penyimpanan informasi lainnya (Han&Kamber, 2006).

  Secara sederhana, penambangan data merupakan langkah-langkah dalam menemukan pengetahuan (Han&Kamber, 2006). Proses KDD itu akan ditunjukkan pada gambar 2.1 dan terdiri dari urutan -urutan sebagai berikut :

Gambar 2.1 Langkah Penambangan Data(Data Mining)

  Menurut : Han&Kamber(2006)

  1. Pembersihan Data (data cleaning) Pada langkah ini noise dan data yang tidak konsisten akan dihapus.

  Langkah pertama yang dilakukan dalam proses pembersihan data (data cleaning atau disebut juga data cleansing) adalah deteksi ketidakcocokan.

  Ketidakcocokan tersebut dapat disebabkan oleh beberapa faktor antara lain gejala masukan data yang kurang lengkap sehingga menyebabkan munculnya kesalahan, yang mana petugas rumah sakit kurang memperhatikan kelengkapan dalam memasukkan data pasien.

  2. Integrasi data(data integration) Pada langkah ini akan dilakukan penggabungan data. Data dari bermacam - macam tempat penyimpanan data akan digabungkan ke dalam satu tempat penyimpanan data yang sesuai. Saat melakukan integrasi data, hal yang perlu dipertimbangkan secara khusus adalah masalah struktur data.

  Struktur data yang perlu diperhatikan ketika mencocokkan atribut dari satu gejala ke gejala data lain.

  3. Seleksi data (data selection) Data yang relevan akan diambil dari bas is data untuk dianalisis. Pada langkah ini akan dilakukan analisis korelasi untuk analisis gejala. Atribut - atribut data akan dicek apakah relevan untuk dilakukan penambangan data. Atribut yang tidak relevan tersebut tidak akan digunakan. Atribut yang diharapkan adalah atribut yang bersifat independen. Artinya, antara atribut satu dengan atribut yang lain tidak saling mempengaruhi.

  4. Transformasi data (data transformation) Data ditransformasikan ke dalam bentuk yang tepat untuk ditambang.

  Yang termasuk dalam langkah transformasi data adalah penghalusan

  (smooting) yaitu menghilangkan noise yang ada pada data, pengumpulan (aggregation) yaitu mengaplikasikan kesimpulan pada data, generalisasi

  (generalization) yaitu mengganti data level r endah menjadi data level tinggi, (normalization) yaitu mengemas data atribut ke d alam skala kecil.

  Dan konstruksi atribut (attribute construction/feature construction ) yaitu mengkonstruksi dan menambahkan atribut baru untuk membantu proses penambangan. Selanjutnya dilakukan binerisa si yaitu mengkonversi dari sebuah file yang berbentuk teks menjadi nilai 0 -1. Hasil binerisasi adalah berupa vektor baris yang bernilai 0 -1 untuk tiap elemennya.

  5. Penambangan data (data mining) Langkah ini adalah langkah yang penting di mana akan di aplikas ikan metode yang tepat untuk mengekstrak pola data.

  6. Evaluasi pola (pattern evaluation) Langkah ini berguna untuk mengidentifikasi pola yang benar dan menarik.

  Pola tersebut akan direpresentasikan dalam bentuk pengetahuan berdasarkan beberapa pengukuran yan g penting.

  7. Presentasi pengetahuan(knowledge presentation) Pada langkah ini informasi yang sudah ditambang akan divisualisasikan dan direpresentasikan kepada pengguna.

  Pada langkah 1 sampai dengan langkah 4 merupakan langkah praproses data

  

(preprocessing) di mana data akan disiapkan terlebih dahulu sel anjutnya

  dilakukan penambangan. Sebagai catatan, dalam urutan pro ses diatas, penambangan data hanya terdapat satu langkah. Meskipun penambangan data hanya terdapat dalam satu langkah, penambangan data merupakan langkah yang penting karena bisa menemukan pola tersembuny i yang nantinya akan dievaluasi.

  Secara umum penambangan data adalah sekumpulan aktifitas yang dilakukan untuk menggali pengetahuan dari sekumpulan data agar didapatkan model yang berarti (Jiawei Han dan Micheline Kamber, 2006). Dua tujuan utama yang diperoleh dari penambangan data yaitu menjelaskan (description) dan memprediksi (prediction). Oleh karena itu ada kemungkinan aktifitas penambangan data diarahkan ke dalam salah satu dari dua kategori berikut: a. Data mining yang bersifat prediksi menghasilkan pemodelan dari sistem yang diuraikan oleh keadaan data.

  b. Data mining yang bersifat deskripsi menghasilkan informasi yang baru dan bersifat penting berdasarkan pada data yang tersedia.

  Tujuan-tujuan tersebut dapat tercapai dengan penggunaan teknik data mining. Berdasarkan tugas data mining, metode -metode yang biasa dipakai terdiri atas:

  a. Classification adalah proses penemuan model yang bersifat prediksi dan menggolongkan data item ke dalam beberapa kelas yang sudah dikenal.

  b. Regression adalah proses penemuan model yang bersifat prediksi dan mampu memetakan data item dengan sebuah angka nyata ( real value) dari nilai variabel ramalan.

  c. Clustering adalah suatu tugas deskriptif umum yang dipakai orang untuk mencari serta mengidentifikasi suatu himpunan yang terbatas untuk cluster kategorial sehingga dapat menguraikan data. d. Summarization adalah suatu tugas deskriptif tambahan yang melibatkan metode untuk penemuan sebuah uraian ringkas dari keseluruhan atau sebagian data.

  e. Dependecy Modeling adalah menemukan perubahan dan penyimpangan yang paling penting dalam data.

2.2 Metode Naïve Bayesian Classification

2.2.1 Teorema Bayes

  Teorema Bayesian mengungkapkan bahwa hasil probabilitas posterior sebanding dengan hasil perkalian antara likelihood dengan probabilitas prior.

  Probabilitas posterior adalah probabilitas bersyarat dari sebuah hipotesis jika diberikan data. Likelihood adalah probabilitas bersyarat dari sebuah data jika diberikan hipotesis. Probabilitas prior adalah prob abilitas bahwa hipotesis itu benar sebelum data terlihat. Pada saat klasifikasi, pendekatan Bayes akan menghasilkan label kategori yang paling tinggi probabilitasnya (v ) dengan

  MAP , …. ,a masukan atribut (a ,a ), (Budi Santosa, 2006).

  1 2 n

, …. ,a

  v (v | a ,a ) (2.1)

  MAP = arg max vj €V P j

  1

2 n

  Teorema Bayes menyatakan :

  P ( D | h ) P ( h )

   (2.2)

  P ( h | D ) P ( D )

  atau dengan kata lain persamaan diatas dapat digambarkan sebagai:

  Posterior=

  (2.3)  D adalah himpunan training data.

   P(h | D) adalah posterior probability, Contoh : kondisi kemungkinan dari hipotesis h setelah training data (evidence) muncul.

   P(h) adalah prior probability dari hipotesis h. Kuantitas non-klassikal ini sering ditemukan dengan melihat data dari masa lampau (atau dalam training data).

   P(D) adalah prior probability dari training data D. Kuantitas ini sering     berupa nilai yang konstan, P ( D ) P ( D | h ) P ( h ) P ( D | )

  h P ( h ) ,

  dimana dapat dikomputasi dengan mudah ketika kita menemukan bahwa dan adalah 1.

  P ( h | D ) P ( h | D )

  • P(D|h) adalah probabilitas dari D yang berasal dari hipotesis h, dan biasa disebut dengan likelihood. Kuantitas ini mudah untuk dihitung selama memberikan nilai 1 ketika D dan h konsisten, dan memberikan nilai 0 ketika tidak konsisten.

  Bayesian Theorem adalah metode classifier yang berdasarkan probabilitas

  dan Teorema Bayesian dengan asumsi bahwa setiap variabel bersifat bebas (independence). Dengan kata lain, Naïve Bayesian Classifier mengansumsikan bahwa keberadaan sebuah feature (atribut) tidak ada kaitannya dengan keberadaan

  feature (atribut) yang lain.

  menggunakan teorema Bayes ini, persamaan (2.1) ini dapat ditulis: v = (2.4)

  MAP = arg max vj €V

  P(a ,a ,….a ) nilainya konstan untuk semua v sehingga persamaan ini

  1 2 n j

  dapat ditulis sebagai berikut:

  , …. ,a

  v (a ,a | v ) P(v ) (2.5)

  MAP = arg max vj€V P

  1

2 n j j

Naïve Bayes didasarkan pada asumsi penyederhanaan bahwa nilai atribut secara conditional saling bebas jika diberikan nilai output. Atau dengan kata lain.

  diberikan nilai output, probabilitas mengamati secara bersama adalah produk dari

  

, …

  probabilitas individu atau P( a , a , a ,a | v ) = ∏ P( a | v ). memasukan

  1

  2 3 n j i 1 j

  persamaan ini akan didapat perdekatan yang dipakai dalam klasifier N aïve Bayes (Budi Santosa, 2007).

  , …. ,a

(a ,a | v ) = ∏ P( a | v ) (2.6)

P

  1 2 n j i 1 j

  substitusi persamaan ini dengan persa maan 2.5 akan menghasilkan:

  

v = arg max P( v ) ∏ P( a | v ) (2.7)

MAP vj€V j i 1 j

  akurasi dihitung dengan cara:

  

Akurasi = x 100% (2.8)

2.2.2 Naive Bayesian

  Dengan asumsi Naive Bayesian dimana a tribut – atribut dari training data dianggap terpisah dan independen maka rumus 2.1 berubah menjadi seperti dibawah ini.

  P ( D | h ) P ( D | h )... P ( D | h ) P ( h )

  1 2 n

  

  P ( h | D )

  (2.9)

  P ( D )

   D adalah himpunan training data  h adalah hipotesis  P(h | D) adalah probabilitas dari hipotesis h setelah evidence D muncul atau sering disebut posterior probability.

   P(h) adalah probabilitas dari hipotesis h sebelum evidence D muncul atau sering disebut prior probability.

   P(D) adalah probabilitas dari evidence D, dimana P(D) bernilai irrelevant atau sama dengan kelas yang lain.

  |h), P(D |h),P(D |h) adalah probabilitas dari setiap D ,D ,D untuk

  1 2 n

  1 2 n

   P(D hipotesis h biasa disebut dengan likelihood.

  Oleh karena P(D) bernilai irrelevant maka hanya persamaan

  

P ( h | D ) P ( D | h ) P ( D | H )... P ( D | h ) P ( D ) yang perlu digunakan untuk mencari

  1 2 n suatu peluang.

  Jika ada P(D |h) yang memiliki nilai = 0, maka P(h | D) = 0. Untuk

  n

  mencegah hal itu maka dilakukan penambahan nilai 1 ke setiap evidence dalam perhitungan sehingga probabilitas tidak akan bernilai 0. Langkah ini sering disebut Laplace Estimator.

  Jika dalam memprediksi ada evidence pada test data yang tidak diketahui, maka atribut itu tidak perlu dimasukan dalam proses perhitungan prediksi.

2.2.3 Naive Bayes Algorithm (Classification)

  Classification adalah proses untuk menemukan model atau fungsi yang

  menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan “jika -maka”. Dalam teknik classification terdapat beberapa algoritma yang bisa digunakan antara lain Decision Tree, Naive Bayes,

  Adaptive Naive Bayes, Logistic Regression dan Support Vector Machine.

  Bayesian Classification didasarkan pada Teorema Bayesian. Konsep dasar

  teori bayes itu pada dasarnya adalah peluang bersyarat P(H|X). Dimana dalam Bayesian H adalah posterior dan X adalah prior. Prior adalah pengetahuan tentang karakteristik suatu atribut (bisa diartikan sebagai pengalaman di masa lalu atas suatu atribut atau juga bisa berdasarka n teori), sedangkan posterior adalah karakteristik yang akan kita duga pada kejadian yang akan datang. Teorema Bayesian berguna untuk melakukan kalkulasi probabilitas posterior, P(H|X), dari P(H), dan P(X) dan P(X|H). Teori Bayes adalah sebagai berikut:

  P(H|X)=

  (2.10) Proses classification biasanya dibagi menjadi dua fase: learning dan test.

  Pada fase learning, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraa n. Kemudian pada fase test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari model tersebut. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang belum diketahui.

Gambar 2.2 Ilustrasi Pemodelan teknik Classification untuk mengukur akurasi

  Sumber: Han & Kamber (2006)

  2.3 K-fold Cross Validation Cross Validation adalah salah satu metode yang bisa digunakan untuk

  mengukur kinerja dari sebuah model prediktif. Dalam k-fold Cross

  

Validation,data akan dipartisi secara acak ke dalam k partisi, D , D , … D ,

  1 2 k

  masing-masing D mempunyai jumlah yang sama. Pada iterasi ke – i partisi D

  i

  digunakan sebagai data uji, sedangkan sisa partisi digunakan sebagai data pelatihan. Maka dari itu pada iterasi pertama, D digunakan sebagai data uji dan

  1 , ….D

D , D digunakan sebagai data pelatihan. Pada iterasi kedua, D digunakan

  2 3 k

  2 , ….D

  sebagai data uji, sedangakan D , D digunakan sebagai data pelatihan. Pada

  1 3 k , …D

  iterasi ketiga, D digunakan sebagai data uji, sedangkan D , D digunakan

  3

  1 2 k

  sebagai data pelatihan dan seterusnya. Setiap sample D, hanya digunakan sekali sebagai data uji dan berkali-kali sebagai data pelatihan (Han&Kamber, 2006).

  2.4 Penyakit Hepatitis

  Penyakit hepatitis adalah penyak it yang disebabkan oleh beberapa jenis virus yang menyerang dan menyebabkan peradangan serta merusak sel -sel organ hati manusia. Hepatitis dikategorikan dalam beberapa golongan, diantaranya hepatitis A, B, C, D, E, F dan G. di Indonesia penderita penyakit Hepatitis umumnya cenderung lebih banyak mengalami golongan hepatitis B dan hepatitis

  C. Namun dalam Tugas Akhir ini penulis hanya membahas pada fokus penyakit Hepatitis A, B, dan C.

  Istilah "Hepatitis" dipakai untuk semua jenis peradangan pada hati (liv er). Penyebabnya dapat berbagai macam, mulai dari virus sampai dengan obat -obatan, termasuk obat tradisional. Virus hepatitis juga ada beberapa jenis, hepatitis A, hepatitis B, C, D, E, F dan G. Manifestasi penyakit hepatitis akibat virus bisa akut (hepatitis A) dapat pula hepatitis kronik ( hepatitis B, C) dan adapula yang kemudian menjadi kanker hati (Marzuki Suryaatmadja, 2010).

  Penyakit hepatitis yang diambil oleh penulis terdiri atas hepatitis A, B dan

  C. Untuk lebih jelasnya diuraikan sebagai berikut:

  1. Penyakit Hepatitis A Hepatitis A adalah golongan penyakit Hepatitis yang ringan dan jarang sekali menyebabkan kematian, Virus hepatitis A (VHA=Virus Hepatitis A) penyebarannya melalui kotoran/tinja penderita yang penularannya melalui makanan dan minuman yang terkomtaminasi, bukan melalui aktivitas se ksual atau melalui darah. Penyakit Hepatitis A memiliki masa inkubasi 2 sampai 6 minggu sejak penularan terjadi, barulah kemudian penderita menunjukkan beberapa tanda dan gejala terserang penyakit Hepatitis A.

  Untuk gejala penyakit Hepatitis A diantaranya yaitu pada minggu pertama, individu yang dijangkiiti akan mengalami sakit seperti kuning, keletihan, demam, hilang selera makan, muntah -muntah, pusing dan kencing yang berwarna hitam pekat. Demam yang terjadi adalah demam yang terus menerus, tidak seperti demam yang lainnya yaitu demam berdarah, TBC, thpyus, dll .