Klasifikasi diagnosa diabetes mellitus dengan penerapan metode Naive Bayesian Clasifier.

(1)

ABSTRAK

Kesehatan manusia bisa sangat bergantung dari banyak faktor, antara lain karena faktor lingkungan tempat tinggal ataupun karena faktor keturunan/genetikal. Kesehatan inilah yang menjadi kekuatan utama manusia untuk melaksanakan aktivitas hidupnya. Salah satu penyakit yang menjadi mesin pembunuh adalah Diabetes Mellitus(DM). Pemeriksaan kesehatan yang berkaitan dengan DM dalam dunia medis dapat dilakukan dengan cara pendiagnosaan penyakit yang menghasilkan data hasil uji laboratorium dan rekam medis gejala sakit. Guna menekan angka kematian dari penyakit DM ini, para pakar kesehatan harus melakukan pendiagnosaan penyakit sedini mungkin.

DM yang banyak berasal dari penyakit keturunan nyatanya memiliki banyak cabang penyakitnya. Pengklasifikasian DM dan terhadap gejala lain yang timbul dari DM ini ternyata dapat dilakukan secara otomatis menggunakan cabang ilmu teknologi informasi yaitu dengan pemanfaatan suatu metode kerja penambangan data (data mining) dengan penerapan metode Naive Bayesian Clasifier. Metode Naive Bayesian Clasifier akan menghitung nilai probabilitas untuk setiap kejadian dari atribut target pada setiap kasus melalui penghitungan dari data rekam medis Diabetes Mellitus tersebut.

Keluaran dari sistem ini adalah suatu identifikasi/diagnosa tentang prediksi penyakit DM seseorang yaitu klasifikasi DM yang diderita, murni DM atau ada penyakit lain yang diderita. Penelitian ini menggunakan data sebanyak 258 data dan menerapkan nilai fold sebanyak 3, 5, 7, dan 9. Hasil pengujian yang dilakukan sebanyak 4 kali dengan rata-rata tertinggi sebesar 83.89%.

Kata Kunci : Diabetes Mellitus, Klasifikasi, Healthcare Informatics, Naive Bayesian Clasifier


(2)

ABSTRACT

The health of human beings can be so depended on many factors, such as because of the factor of circumstances or because of the factor of genetics. The health becomes the human’s main power to do their lives’ activities. One of diseases which becomes a killer machine is Diabetes Mellitus (DM). Medical checkup related to DM in medical world can be conducted by the diagnosis of the disease which results laboratory examination data and the ill symptoms medical record. In order to push the mortal rate from this DM disease, health experts must conduct the diagnosis of the disease from the early beginning stage.

DM which is originated from inheritance disease in fact has many branches. The classification of DM and toward other symptoms which arises from it, actually can be conducted automatically using the branch of information and technology science i.e. by the use of data mining working method and the application of Naïve Bayesian Classifier methods. Naïve Bayesian Classifier method would count the probability value for every event from attributive target on every case by means of the counting from Diabetes Mellitus medical data record.

The output from this system was an identification/diagnosis about the prediction of DM disease to a subject i.e. the classification of DM possessed by the patient, it was purely DM or any other diseased possessed. The research used data sum up to 258 data and applied fold value sum up to 3, 5, 7 and 9. The result of the examination conducted summed to 12 times with the highest average was 83.89 %. Key words : Diabetes Mellitus, classification, Healthcare Informatics, Naive Bayesian Clasifier


(3)

i

KLASIFIKASI DIAGNOSA DIABETES MELLITUS

DENGAN PENERAPAN METODE NAÏVE BAYESIAN CLASIFIER

SKRIPSI

Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer

Program Studi Teknik Informatika

Oleh :

Thomas Wiga Heru Prasetya (125314074)

Teknik Informatika Fakultas Sains Dan Teknologi Universitas Sanata Dharma Yogyakarta


(4)

ii

Naive Bayesian Classifier Method Implementation for Diabetes

Melitus Diagnose Classification

Thesis

Present as Partial Fullfillment of the Requirements To Obtain Sarjana Komputer Degree In Departement of Informatics Engineering

By :

Thomas Wiga Heru Prasetya (125314074)

INFORMATICS ENGINEERING STUDY PROGRAM DEPARTMENT OF INFORMATICS ENGINEERING

FACULTY OF SCIENCE AND TECNOLOGY SANATA DHARMA UNIVERSITY

YOGYAKARTA 2017


(5)

iii


(6)

iv


(7)

v MOTO

Terang itu bercahaya di dalam kegelapan dan kegelapan itu tidak menguasainya.

( Yohanes 1:5)

Your Future is Created by What Yo Do Today, Not Tomorrow!

Musuh yang Paling Berbahaya adalah Penakut dan Bimbang. Teman yang Paling Setia adalah Keberanian dan Keyakinan Untuk Mau Maju.


(8)

vi

HALAMAN PERSEMBAHAN

Kupersembahkan kripsi ini untuk :

1. Tuhan Yesus Kristus yang senantiasa memberikan berkat

karunia-Nya.

2. Orangtuaku, Ignatius Sukemi dan Anna Supariyem yang tak

lelah berjuang memberikan dukungan moral maupun materiil sampai saat ini dengan penuh kasih sayang dan cinta kasihnya.

3. Kakakku Dominikus Nanang Purwanto, Christine Herninta,

Stevanus Widuri Nursusanto dan Andi Fransisca Natasha yang selalu memberikan motivasi, semangat dan doa.

4. Angela Krista Juliandari yang senantiasa menemani dan

selalu memberikan semangat serta doa untuk menyelesaikan skripsi ini.

5. Para sahabatku yang saling memberi semangat untuk


(9)

vii


(10)

viii

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS


(11)

ix ABSTRAK

Kesehatan manusia bisa sangat bergantung dari banyak faktor, antara lain karena faktor lingkungan tempat tinggal ataupun karena faktor keturunan/genetikal. Kesehatan inilah yang menjadi kekuatan utama manusia untuk melaksanakan aktivitas hidupnya. Salah satu penyakit yang menjadi mesin pembunuh adalah Diabetes Mellitus(DM). Pemeriksaan kesehatan yang berkaitan dengan DM dalam dunia medis dapat dilakukan dengan cara pendiagnosaan penyakit yang menghasilkan data hasil uji laboratorium dan rekam medis gejala sakit. Guna menekan angka kematian dari penyakit DM ini, para pakar kesehatan harus melakukan pendiagnosaan penyakit sedini mungkin.

DM yang banyak berasal dari penyakit keturunan nyatanya memiliki banyak cabang penyakitnya. Pengklasifikasian DM dan terhadap gejala lain yang timbul dari DM ini ternyata dapat dilakukan secara otomatis menggunakan cabang ilmu teknologi informasi yaitu dengan pemanfaatan suatu metode kerja penambangan data (data mining) dengan penerapan metode Naive Bayesian Clasifier. Metode Naive Bayesian Clasifier akan menghitung nilai probabilitas untuk setiap kejadian dari atribut target pada setiap kasus melalui penghitungan dari data rekam medis Diabetes Mellitus tersebut.

Keluaran dari sistem ini adalah suatu identifikasi/diagnosa tentang prediksi penyakit DM seseorang yaitu klasifikasi DM yang diderita, murni DM atau ada penyakit lain yang diderita. Penelitian ini menggunakan data sebanyak 258 data dan menerapkan nilai fold sebanyak 3, 5, 7, dan 9. Hasil pengujian yang dilakukan sebanyak 4 kali dengan rata-rata tertinggi sebesar 83.89%.

Kata Kunci : Diabetes Mellitus, Klasifikasi, Healthcare Informatics, Naive Bayesian Clasifier


(12)

x

ABSTRACT

The health of human beings can be so depended on many factors, such as because of the factor of circumstances or because of the factor of genetics. The

health becomes the human’s main power to do their lives’ activities. One of diseases

which becomes a killer machine is Diabetes Mellitus (DM). Medical checkup related to DM in medical world can be conducted by the diagnosis of the disease which results laboratory examination data and the ill symptoms medical record. In order to push the mortal rate from this DM disease, health experts must conduct the diagnosis of the disease from the early beginning stage.

DM which is originated from inheritance disease in fact has many branches. The classification of DM and toward other symptoms which arises from it, actually can be conducted automatically using the branch of information and technology science i.e. by the use of data mining working method and the application of Naïve Bayesian Classifier methods. Naïve Bayesian Classifier method would count the probability value for every event from attributive target on every case by means of the counting from Diabetes Mellitus medical data record.

The output from this system was an identification/diagnosis about the prediction of DM disease to a subject i.e. the classification of DM possessed by the patient, it was purely DM or any other diseased possessed. The research used data sum up to 258 data and applied fold value sum up to 3, 5, 7 and 9. The result of the examination conducted summed to 12 times with the highest average was 83.89 %.

Key words : Diabetes Mellitus, classification, Healthcare Informatics, Naive Bayesian Clasifier


(13)

xi

KATA PENGANTAR

Puji dan syukur penulis panjatkan kepada Tuhan Yesus Kristus, yang telah memeberikan rahmat dan karunia yang berlimpah sehingga penulis dapat menyelesaikan tugas akhir yang berjudul Klasifikasi Diagnosa Diabetes Mellitus dengan Penerapan Metode Naive Bayesian Clasifier dengan baik. Sebagaimana disyaratkan dalam Kurikulum Program Studi Teknik Informatika (TI), Fakultas Sains dan Teknologi (FST), Universitas Sanata Dharma (USD) Yogyakarta.

Penulis menyadari bahwa pada saat penulisan dan pengerjaan tugas akhir ini penulis menyadari bahwa mendapatkan banyak sekali bantuan dari berbagai pihak, baik berupa dukungan, perhatian, kritik dan saran, serta doa yang sangat dibutuhkan penulis guna kelancaran pengerjaan dan mendapatkan hasil yang baik. Pada kesempatan ini secara khusus penulis akan menyampaikan terimakasih kepada :

1. Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D. selaku Dekan Fakultas Sains dan Teknologi Universitas Sanata Dharma Yogyakarta

2. Dr. Anastasia Rita Widiarti, M.Kom. selaku Ketua Program Studi Teknik Informatika yang selalu memberikan dukungan dan perhartian serta saran kepada mahasiswa tugas akhir dalam pengerjaan tugas akhir.

3. Dr. Cyprianus Kuntoro Adi, SJ., M.A., M.Sc. selaku dosen pembimbing akademik dan pembimbing tugas akhir yang telah dengan sabar dan penuh perhatian membimbing penulis dalam penyususnan tugas akhir mulai dari awal pengerjaan, pertengahan dan pada akhir penulisan.

4. Segenap dosen Program Studi Teknik Informatika Sanata Dharma yang dengan penuh dedikasi mendidik, membimbing, memberikan dukungan, bantuan, dan arahan yang sangat bermanfaat dari awal kuliah sampai selesai.

5. Staff personalia, rekam medis, dan seluruh staff yang berada di Rumah Sakit Panti Nugroho, Pakem, Yogyakarta yang telah memberikan waktu dan kesempatannya untuk melakukan penelitian serta pengambilan data rekam medis tentang diabetes mellitus.

6. Kedua orang tua, Bapak Ignatius Sukemi dan Ibu Anna Supariyem yang telah memberikan cinta, doa, dan dukungan baik secara moral maupun material bagi penulis selama menjalani masa perkuliahan sampai selesai ini.


(14)

xii

7. Kakakku, Dominikus Nanang Purwanto, Stevanus Widuri Nursusanto, Christine Herninta, dan Andi Fransisca Natasha, keponakanku Gabriel Alfa Tanaputra serta adik-adikku Wanda, Aden, Enggar, Yora, dan Varel yang sudah memberikan dukungan, doa, dan perhatian dalam menyelesaikan skripsi ini.

8. Engelbert Eric dan Laurencius Echo yang selalu memberikan masukan dan saran dalam pengerjaan skripsi ini.

9. Angela Krista Juliandari yang tida henti memberikan support, doa dan motivasi pada proses pengerjaan skripsi.

10.Selutuh anggota Keluarga Mahasiswa/i dan Pelajar Katolik Sumatra bagian Selatan (KMPKS) , paduan suara Senandung Nafiri dan para Frater-frater serta Romo SCJ yang telah memberikan doa, semangat, motivasi dan tempat berkeluh kesah dari awal proses perkuliahan sampai disaat penulis mengalami kesusahan pada pengerjaan skripsi.

11.Teman-teman mahasiswa Teknik Informtika 2012 Alvin, Alex, Anjar, Cahyo, Danil, Eva, Nada, Hugo, Henri, Maryadi, Wisnu, Xave, Yosua, Dhesa dan yang tidak dapat disebutkan satu per satu. Terimakasih atas dinamika belajar yang pernah dimulai dari awal perkuliahan hingga penulis selesai menyelesaikan tugas akhir ini.

12.Egidius Gala Pratama, Anjar Nugraha Jati, Yuhacim Tito, Boni, Dona, Sri Lestari, Dingo, Luna, Misti, dan Choco yang selalu memberikan inspirasi dan semangat di rumah tinggal kepada penulis dalam perkuliahan hingga penyelesaian tugas akhir ini.

13.Teman Genus da Music : Dolok, Novan, Teki, Bima, Yoga, Danil, Gilang, Rino, Puput, Rani, dan Nindi yang selalu memberikan support dan semangat dalam menyelesaikan skripsi ini.

Penulis juga menyadari bahawa banyak pihak lainnya yang berperan dan mendukung dalam keseluruhan proses pendidikan di Universitas Sanata Dharma Yogyakarta in. Tanpa mengurangi rasa hormat kepada seluruh pihak tersebut namanya tidak sempat disebutkan satu per satu di dalam tulisan ini, sekali lagi penulis mengucapkan terimakasih.


(15)

(16)

xiv

DAFTAR ISI

HALAMAN PERSETUJUAN ... iii

HALAMAN PENGESAHAN SKRIPSI ... iv

MOTO ... v

HALAMAN PERSEMBAHAN ... vi

PERNYATAAN KEASLIAN KARYA ... vii

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH viii ABSTRAK ... ix

ABSTRACT ... x

KATA PENGANTAR ... xi

DAFTAR ISI ... xiv

DAFTAR GAMBAR ... xvii

DAFTAR TABEL ... xviii

DAFTAR LAMPIRAN ... xix

BAB I ... 1

1.1. Latar Belakang ... 1

1.2. Rumusan Masalah ... 2

1.3. Tujuan ... 3

1.4. Batasan Masalah ... 3

1.5. Metodologi Penelitian ... 3

1.6. Sistematika Pembahasan ... 4

BAB II ... 6

2.1. Pengertian Diabetes Mellitus ... 6

2.2. Tipe Diabetes Mellitus ... 8

2.3. Klasifikasi Diabetes Milletus tipe 2 ... 9

2.4. Diagnosis dan Pemeriksaan Diabetes Milletus ... 10

2.5. Teori Penambangan Data ... 11


(17)

xv

2.5.2. Proses Penambangan Data ... 11

2.6. Generalisasi Data ... 13

2.6.2. Diskretisasi pada Naive Bayes Clasifier ... 14

2.7. Pengelompokan pada Data Mining ... 15

2.8. Teorema Naive Bayesian ... 17

2.8.1. Pengertian Teorema Bayesian ... 17

2.8.2. Naive Bayesian Classifier ... 18

2.8.3. Evaluasi/Validasi Data ... 19

2.8.4. Akurasi Klasifikasi (Confution Matrix) ... 20

BAB III ... 22

3.1. Data Penelitian ... 22

3.1.1. Data Diabetes ... 22

3.1.2. Skenario Pengambilan Data ... 26

3.2. Analisa Pengolahan Data ... 27

3.2.1. Seleksi Data dan Integrasi Data ... 27

3.2.2. Cleaning Data ... 27

3.2.3. Transformasi ... 28

3.2.4. Penerapan Teknik Mining ... 30

3.2.5. Evaluasi Data ... 37

3.3. Desain Pengujian ... 37

3.4. Spesifikasi Alat ... 40

3.4.1. Hardware ... 40

3.4.2. Software ... 40

BAB IV ... 41

4.1. Analisa Hasil Akurasi Klasifikasi ... 41

4.2. Kelebihan dan Kekurangan Sistem ... 43

4.2.1. Kelebihan ... 43

4.2.2. Kekurangan ... 43

4.3. User Interface ... 44

4.3.1. Halaman Utama ... 44

4.3.2. Menu Import Data ... 44

4.3.3. Menu Proses Klasifikasi ... 45

4.3.4. Menu Grafik Data ... 46


(18)

xvi

4.3.6. Uji Data Tunggal ... 47

BAB V ... 48

5.1. Kesimpulan ... 48

5.2. Saran ... 49

DAFTAR PUSTAKA ... 50


(19)

xvii

DAFTAR GAMBAR

Gambar 2. 1 Data Mining dan proses KDD (Source: Fayyad, et.al., 1996) ... 11

Gambar 2. 2 Proses Diskretisasi... 13

Gambar 3. 1 Alur Pengolahan Data ... 27

Gambar 3. 2 Alur Kerja Naive Bayes ... 31

Gambar 3. 3 Alur Kerja Desain Pengujian ... 38

Gambar 4. 1 Grafik Perbandingan Akurasi ... 42

Gambar 4. 2 Halaman Sistem... 44

Gambar 4. 3 Menu Import dan Tabel Data ... 45

Gambar 4. 4 Menu Proses Klasifikasi ... 45

Gambar 4. 5 Menu Grafik Data... 46

Gambar 4. 6 Menu Confution Matrix dan Akurasi ... 46


(20)

xviii

DAFTAR TABEL

Tabel 2. 1 Tipe Diabetes Mellitus ... 8

Tabel 2. 2 Klasifikasi Diabetes Milletus tipe 2 ... 9

Tabel 2. 3 Cross Validation ... 20

Tabel 3. 1 Pengelompokan Data Mentah ... 22

Tabel 3. 2 Contoh EWD ... 28

Tabel 3. 3 Menghitung n ... 29

Tabel 3. 4 Tabel Interval ... 30

Tabel 3. 5 Hasil Diskretisasi ... 30

Tabel 3. 6 Contoh Tabel Training ... 31

Tabel 3. 7 Contoh Data Tabel Testing ... 35

Tabel 3. 8 Confution Matrix ... 37

Tabel 3. 9 Data dengan 3 Fold ... 38

Tabel 3. 10 Data dengan 5 Fold ... 38

Tabel 3. 11 Data dengan 7 Fold ... 39

Tabel 3. 12 Data dengan 9 Fold ... 39


(21)

xix

DAFTAR LAMPIRAN

Lampiran 1 TrainingData.fit ... 51

Lampiran 2 Listing preData ... 51

Lampiran 3 Listing Cleaning ... 52

Lampiran 4 Listing EWD ... 53

Lampiran 5 Listing freqTable ... 54

Lampiran 6 Listing kFold ... 55

Lampiran 7 Listing prediction (NBC) ... 56

Lampiran 8 Data Diabetes Mellitus ... 57


(22)

1 BAB I

PENDAHULUAN

Pada bab pertama ini akan dibahas tentang latar belakang, rumusan masalah, tujuan dan manfaat penelitian, batasan masalah, metodologi penelitian, dan sistematika penulisan.

1.1.Latar Belakang

Kerusakan pada kinerja organ tubuh manusia sangatlah merugikan dan menjadi sumber masalah terbesar dewasa ini. Salah satu penyakit yang menjadi pembunuh nomer satu di dunia adalah Diabetes Mellitus (DM). Diabetes Mellitus merupakan salah satu penyakit metabolik yang ditandai dengan hiperglikemia yang disebabkan karena adanya suatu gangguan sekresi insulin, dari kerja insulin ataupun keduanya. Hiperglekemia kronis pada Diabetes Mellitus akan menyebabkan banyak kerusakan pada oragan tubuh manusia, contohnya ginjal, mata, saraf, jantung dan pembuluh darah (ADA, 2012).

Diabetes Mellitus dibagi menjadi beberapa tipe. Diabetes Melitus tipe I biasanya menimbulkan gejala sebelum usia pasien 30 tahun, walaupun gejala dapat muncul kapan saja. Pasien Diabetes Melitus tipe I memerlukan insulin dari luar tubuhnya untuk kelangsungan hidupnya. Diabetes Melitus tipe II biasanya dialami saat pasien berusia 30 tahun atau lebih, dan pasien tidak tergantung dengan insulin dari luar tubuh, kecuali pada keadaan-keadaan tertentu. Tipe Diabetes Mellitus lainnya adalah Diabetes Melitus gestasional, yakni Diabetes Mellitus yang terjadi pada ibu hamil, yang disebabkan oleh gangguan toleransi glogosa pada pasien tersebut.

Penyakit ini merupakan penyakit yang menurun yang bisa di turunkan orang tua kepada anaknya, dan sangat disayangkan bila diusia yang masih muda sudah mengalami diabetes. Setiap tahunnya penderita diabetes di Indonesia terus bertambah. Seperti yang dilansir dari Tempo.co pada tahun 2014 penderita diabetes terkhusus di Indonesia melonjak 500 ribu orang dari tahun sebelumnya.


(23)

Akibat lonjakan tersebut, Indonesia mendapatkan peringkat ke lima dunia penderita diabetes. Tingkat kesadaran masyarakat Indonesia yang rendah juga menjadi salah satu unsur peyebab diabetes terus-menerus merenggut kehidupan masyarakat luas ini tanpa disadari.

Penentuan seseorang terserang Diabetes Mellitus amat sulit untuk ditentukan. Melalui rekam medis dan uji laboratorium akan menghasilkan data yang valid. Data yang diperoleh dari hasil rekam medis itu nantinya akan diberikan adanya cabang dari penyakit ini, atau murni hanya diabetes saja. Kurangnya penanganan dalam menentukan penyakit inilah yang mendorong dunia teknologi informasi, khususnya dengan penerapat ilmu mining akan ikut andil di dalamnya, agar mempermudah dunia medis khususnya dokter ahli menentukan suatu klasifikasi Diabetes Mellitus kepada pasien.

Guna mendapatkan klasifikasi tentang DM dan penelitian tentang klasifikasi dengan kasus ini, maka penulis mencoba mengaitkan kasus dengan menggunakan metode Naive Bayes Clasifier. Metode ini pertama kali dikenalkan oleh ilmuan Inggris bernama Thomas Bayes, yang mana metode ini berhasil untuk menjawab permasalahan-permasalahan di bidang probabilitas dan statistik, yang akan diterapkan untuk menjawab persoalan keterjangkitan Diabetes Mellitus di masyarakat dewasa ini.

1.2.Rumusan Masalah

Berdasarkan paparan latar belakang di atas, masalah yang dipecahkan dalam penelitian ini adalah:

a) Apakah metode Naive Bayesian Clasifier mampu secara otomatis melakukan klasifikasi dari diabetes yang diderita pasien secara tepat, dan bagaimana bentuk aplikasi untuk menentukannya?

b) Berapa besar tingkat akurasi klasifikasi dengan metode Naive Bayesian Clasifier, jika dipakai untuk pengklasifikasian tipe Diabetes Mellitus?


(24)

1.3.Tujuan

Sesuai dengan latar belakang dan rumusan masalah di atas, tujuan penelitian ini secara umum adalah membangun sistem tentang klasifikasi Diabetes Mellitus dengan penerapan metode Naive Bayesian Clasifier sehingga mampu mempermudah dunia medis guna menentukan klasifikasi seseorang terkena diabetes. Sementara itu, secara khusus tujuan penelitian ini dirinci sebagai berikut :

 Membangun sistem berdasarkan pendekatan Naive Bayesian yang secara otomatis mampu mengklasifikasikan jenis-jenis dari penyakit diabetes.

1.4.Batasan Masalah

1. Penelitian kerja berada di ranah kesehatan yang membahas Diabetes Mellitus.

2. Penelitian terhenti bila sudah dapat menentukan klasifikasi Diabetes Mellitus dan memberikan jawaban tipe Diabetes Mellitus.

3. Sistem yang dibangun hanya digunakan untuk membantu membuat suatu keputusan tentang jenis diabetes militus yang diderita, bukan untuk memberikan solusi (cara penanganan).

4. Memanfaatkan metode Naive Bayes Clasifier sebagai acuan kerja sistem.

1.5.Metodologi Penelitian

Metodologi penelitian dapat dilakukan dengan penerapan proses KDD (Knowledge Discovery in Databases) melalui beberapa tahapan sebagai berikut:

1. Pembersihan dan penghilangan noise pada data yang inkonsisten. 2. Melakukan integrasi data dari hasil riset yang dilakukan.

3. Menyeleksi dan mentransformasi data guna menentukan kwalitas data dari hasil mining, sehingga memudahkan untuk ditranformasi ke bentuk data mining.


(25)

4. Penerapan konsep data mining, yaitu dengan menerapkan konsep naive bayesian clasifier.

5. Evaluasi data hasil mining

Tahapan inilah yang akan menjadi tolok ukur keberhasilan penerapan mining dari data yang tersedia dan akan menjadi pengukuran akurasi untuk menentukan hipotesa data.

6. Presentasi pengetahuan.

Presentasi pengetahuan yang didapatkan dari hasil evaluasi yang dijadikan pola untuk menentukan tahapan akhir mining yang membantu guna menentukan keputusan dari analisa hasil sebelumnya.

1.6.Sistematika Pembahasan Bab I : Pendahuluan

Dalam bab ini berisi tentang pemahaman dasar tentang bagaimana latar belakang masalah, rumusan masalah, tujuan penelitian, batasan masalah, metodologi penelitian yang dipakai dan sistematika penulisan.

Bab II : Landasan Teori

Dalam bab II berisi tentang teori yang digunakan guna menunjang penelitian dan menjadi dasar atau sumber tertulis dari apa yang akan dilakukan, yaitu berupa pengertian dan klasifikasi dari Diabetes Mellitus, teori penambangan data, proses penambangan data, klasifikasi dan pengertian algoritma Naive Bayesian.

Bab III : Metodologi Penelitian

Bab III berisi tentang penerapan dari konsep di bab II untuk menganalisis dan merancang sistem sesuai dengan tahapan penyelesaian masalah dengan penerapan algoritma yang telah ditentukan.


(26)

Bab IV : Analisa Hasil Dan Implentasi Sistem

Dalam bab ini, akan berisi tentang implementasi dari sistem (komputerisasi sistem) berdasarkan hasil perancangan yang telah dibuat, dan akan dijelaskan tentang analisis sistem yang telah dibuat serta kelebihan dan kekurangan dari sistem.

Bab V : Penutup

Dalam bab ini berisi tentang kesimpulan dan juga saran-saran yang terkait dengan seluruh proses dan penulisan tugas akhir.


(27)

6 BAB II

LANDASAN TEORI

Pada bab ini, akan dijelaskan tentang pengertian Diabetes Mellitus, klasifikasi dari diabetes, diagnosa dan pemeriksaan diabetes, teori penambangan data, proses penambangan data, pengelompokan penambangan data dan teorema Naive Bayesian Clasifier.

2.1. Pengertian Diabetes Mellitus

World Health Organization (WHO) menyatakan bahwa Diabetes Mellitus tidak dapat didefinisikan secara singkat dan jelas namun dapat dikatakan sebagai kumpulan permasalahan yang kompleks tentang anatomi dan kimiawi akibat beberapa faktor dimana terdapat defisiensi insulin absolut (Purnamasari, 2009)

Diabetes Mellitus merupakan salah satu penyakit metabolik yang ditandai dengan hiperglikemia disebabkan karena adanya suatu gangguan sekresi insulin, dari kerja insulin ataupun keduanya. Hiperglekemia kronis pada Diabetes Mellitus akan menyebabkan banyak kerusakan pada oragan tubuh manusia, contohnya ginjal, mata, saraf, jantung dan pembuluh darah (American Diabetes Association/ADA, 2012).

Menurut Dorland Diabetes Mellitus (DM) adalah kelainan yang ditandai dengan ekskresi urine (pengeluaran air kencing) yang berlebihan. Selain itu, Diabetes mellitus atau penyakit kencing manis merupakan suatu penyakit menahun yang ditandai dengan kadar glukosa darah (gula darah) melebihi nilai normal yaitu kadar gula darah sewaktu sama atau lebih dari 200 mg/dl. Diagnosis khas DM pada umumnya yaitu polyuria (banyak kencing), polydipsia (banyak minum), polifagia (banyak makan), dan penurunan berat badan yang tidak jelas sebabnya (Misnadiarly,2006).

Hypercalcemia adalah peningkatan yang berlebihan pada kalsium dalam darah (Dorland). Menurut Dorland Hypertension adalah tingginya


(28)

tekanan darah arteri secara persisten, penyebabnya mungkin tidak diketahui (essential, idiopatic, primary) atau mungkin disebabkan oleh penyebab lain ( secondary). Ulcus atau ulcer adalah defek lokal atau ekskavasi permukaan suatu organ atau jarinagn, akibat pengelupasan jaringan radang yang nekrotik (Dorland edisi 28, 2002). Selain itu Ulcus atau ulcer merupakan penyakit lambung (penyakit maag) yang terjadi apabila dinding lambung rusak akibat mucus yang menyelimutinya rusak. Enzim yang dihasilkan didalam mucus memakan bagian-bagian kecil pada lapisan permukaan lambung. Neuropathy adalah gangguan fungsional atau perubahan patologis pada sistem saraf tepi, kadang-kadang penggunaannya dibatasi hanya untuk lesi noninflamasi sebagai lawan dari lesi neuritis (Dorland).

Diabetes dan hypercalcemia adalah kadar gula darah yang rendah. Kadar gula darah yang normal 60-100 mg% . Diabetes dan hypertension adalah penyakit yang saling berkaitan, karena penderita harus mengendalikan tekanan darah yang berpengaruh pula pada kadar gula yang meningkat. Diabetes dan ulcus adalah penyakit yang menyebabkan kaki luka tak kunjung sembuh. Diabetes dan neuropathy adalah beberapa bentuk klinis neuropati perifer (sensoris motorik, otonom, dan campuran) yang ditemukan pada penderita diabetes mellitus, jenis yang sering terjadi adalah polineuropati sensoris simetris kronik yang pertama kali menyerang saraf-saraf ekstremitas bawah dan sering sekali mengenai saraf otonom. Selain itu Diabetic Neuopaty adalah kerusakan saraf sebagai komplikasi serius akibat diabetes. Kadar gula darah yang tinggi dapat mencederai serat-serat saraf, umumnya pada kaki.


(29)

2.2. Tipe Diabetes Mellitus

Tipe Diabetes Melitus menurut Perkumpulan Endokrinologi Indonesia (PERKENI) 2006 meliputi :

Tabel 2. 1 Tipe Diabetes Mellitus Jenis

Diabetes

Etiologi

Tipe 1 Destruksi sel β, umumnya menjurus ke defisiensi insulin absolut, yaitu :

• Autoimun

• Idiopatik

Tipe 2 Bervariasi, mulai dari resistensi insulin yang disertai defisiensi insulin relatif hingga defeksekresi insulin yang dibarengi resistensi insulin.

Tipe Lain • Defek genetik fungsi selβ

• Defek genetik kerja insulin

• Penyakit eksokrin pankreas

• Endokrinopati

• Karena obatatau zat kimia

• Infeksi

• Sebab imunologi (jarang)

• Sindrom genetik lain yang berkaitan dengan Diabetes Mellitus

Diabetes Melitus gestasional

Intoleransi glukosa yang timbul atau terdeteksi pada kehamilan pertama dan gangguan toleransi glukosa setelah terminasi kehamilan.


(30)

2.3. Klasifikasi Diabetes Milletus tipe 2

Tabel 2. 2 Klasifikasi Diabetes Milletus tipe 2

Jenis tipe 2 Keterangan dan ciri

Diabetes Milletus  Mati rasa

 Sering mengeluarkan urine  Berat badan berkurang  Nafsu makan meningkat

 Penglihatan mulai kabur atau buram  Bermasalah dengan kulit (biasanya

terdapat luka)

 Mudah lelah dan emosi  Mudah merasakan haus  Terjadi gangguan di gusi  Infeksi jamur

Diabetes Milletus dengan Hiperglikemia

 Kadar gula meningkat  Jantung berdebar  Mual

 Kelemahan pada otot Diabetes Milletus

dengan Hipertensi

 Detak jantung berdebar  Sering terjadi mimisan  Sakit kepala yang berlebihan  Sesak nafas

 Sering buang air kecil

 Mengalami kesemutan hingga mati rasa Diabetes Milletus

dengan Ulkus

 Kehilangan keseimbangan atau koordinasi

 kram pada otot  Obesitas  Hipertensi


(31)

Diabetes Milletus dengan Neuropaty

 Penurunan berat badan  Mual muntah berwarna hitam

 Perubahan warna tinja menjadi hitam  Nyeri pada bagian kaki

 Luka yang tidak sembuh-sembuh

2.4. Diagnosis dan Pemeriksaan Diabetes Milletus

Menurut Perkumpulan Endokrinologi Indonesia (PERKENI) berbagai keluhan dapat ditemukan pada penyandang Diabetes Mellitus. Kecurigaan adanya Diabetes Mellitus perlu dipikirkan apabila terdapat keluhan klasik Diabetes Mellitus, antara lain :

a) Keluhan klasik Diabetes Mellitus berupa : poliuria, polifagia, dan penurunan berat badan yang tidak dijelaskan sebabnya.

b) Keluhan lain dapat berupa: lemah badan (mudah capai), kesemutan, gatal, mata kabur dan disfungsi ereksi pada laki-laki serta pruritus vulva pada perempuan.

Selain dengan keluhan, diagnosa Diabetes Mellitus harus ditegakkan berdasarkan pemeriksaan kadar glukosa darah dengan cara enzimatik dengan bahan darah plasmavena. Penggunaan bahan darah utuh (wholeblood), vena ataupun kapiler sesuai kondisi dengan memperhatikan angka-angka kriteria diagnostik yang berbeda sesuai pembakuan World Heald Organization (WHO). Sedangkan untuk tujuan pemantauan hasil pengobatan dapat dilakukan dengan menggunakan pemeriksaan glukosa darah kapiler (Gustaviani, 2006; PERKENI, 2006).

Dengan pemanfaatan diagnosa dan juga data laboratorium, dunia teknologi informasi memberikan solusi guna pemecahan masalah klasifikasi Diabetes Mellitus ini. Cabang ilmu data mining yaitu Healtcare Informatics adalah cabang ilmu dari dunia mining yang secara khusus berurusan dengan penyimpanan, penarikan, dam penggunaan data, informasi serta pengetahuan biomedik secara optimal untuk tujuan memecahkan permasalahan dan pengambilan keputusan yang berasal dari dunia medis.


(32)

2.5. Teori Penambangan Data 2.5.1. Definisi Data Mining

Data mining adalah suatu proses untuk mencari informasi dari database atau KDD (Knowledge Discovery in Database). Dari proses pengolahan data tersebut akan menemukan korelasi penuh arti, pola dan informasi yang dapat digunakan sebagai pengambilan keputusan atau decision making (Han and Kamber, 2006).

Data mining adalah mengenai pemecahan masalah dengan menganalisa data yang ada di dalam database dan sering juga didefinisikan sebagai proses menemukan pola dalam data, dimana proses tersebut harus otomatis atau semi-otomatis dan pola yang ditemukan harus bermakna (Chakrabarti, et al., 2009).

2.5.2. Proses Penambangan Data

Di bawah ini adalah gambar alur kerja data mining untuk menentukan suatu knowledge :

Gambar 2. 1 Data Mining dan proses KDD (Source: Fayyad, et.al., 1996)

1. Selection :

2. Data Selection merupakan penyeleksian data dimana data yang relevan dikembalikan ke dalam database yang memiliki tugas untuk analisis data (Fadli,2011).


(33)

3. Cleaning :

Data Cleaning merupakan pembersihan atau penghilangan missing value pada data. Pembersihan data ini akan mempengaruhi performasi dari teknik mining sendiri karena data yang ditangani akan diberikan nilai untuk setiap data yang kosong yang mengacu pada mean tiap atributnya. Mean adalah rata-rata dari data yang diperoleh berupa angka yang didapat dari nilai-nilai dibagi dengan jumlah individu (Sutrisno Hadi, 1998), dengan rumusan :

� =∑...(2.1) � � = ∑

4. Transformation :

Data Transformation merupakan cara untuk mentransformasikan data yang diubah ke bentuk yang tepat untuk diproses pada proses mining.

5. Data mining :

Data mining merupakan langkah terpenting dimana akan diaplikasikannya metode kerja yang paling tepat untuk mengekstrasi data.

6. Interpretation / Evalution :

Proses ini yang nantinya kana berguna untuk mengidentifikasi dan mengevaluasi pola yang benar dan menarik. Pola inilah yang akan mewakili pengetahuan berdasarkan atas beberapa tindakan mining yang menarik.

7. Knowledge Presentation :

Dalam tahap ini hasil dari mining yang berupa pola-pola tersebut direpresentasikan kepada pengguna(user) dan dari langkah ini akan ditemukannya sebuah pengetahuan yang akan dijadikan acuan guna pengambilan keputusan.


(34)

2.6. Generalisasi Data

Generalisasi data adalah ketika data level rendah (low-level data) diganti dengan konsep yang lebih tinggi, yaitu dengan melakukan diskretisasi. Teknik diskretisasi dapat digunakan untuk mereduksi sekumpulan nilai yang terdapat pada atribut continuous, dengan membagi range dari atribut ke dalam interval (Hartanto Junaedi, 2011). Berikut ini merupakan proses kerja dari diskretisasi :

Gambar 2. 2 Proses Diskretisasi

Proses diskretisasi secara umum terdiri dari empat tahapan pada gambar di atas, yaitu :

1. Sorting, melakukan sorting nilai atribut continuous yang akan didiskretisasi.

2. Melakukan “cut-point”, banyak fungsi evaluasi yang dapat digunakan seperti binning dan pengukuran entropy.

3. Splitting, dilakukannya evaluasi poin ke dua yang ada dan pilih satu yang terbaikdan lakukan split range nilai atribut kontinu ke dalam dua partisi. Diskretisasi berlanjut untuk tiap partisi sampai kondisi berhenti tercapai.

4. Stopping criterion, dilakukan untuk menghentikan proses diskretisasi.


(35)

Terdapat lima metode untuk melakukan diskretisasi pada data kontinu, yaitu binning, cluster analysis, histogram analysis, entropy-based discretization, dan segmentation by “natural partitioning”. Pada kasus data medis yang menjadi pusat bahasan ini (penerapan Naive Bayesian Clasifier), diskretisasi yang akan dilakukan adalah dengan metode histogram analysis sesuai dengan bahasan dari Ying Yang dan Geoffrey I.Web di tahun 2005 tentang diskretisasi umtuk Naive-Bayes-Learning.

2.6.2. Diskretisasi pada Naive Bayes Clasifier

Diskretisasi pada Naive Bayes Clasifer ada beberapa pilihan antara lain dengan menghitung jarak dan frekuensi, ada juga dengan perhitungan entropi dan diskretisasi yang dilakukan setelah adanya tes data. Berikut ini adalah dua diantara banyak metode diskretisasi yang bisa diterapkan pada metode Naive Bayesian Clasifier.

1. Equal Width Discretization

Equal Width Discretization (EWD) pertama kali dikemukanakan oleh Catlett pada tahun 1991 dan dikembangkan oleh Kerber dan Dougherty. Metode ini memungkinkan untuk menentukan interval berdasarkan perhitungan range dari nilai minimum dan maksimum data pada atributnya untuk didiskretisasi. Pada EWD, pengguna metode diminta untuk menentukan besaran jenis kelas bagian pada setiap atribut (k) sebagai parameter. Cara hitung untuk menentukan hasil diskretisasinya adalah nilai tiap data kontinu yang akan didiskretisasi cari bilangan maksimum dan minimumnya setelah itu bagi dengan nilai interval yang telah ditentukan sebelumnya, dengan rumusan sebagai berikut :

� = − ...(2.2) Untuk n adalah nilai diskretisasi yang dicari dan min-max adalah data min dan min-max pada setiap atribut yang akan didiskretisasi. Setelah n ditemukan, dapat


(36)

menentukan jarak interval untuk membagi datanya ke bentuk yang lebih sederhana.

2. Equal Frequency Discretization

Equal Frequency Discretization(EFD) dikemukanan oleh Catlett di tahun 1991 dan Kerber 1992. Jika EWD menghitung n menggunakan nilai min-max tiap atribut, EFD menggunakan banyaknya baris (i) pada atribut yang dibagi oleh k, dengan rumusan sebagai berikut :

� = ...(2.3)

2.7. Pengelompokan pada Data Mining 1. Klasifikasi

Di dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan rendah (Kusrini, 2009).

Klasifikasi akan menggunakan data dengan target (class/label) yang berupa nilai diskrit/kontinu. Menurut Goronescu, proses klasifikasi didasarkan pada empat elemen penting yang sangat mendasar, yaitu :

a) Kelas

Variabel dependen dari model, merupakan variabel kategorikal yang merepresentasikan label pada objek setelah klasifikasinya. Contohnya adalah adanya kelas penyakit diabetes yang diderita seseorang, kelas gempa bumi dan banyak lainnya.

b) Prediktor

Variabel dependen dari model, yang direpresentasikan oleh karakter khas atribut dari data yang akan diklasifikasikan. Contohnya adalah data gejala dan hasil uji lab.

c) Training dataset

Kumpulan dari data yang berisi nilai dari kedua komponen di atas dan digunakan untuk melatih model


(37)

dalam mengenali kelas yang sesuai berdasarkan prediktor yang tersedia.

d) Testing dataset

Berisi data baru yang nantinya akan diklasifikasikan oleh model yang telah dibangun sebelumnya, sehingga akan menghasilkan akurasi klasifikasi dan dapat dievaluasi. 2. Klastering

Klustering merupakan pengelompokan record, pengamatan atau memperhatikan dan membentuk kelas objek yang memiliki kemiripa-kemiripan (Kusrini, 2009). Klustering berbeda dengan klasifikasi karena tidak adanya variabel target dalam pengklusteran.

3. Deskripsi

Terkadang peneliti dan analisa secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola.

4. Estimasi

Estimasi hampir sama dengan klasifikasi, keculai variabel target estimasi lebih ke arah numerik daripada ke arah kategori. Model dibangun menggunakan record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi (Kusrini, 2009).

5. Prediksi

Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang. Beberapa metode dalam klasifikasi dan estimasi dapat diterapkan pada prediksi (Kusrini, 2009).


(38)

6. Asosiasi

Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu (Kusrini, 2009). Asosiasi lebih kental dengan suatu analisis kebutuhan.

2.8. Teorema Naive Bayesian

2.8.1. Pengertian Teorema Bayesian

Bayesian Classifier adalah pengklasifikasian statistik yang dapat digunakan untuk memprediksi probabilitas keanggotaan suatu class (Kusrini, 2009). Bayesian classifier didasarkan pada teorema Bayes yang memiliki kemampuan klasifikasi serupa dengan decision tree dan neural network. Pendekatan teorema ini didasarkan pada kuantifikasi trade-off antara berbagai keputusan klasifikasi dengan menggunakan probabilitas dan nilai yang muncul dalam suatu keputusan.

Teorema ini mampu diaplikasi pada database dengan data yang besar dan memiliki tingkat akurasi dan kecepatan yang tinggi. Teorema Bayesian memiliki bentuk umum sebagai berikut :

� �| =�( |� ��)� � ...(2.4) Keterangan :

E = data dengan class yang belum diketahui

H = hipotesis data E merupakan suatu class spesifik P(H|E) = probabilitas hipotesis H berdasarkan kondisi E

(posteriori probability)

P(H) = pobabilitas hipotesis H (prior probability)

P(E|H) = probabilitas E berdasaerkan kondisi pada hipotesis H P(E) = probabilitas dari E

Menurut buku dari Eko Prasetyo, ide dasar dari aturan Bayes adalah bahwa hasil dari hipotesis atau peristiwa (H) dapat diperkirakan berdasarkan bukti (E) yang diamati. Ada beberapa hal penting yang perlu diperhatikan yaitu :


(39)

1) Sebuah probabilitas awal/prior H atau P(H) adalah probabilitas dari suatu hipotesis sebelum bukti diamati. 2) Sebuah probabilitas akhir H atau P(H|E) adalah probabilitas

dari suatu hipotesis setelah bukti diamati.

Dalam Bayes (terutama Naive Bayes), maksud independensi yang kuat pada fitur adalah bahwa sebuah fitur pada sebuah data tidak berkaitan dengan ada atau tidaknya fitur lain dalam data yang sama (Eko Prasetyo, 2012).

2.8.2. Naive Bayesian Classifier

Metode Naive Bayes merupakan algoritma machine learning yang bertipe supervised learning yang menerapkan teorema Bayes

yang “naif” dimana asumsinya adalah tiap fitur atribut datra

dianggap independen, satu dan lainnya terpisal dan memiliki nilai sendiri (Zhang, 2004). Metode ini dianggap memiliki peforma yang handal dan kompetitif dalam proses pengklasifikasian karena asumsi independen atribut yang dimiliki sebuah data sangat sesuai dengan pengaplikasiaan di dunia nyata.

Kaitan antara Naive Bayes dengan klasifikasi, korelasi hipotesis, dan bukti dengan klasifikasi adalah bahwa hipotesis dalam teorema Bayes merupakan label kelas yang menjadi target pemetaan dalam klasifikasi, sedangkan bukti merupakan fitur-fitur yang menjadi masukan dalam model klasifikasi (Eko Prasetyo, 2012). Jika X adalah vektor masukan yang berisi fitur dan Y adalah label kelas, Naive Bayes dituliskan dengan P(Y|X). Notasi tersebut berarti probabilitas label Y didapatkan setelah fitur dari X diamati. Notasi ini disebut juga dengan probabilitas akhir (posterior probability) untuk Y, sedangkan P(Y) disebut probabilitas awal (prior probability).

Klasifikasi Naive Bayesian yang memiliki nilai atribut yang terpisah atau independen ini dapat dinyatakan dengan rumus sebagai berikut :


(40)

� | =� ��=� � �|

� ...(2.5)

Keterangan :

P(Y|X) : Probabilitas data dengan vektor X pada kelas Y P(Y) : Probabilitas awal kelas Y

= � | : Probabilitas independen kelas Y dari semua fitur vektor X

Pada umumnya, Bayes mudah dihitung untuk fitur bertipe kategories seperti pada kasus diskrit. Namun untuk fitur numerik (data kontinu)ada perlakuan khusus sebelum dimasukkan dalam Naive Bayes. Cara tersebut meliputi :

1) Melakukan diskretisasi pada setiap fitur kontinu dan mengganti nilai fitur kontinu tersebut dengan nilai interval diskret. Pendekatan ini dilakukan dengan mentransformasikan fitur kontinu ke dalam fitur ordinal. 2) Mengasumsikan bentuk tertentu dari distribusi dengan data

penelitian. Distribusi Gausian biasanya dipilih untuk merepresentasikan probabilitas bersyarat dari fitur kontinu pada sebuah kelas P(Xi|Y), sedangkan distribusi Gausian dikarakterisasikan dengan dua parameter yaitu mean, µ, dan

varian, σ2.

2.8.3. Evaluasi/Validasi Data

Pada proses evaluasi/validasi, setiap data digunakan dalam jumlah sama untuk data training dan testing. Bentuk pendekatan ini disebut dengan k-fold cross validation, yang mana data akan dipecah kebeberapa bagian dari tentuan banyaknya k, dengan pembagian yang rata dari setiap kelompok data. Setiap kali proses berjalan,satu pecahan berperan sebagai data uji sedangakan pecahan lain menjadi data latih. Total error yang diperoleh dapat dijumlahkan semuanya dan akan memperlihatkan skema validasi benar dan salah (Prasetyo, 2014).


(41)

2.8.4. Akurasi Klasifikasi (Confution Matrix)

Metode ini hanya menggunakan tabel matriks terdapat pada proses jika dataset memiliki kelas yaitu kelas yang dianggap positif dan kelas lainnya merupakan kelas negatif (Bramer, 2007).

Evaluasi dengan confution matrix ini menghasilkan nilai akurasi, precison, dan recall terhadap klasifikasi yang telah dilakukan. Akurasi dalam klasifikasi adalah presentase ketetapan record data yang diklasifikasikan secara benar setelah dilakukan pengujian pada hasil klasifikasi (Han & Kamber, 2006). Sedangkan precision atau confidence adalah proporsi kasus yang diprediksi positif yang juga positif benar pada data yang sebenarnya. Recall atau sensitivitas adalah proporsi kasus positif yang sebenarnya yang diprediksi positif secara benar (Powers, 2011).

Correct Clasification

Classified as

+ -

+ True positives False negative - False positive True negative Tabel 2. 3 Cross Validation

True positive dan false positive adalah jumlah record positif dan negatif yang diklasifikasikan sebagai positif, sedangkan false negative dan true negatif adalah jumlah record positif dan negatif yang diklasifikasikan sebagai negatif. Lalu masukkan data uji, setelah itu hitung nilai yang telah dimasukkan tersebut untuk dihitung sensitivitinya, spesifikasinya, presisinya dan akurasinya.

Berdasarkan isi matriks pada tabel tersebut maka dapat diketahui jumlah data dari masing-masing kelas yang dipredikasi secara benar yaitu (True positives + True negatives) dan data yang diklasifikasikan secara salah adalah (False positive + False negatives).


(42)

Kuantitas matriks dapat diringkas menjadi dua nilai yaitu akurasi dan laju error. Dua nilai ini digunakan sebagai matriks kinerja dengan formula sbb (Hann & Kamber, 2006) :

�� � =

=


(43)

22 BAB III

METODOLOGI PENELITIAN

Pada bab ke tiga ini, akan dijelaskan tentang analisa kebutuhan, data penelitian, skenario pengambilan data, analisa pengolahan data, analisa kebutuhan pengguna, spesifikasi hardware dan software yang digunakan serta beberapa user interface awal.

3.1. Data Penelitian 3.1.1. Data Diabetes

Data diabetes yang digunakan nantinya adalah data gejala penyakit diabetes sebanyak 274 data kotor, yang diperoleh dari studi kasus di rumah sakit di Rumah Sakit Panti Nugroho Pakem, Daerah Istimewa Yogyakarta.

Data tersebut nantinya akan dikelompokkan menjadi 26 atribut termasuk atribut kelas.

Tabel 3. 1 Pengelompokan Data Mentah

No Nama

Atribut Keterangan Bobot

1. No. RM Nomer kode pasien Nomor ID 2.

SEX Jenis kelamin pasien Laki-laki / Perempuan (1..2)

3. Umur Umur pasien 1..n

4.

Faktor Keturunan

Atribut ini

menentukan adanya sifat penyakit turunan atau tidak tentang riwayat penyakit yang diderita pasien

Penyakit turunan atau bukan (1...2)


(44)

5. Gangguan pada sistem Pernafasan Atribut ini menentukan adanya gangguan atau tidak pada sistem pernafasan pasien (dada) Bermasalah-tidak bermasalah (1..2) 6. Gangguan pada sistem kerja Jantung dan Darah Atribut ini menentukan adanya gangguan atau tidak pada sistem kerja jantung dan darah pasien Bermasalah-tidak bermasalah (1..2) 7. Gangguan pada sistem Integumen Atribut ini menentukan adanya gangguan atau tidak pada sistem integumen pasien Bermasalah-tidak bermasalah (1..2) 8. Gangguan pada sistem saraf Atribut ini menentukan adanya gangguan atau tidak pada sistem saraf pasien Bermasalah-tidak bermasalah (1..2) 9. Gangguan pada sendi Atribut ini menentukan adanya gangguan atau tidak pada sistem kerja sendi pasien Bermasalah-tidak bermasalah (1..2) 10. Gangguan pada sistem penglihatan Atribut ini menentukan terganggu atau tidaknya sistem penglihatan(indra) pasien

Bermasalah-tidak bermasalah (1..2)


(45)

11. Gangguan pada sistem pendengara n Atribut ini menentukan terganggu atau tidaknya sistem pendengaran pasien Bermasalah-tidak bermasalah (1..2) 12. Gangguan pada sistem penciuman Atribut ini menentukan terganggu atau tidaknya sistem penciuman pasien Bermasalah-tidak bermasalah (1..2) 13. Gangguan pada sistem pencernaan Atribut ini menentukan terganggu atau tidaknya sistem pencernaan pasien Bermasalah-tidak bermasalah (1..2) 14. Gula darah saat puasa Atribut ini mendapatkan informasi tentang tingginya gula darah pasien saat puasa

0..n

15.

Gula darah 2 jam PP

Atribut ini mendapatkan informasi tentang tingginya gula darah pasien setelah 2 jam makan 0..n 16. Creatine Atribut ini mendapatkan informasi tentang tingginya kadar creatine dalam tubuh

0..n 17. Urea Atribut ini mendapatkan informasi tentang tingginya kadar urea dalam tubuh


(46)

18.

Hemoglobin

Atribut ini mendapatkan informasi tentang tingginya kadar HMG dalam tubuh 0..n 19. Hematokrit Atribut ini mendapatkan

informasi tentang nilai tingginya kadar hematokrit dalam tubuh 0..n 20. Leukosit Atribut ini mendapatkan

informasi tentang nilai tingginya kadar leukosit dalam tubuh

0..n 21. Neutrosit/ neutrofil Atribut ini mendapatkan

informasi tentang nilai tingginya kadar neutrofil dalam tubuh

0..n

22.

Trombosit

Atribut ini mendapatkan

informasi tentang nilai tingginya kadar

trombosit dalam tubuh 0..n

23.

Eritrosit

Atribut ini mendapatkan

informasi tentang nilai tingginya kadar eritrosit dalam tubuh

0..n

24.

RDW-SD Atribut ini


(47)

informasi tentang nilai RDW-SD dalam tubuh 25. MPV Atribut ini mendapatkan

informasi tentang nilai MPV dalam tubuh 0..n

26.

Kelas

Atribut ini menentukan klasifikasi diabetes yang diderita pasien

(2) DM (3) DM_Hiperglikemia (4) HT_DM (5) Ulkus_DM (6) DM_Neuropati

Dari data-data tersebut, didapatkan 258 data bersih, yang mana data itu akan masuk ke proses selanjutnya. Dan pada saat melakukan proses mining, yang dipakai adalah 25 atribut yaitu menghilangkan no.RM.

3.1.2. Skenario Pengambilan Data

1. Pengambilan data diambil dengan studi kasus di Rumah Sakit Panti Nugroho berdasarkan tipe gejala penyakit diabetes milletus dari dokumen rekam medis perorang yang menderita penyakit DM.

2. Data dikelompokkan menjadi 25 atribut berdasarkan sifat-sifatnya.

3. Data diolah sedemikian rupa dengan meminimalkan/ menghilangkan missing value.

4. Data disimpan dalam file berekstensi .xlsx atau .xls. (data terlampir pada tabel lampiran 1 ).


(48)

3.2. Analisa Pengolahan Data

Berikut ini merupakan langkah-langkah dari analisa pengolahan data yang akan dilakukan

Gambar 3. 1 Alur Pengolahan Data

3.2.1. Seleksi Data dan Integrasi Data

Pada tahap ini akan dilakukan penyeleksian terhadap data gejala terhadap data yang kurang relevan terhadap penelitian (menghilangkan atau menghapus data gejala yang memiliki missing value sangat banyak sehingga sulit untuk dikenali gejala ataupun data labnya). Setelah diseleksi, dilakukan penggabungan seluruh data yang telah diperoleh atau dilakukannya integrasi data. Setelah itu data akan disimpan dalam satu file dengan ekstensi .xlsx atau .csv berdasarkan atribut dari tiap gejala sesuai dengan kriteria atributnya.

3.2.2. Cleaning Data

Pada tahap ini dilakukan pembersihan data atribut uji lab. yang kurang atau tidak relevan terhadap penelitian (pengisian missing value), yaitu dengan melakukan pengisian nilai missing value dengan memberikan nilai rata-rata atribut tertentu disetiap daerah kosong dengan mengacu pada atributnya.


(49)

3.2.3. Transformasi

Pada tahap ini akan dilakukan perubahan data menjadi data numerik semua untuk mempermudah penghitungan pada proses mining nanti. Yaitu mengubah nilai pada atribut sex, diagnosa penyakit dan atribut kelas. Perubahan itu dengan melakukan transformasi sebagai berikut ini dan hasilnya terdapat pada lampiran tabel contoh data pada contoh kolom K1 dan K25:

1. Transformasi pada kolom K1 : a. L = 1

b. P = 2

2. Transformasi pada kolom K3 sampai kolom K12 : a. T = 1

b. Y = 2

3. Transformasi pada kolom data kontinu dilakukannya proses diskretisasi dengan EWD.

a. Pilih atribut yang akan didiskretisasi, sebagai contoh atribut umur (K3) dan gula darah (K13), data diambil secara acak.

Tabel 3. 2 Contoh EWD

K3 K13

83 360

69 312

51 352

30 125

40 222

b. Data tersebut akan dicari nilai n untuk interval dari tiap data pada atributnya. Cari nilai minimal dan maksimal dari tiap atribut

 K3 nilai minimal 30, nilai maksimal 83  K13 nilai minimal 125, nilai maksimal 360 c. Hitung besarnya nilai n (interval) yaitu dengan


(50)

2.6.2 poin 1. Nilai n tersebut dapat ditentukan dengan mencari nilai standar deviasi dari tiap atribut.

Tabel 3. 3 Menghitung n

K3 K32 K13 K132

83 6889 360 129600

69 4761 312 97344

51 2601 352 123904

30 900 125 15625

40 1600 222 49284

273 16751 1371 415757

= √∑ −∑ ��

− ...(3.1)

�� = √ − 75

− = √ .

= √ . =

. =

�� = √ − 75

− = √ .

=

√ . = . =

Setelah nilai n pada K3 dan K13 sudah ditemukan, langkah selanjutnya cari nilai k dengan penerapan rumus EWD.

� = − ...(3.2) �� = − = = . =

�� = − = = . =

Selanjutnya, masukkan nilai k kedalam pembagian interval sebanyak k bagian.


(51)

Tabel 3. 4 Tabel Interval

nK3 nK13 k

� < � < 1

� > ≤ � < 2

� > 3

.... d. Setiap nilai atribut akan dicocokkan dengan nilai

interval yang telah dibuat di tabel 3.4 di atas. Masukkan data pada varibel x, maka ditemukanlah hasil diskretisasi datanya sebagai berikut :

Tabel 3. 5 Hasil Diskretisasi K3 K13

menjadi

dK3 dK13

83 360 2 2

69 312 2 2

51 352 1 2

30 125 1 1

40 222 1 2

4. Transformasi pada kolom K25 : a. DM = 2

b. DM_Hiperglikemia = 3 c. HT_DM = 4

d. Ulkus_DM = 5 e. DM_Neuropati = 6

3.2.4. Penerapan Teknik Mining

Pada tahap ini data yang telah ditransformasi dan menjadi data yang sangat relevan (data setelah cleaning), data gejala Diabetes Millitus tersebut akan diklasifikasikan ke tipe dari diabetes tersebut dengan algoritma naive bayes. Data-data tersebut akan diolah dengan variabel input dan output, variabel input meliputi


(52)

atribut gejala sakit dan data lab. dan outputya adalah kelas dari diabetes yang diderita.

Gambar 3. 2 Alur Kerja Naive Bayes

Berikut ini merupakan pengerjaan metode Naive Bayes pada data Diabetes Milletus :

a) Setelah melakukan preprosesing pada data, selanjutnya lakukan mining terhadap data. Yang pertama-tama dikerjakan adalah membuat kelas training pada langkah-langkah dibawah ini.

b) Hitung jumlah kelas/label. Untuk percontohan pengerjaan gunakan data sbb, yang mana data diambil secara acak dan memakai data berdasarkan hasil transformasi data :

Tabel 3. 6 Contoh Tabel Training

K1 K2 K3 K14 K15 K25

1 1 2 3 1 2

2 3 2 4 2 2

2 3 2 3 1 2

2 2 2 3 1 2


(53)

2 3 1 4 1 3

1 3 1 3 1 3

2 3 1 4 1 3

1 3 2 3 3 4

1 3 1 4 1 4

2 3 2 5 1 4

1 2 2 4 1 4

2 3 1 5 1 5

2 2 2 5 1 5

1 3 2 5 2 5

2 2 2 4 3 5

2 4 2 5 1 5

1 3 1 5 1 6

1 4 1 5 1 6

2 2 1 5 1 6

� � =�( |�)� �

Probabilitas kelas :

� � = = = . , � � = = = . , � � = = = . , � � = = = . ,

� � = = = .

Probabilitas K1 banding K25

� � | = = , , � � | = = , � � | = = , ,� � | = = , � � | = = , ,� � | = = , � � | = = , , � � | = = ,


(54)

� � | = = , , � � | = = , Probabilitas K2 banding K25

� � | = = , ,� � | = = , � � | = = , , � � | =

� � | =

� � | = ,� � | = = , � � | = = , , � � | =

� � | =

� � | = , � � | = = , � � | = = , , � � | =

� � | =

� � | = ,� � | = = , � � | = = , , � � | = = ,

� � | =

� � | = ,� � | = = ,

� � | = = , , � � | = = ,

� � | =

Probabilitas K3 banding K25

� � | = ,� � | = = � � | = = ,� � | =

� � | = = , ,� � | = = , � � | = = ,� � | = = , � � | = = ,� � | =


(55)

Probabilitas K14 banding K25

� � | = ,� � | =

� � | = . , � � | = = . ,

� � | =

� � | = , � � | =

� � | = = . , � � | = .

� � | =

� � | = ,� � | =

� � | = = . , � � | = .

� � | = .

� � | = ,� � | =

� � | = , � � | = .

� � | = .

� � | = ,� � | =

� � | = , � � | =

� � | =

Probabilitas K15 banding K25

� � | = = ,

� � | = = ,

� � | = , � � | =

� � | =

� � | = = , � � | =

� � | = , � � | =

� � | =

� � | = = , , � � | =

� � | = = , , � � | =

� � | =


(56)

� � | = = , , � � | =

� � | =

� � | = = , � � | = � � | = = , , � � | =

� � | =

c) Setelah data training selesai diolah, dilakukanlah suatu testing terhadap data. Data testing disini penulis mencoba membuat suatu data baru. Setelah itu lakukan penghitungan probabilitas dari masing-masing kelas dan ditentukan bahwa probabilitas terbesarlah yang menjadi jawaban dari kelas yang dicari.

Tabel 3. 7 Contoh Data Tabel Testing

K1 K2 K3 K14 K15 K25

1 1 2 1 1 ?

Cari probabilitas pada hitungan dengan mencocokkan pada tabel 3.7

� � | = , , � � | = , , � � | = , , � � | = , , � � | = ,

� � | = ,

� � | = , � � | = , � � | = , � � | = , � � | = ,� � | = ,


(57)

� � | = , , � � | = , , � � | = ,

� � | = . , � � | = . � � | = . , � � | =

� � | =

� � | = , , � � | =

� � | = , , � � | = ,

� � | =

Lalu semua hasil dikalikan terhadap hasil probabilitas berdasarkan pengelompokan kelasnya. � = , × , × × . × , = ,

� = , × × × . × =

� = , × × , × . × , = � = , × × , × × , =

� = , × × × × =

Setelah itu bandingkan keenam nilai tersebut, cari nilai terbesarnya. Dan dapat diketahui nilai probabilitas terbesar terdapat pada P(2) dengan nilai probabilitas 0,03516. Maka dapat disimpulkan bahwa data test tersebut termasuk kelas 2 yang artinya pasien yang bersangkutan menderita Diabetes Mellitus saja, tanpa ada penyakit komplikasinya.


(58)

3.2.5. Evaluasi Data

Setelah dilakukannya proses modeling, maka akan dilakukan proses menghitung akurasi dari kebenaran data dengan metode confution matrix, yaitu dengan menjumlahkan data yang benar dan membaginya dengan semua data yang benar maupun data salah dan dikalikan dengan 100%. Berikut ini contoh dari confution matrix-nya.

Tabel 3. 8 Confution Matrix

Kelas DM

DM_Hiper-glikemia

HT_DM Ulkus_DM

DM_Neu-ropati

DM T F F F F

DM_Hiperglike mia

F T F F F

HT_DM F F T F F

Ulkus_DM F F F T F

DM_Neuropati F F F T

Berdasarkan tabel 3.8 diatas, jumlah akurasi dari tiap percobaan dapat dihitung dengan rumusan berikut :

� � =∑ + ∑ ∗∑ %

∑ , dapat dicari dengan menjumlahkan semua T yang terdapat pada tabel 3.8. Sementara itu ∑ diperoleh dari semua nilai F pada tabel. Setelah ∑ dihitung, dibagikan dengan ∑ + ∑ dan setelah itu dapat dikalikan dengan 100%.

3.3. Desain Pengujian

Langkah ini adalah proses untuk membagi data yang akan diuji pada proses modeling terhadap metode yang dipakai yaitu Naive Bayesian Clasifier. Berikut ini merupakan tahapan pengujiannya :


(59)

Gambar 3. 3 Alur Kerja Desain Pengujian

Pengujian ini dilakukan sebanyak k yang dimasukkan (jumlah k-fold). Berikut merupakan tabel pengujian dengan menggunakan data training dan testing sesuai dengan jumlah masukan k yang ditentukan pengguna.

Tabel 3. 9 Data dengan 3 Fold Pengujian Training Testing

1 1,2 3

2 1,3 2

3 2,3 1

Tabel diatas merupakan pembagian data dengan 3 fold, yaitu semua data akan dibagi menjadi 3 bagian yang sama rata dan data-data tersebut akan secara bergantian digunakan sebagai training dan testing.

Tabel 3. 10 Data dengan 5 Fold Pengujian Training Testing

1 1,2,3,4 5

2 1,2,3,5 4

3 1,2,4,5 3

4 1,3,4,5 2

5 2,3,4,5 1

Tabel 3.10 diatas merupakan pembagian data dengan 5 fold, yaitu semua data akan dibagi menjadi 5 bagian yang sama rata dan data-data tersebut akan secara bergantian digunakan sebagai training dan testing.


(60)

Tabel 3. 11 Data dengan 7 Fold Pengujian Training Testing

1 1,2,3,4,5,6 7

2 1,2,3,4,5,7 6

3 1,2,3,4,6,7 5

4 1,2,3,5,6,7 4

5 1,2,4,5,6,7 3

6 1,3,4,5,6,7 2

7 2,3,4,5,6,7 1

Tabel 3.11 diatas merupakan pembagian data dengan 7 fold, yaitu semua data akan dibagi menjadi 7 bagian yang sama rata dan data-data tersebut akan secara bergantian digunakan sebagai training dan testing.

Tabel 3. 12 Data dengan 9 Fold Pengujian Training Testing

1 1,2,3,4,5,6,7,8 9 2 1,2,3,4,5,6,7,9 8 3 1,2,3,4,5,6,8,9 7 4 1,2,3,4,5,7,8,9 6 5 1,2,3,4,6,7,8,9 5 6 1,2,3,5,6,7,8,9 4 7 1,2,4,5,6,7,8,9 3 8 1,3,4,5,6,7,8,9 2 9 2,3,4,5,6,7,8,9 1

Tabel 3.12 diatas merupakan pembagian data dengan 9 fold, yaitu semua data akan dibagi menjadi 9 bagian yang sama rata dan data-data tersebut akan secara bergantian digunakan sebagai training dan testing.


(61)

3.4. Spesifikasi Alat 3.4.1. Hardware

Adapun hardware yang digunakan adalah :  Processor Intel Core I3

 RAM 4 GB 3.4.2. Software

Adapun software yang digunakan adalah :

 Sistem operasi : Microsoft Windows 10 Pro  Tools Data mining : Matlab 2012


(62)

BAB IV

ANALISA HASIL DAN IMPLEMENTASI SISTEM

Pada bab ini akan dibahas berbagai hal yang berkaitan dengan implementasi dari sistem dan hasil yang telah didapat dari beberapa pengujian yang dilakukan, serta analisa dari hasil penghujian.

4.1. Analisa Hasil Akurasi Klasifikasi

Berdasarkan hasil dari pengujian yang telah dilakukan dengan menggunakan Naive Bayesian Clasifier dan juga menggunakan k-fold validation, akan diperoleh hasil pada tabel di bawah ini dengan ketentuan pengaruh besar kecilnya nilai k untuk penentuan interval EWD. Berikut merupakan hasil akurasi dari klasifikasi yang telah dilakukan :

Tabel 4. 1 Hasil Percobaan Klasifikasi Banyak

Fold

Akurasi Perbagia n Data

Grafik akurasi fold Akurasi Akhir

3 0.6854 0.8000 0.7024 = . ∗ = . ∗ = . % 5 0.6852 0.8491 0.8824 0.8627 0.6531 = . ∗ = . ∗ = . % 0,65 0,7 0,75 0,8

1 2 3

0,65 0,7 0,75 0,8 0,85 0,9 0,95


(63)

7 0.6410 0.9211 0.8378 0.8889 0.8611 0.8611 0.8611 = ∗ = . ∗ = . % 9 0.5806 0.9000 0.8667 0.9000 0.8621 0.8214 0.8571 0.8462 0.8077 = . ∗ = . ∗ = . %

Dari hasil percobaan tersebut, ditemukan dan dapat diketahui bahwa hasil akurasi terbaik terdapat pada pembagian data dengan 7 fold yaitu dengan persentase sebesar 83.89%.. Hasil akurasi yang hampir sama adalah pada pembagian 9 fold. Nilai akurasi di atas menjadi sangat bervariatif karena peranan dari pembagian diskretisasi oleh EWD, juga dibentuk karena besar/kecilnya nilai k dari EWD-nya.

Gambar 4. 1 Grafik Perbandingan Akurasi

0,64 0,69 0,74 0,79 0,84 0,89 0,94

1 2 3 4 5 6 7

0,55 0,6 0,65 0,7 0,75 0,8 0,85 0,9 0,95

1 2 3 4 5 6 7 8 9

72,93 78,65 83,89 82,69 72 74 76 78 80 82 84 86

3 5 7 9

Pers e n ta se fold


(64)

Gambar 4.1 merupakan grafik perbandingan rata-rata akurasi. Percobaan dilakukan berdasarkan nilai hasil diskretisasi menggunakan EWD. Hasil diskretisasi akan dilakukan empat kali percobaan yang terdapat pada setiap fold. Hasil dari akurasi di tiap fold akan dirata-rata untuk mencari nilai akurasi yang paling besar/maksimal dari percobaan berdasarkan hasil klasifikasinya. Berdasarkan hasil beberapa percobaan yang telah dilakukan rata-rata terbesar terdapat pada hasil dengan nilai fold ke 7. Hal ini terjadi karena pembagian data pada fold ke 7 lebih banyak data yang masuk dalam kategori klasifikasi benar secara pembagian/persebaran data, nilai errornya lebih sedikit dibanding dengan nilai fold lainnya.

Hasil klasifikasi dari data diabetes ini sangat berpengaruh dari bagaimana pengolahan data sebelum klasifikasinya (preprosesing). Dengan melakukan diskretisasi terhadap data kontinu, tentu saja akan mendapatkan perhitungan atau menjalankan proses mining dengan lebih mudah dan hasil klasifikasi lebih jitu.

4.2. Kelebihan dan Kekurangan Sistem 4.2.1. Kelebihan

 Sistem ini mampu menangani data yang butuh pengolahan secara khusus, yang tidak mampu dilakukan metode NaiveBayes.fit pada fitur pilihan Matlab.

 Sistem ini mampu menganalisa dan menentukan luaran diabetes yang ingin diketahui.

4.2.2. Kekurangan

 Data diabetes ini, tidak dapat diolah langsung menggunakan metode Naive Bayes yang disediakan oleh Matlab, harus ada metode pembersihan data terlebih dahulu.


(65)

4.3. User Interface

4.3.1. Halaman Utama

Guna mempermudah proses klasifikasi pada penelitian ini, dibuatlah suatu user interface. User interface ini akan mempermudah dalam proses preprosesing data dan pengklasifikasian juga untuk menguji suatu hasil klasifikasi untuk menentukan penyakit diabetes yang diderita seseorang. Berikut merupakan user interface yang telah dibangun dengan menggunakan satu muka interface :

Gambar 4. 2 Halaman Sistem

4.3.2. Menu Import Data

Menu ini berfungsi untuk mengimport data training. Untuk melakukan proses pengimportan data, klik button “Cari Data” lalu sistem akan mengarahkan untuk memilih direktori yang akan dipakai menjadi data training, lalu pilih open. Maka, data akan diimport dengan otomatis dan data akan langsung di transformasi lalu akan ditampilkan pada tabel yang telah tersedia di menu. Tabel juga berperan untuk menampilkan data-data pada proses preprosesing selanjutnya.


(66)

Gambar 4. 3 Menu Import dan Tabel Data

4.3.3.Menu Proses Klasifikasi

Menu ini berfungsi untuk melakukan proses preprosesing data dan juga melakukan klasifikasi data. Setelah data diimport, data akan masuk proses cleaning dan transformasi klik button “Cleaning & Transformasi” pada menu proses klasifikasi, maka data akan diubah ke bentuk transformasi data.

Setelah itu tentukan banyaknya fold dan klik button “Klasifikasi” untuk memulai proses klasifikasi. Setiap proses yang telah dilakukan, perubahan data akan tersaji pada tabel utama dan akan dapat dilihat persebaran data pada menu grafik data.


(67)

4.3.4. Menu Grafik Data

Menu ini berfungsi untuk melihat/memfisualisasikan persebaran data dari proses preprosesing hingga pengklasifikasian termasuk nilai fold yang digunakan untuk penghitungan akurasi.

Gambar 4. 5 Menu Grafik Data

4.3.5. Menu Confution Matrix dan Akurasi

Menu Confution Matrix pada bagian kiri, berfungsi untuk menampilkan hasil perhitungan Confution Matrix akhir yang didapat dari hasil percobaan klasifikasi. Lalu, menu “Akurasi Data” (kanan atas), berfungsi untuk melihat akurasi dari tiap bagian data setelah dilakukan fold yang didapat dari proses klasifikasi. Dan, menu “Akurasi

Akhir” (kanan bawah), berfungsi untuk melihat akurasi akhir dari penjumlahan nilai akurasi di tiap bagian fold.

Gambar 4. 6 Menu Confution Matrix dan Akurasi


(68)

4.3.6.Uji Data Tunggal

Menu ini berfungsi untuk melakukan proses pengujian data secara tunggal (testing). Masukkan data acak yang akan dilihat hasil klasifikasinya pada sub-sub menu yang telah disedikan pada menu ini (masukan berupa data sex, data umur, data gejala dan data lab., bila masukan pada data gejala tidak diketahui berilah angka 0). Untuk data lab, sudah terdapat contoh masukannya pada menu tersebut, yaitu berupa range angka masukan. Setelah itu klik test, maka sistem akan memberitahu hasil uji klasifikasinya berupa angka kelas diabetesnya pada kotak field sebelah button “Test”.


(69)

48 BAB V

PENUTUP

5.1. Kesimpulan

Identifikasi klasifikasi diabetes mellitus dengan menggunakan metode Naive Bayesian Clasifier dengan melakukan penelitian terhadap data diagnosa dan data laboratorium, dapat diambil kesimpulan sebagai berikut :

1. Metode Naive Bayesian Clasifier dapat melakukan dan menentukan secara otomatis klasifikasi Diabetes Mellitus dengan Hiperglikemia, Diabetes Mellitus dengan Hipertensi, Diabetes Mellitus dengan Ulkus, Diabetes Mellitus dengan Neuropati atau Diabetes Mellitus saja.

2. Metode Naive Bayesian Clasifier dibutuhkan perhatian khusus bila menggunakan data yang sangat kompleks, karena disaat data diskret dan numerik disajikan bersamaan, metode ini cenderung lemah dan harus diberikan data yang lebih simpel yaitu dengan melakukan normalisasi dalam hal ini memakai diskretisasi terhadap data. Distribusi data akan sangat berpengaruh terhadap hasil klasifikasi. Dan dari pengujian sebanyak 4 kali, dihasilkan rata-rata akurasi terbaik yaitu sebesar 83.89% dari hasil klasifikasi Naive Bayesian Clasifier menggunakan EWD.


(70)

5.2. Saran

Berdasarkan hasil analisa dan pengujian tugas akhir ini, penulis memberikan saran untuk perbaikan dalam pengembangan penelitian dan sistem secara lebih lanjut, antara lain :

1. Penambahan data training untuk setiap kelas klasifikasi terutama pada kelas Diabetes Mellitus dengan Neuropaty. 2. Menambahkan jenis kelas klasifikasi, yaitu dengan pemilihan

masukan berdasarkan data diagnosa/lab namun menghasilkan keluaran yang lebih.

3. Hasil prediksi dapat dikembangkan ke dalam bentuk hasil uji sistem dengan luaran berupa laporan hasil tes medis beserta hasil uji laboratorium.


(71)

DAFTAR PUSTAKA

Guestrin, Carlos. 2006. Naive Bayes with Continues Logistic Regression. Carnegie Mellon University.

Kusrini. 2009. Algoritma Data Mining. Penerbit Andi. Yogyakarta.

Lavrenko, Victor and Nigel Goddard. 2014. Introductory Applied Machine Learning : Naive Bayes. Scholl of Informatics.

Misnadiarly. 2006. Diabetes Mellitus Gangren, Ulcer, Infeksi, Mengenali Gejala, Menanggulangi, dan Mencegah Komplikasi. Jakarta: Pustaka Obor Populer.

Prasetyo, Eko. 2012. Data Mining Konsep & Aplikasi Menggunakan Matlab. Penerbit Andi, Yogyakarta.

Syawli, Almira dkk. Diagnosa Penyakit Diabetes Mellitus dengan Metode Naive Bayes Berbasis Dekstop Application. Universitas Brawijaya, Malang. WHO. 2006. Definition, Diagnosis and Classification of Diabetes Mellitus and its

Complication. WHO.

Yang, Ying dan Geoffrey I. Webb. 2005. Discretization for Naive-Bayes Learning : Managing Discretization Bias and Variance.


(72)

LAMPIRAN

Lampiran 1 TrainingData.fit


(73)

(74)

(75)

(76)

(77)

(1)

65

L 61 T Y Y Y Y T T Y Y Y 378 355 1,13 31,3 10,4 33,5 2 12,8 4,6 ULKUS_DM L 58 Y T T Y Y T Y Y T Y 390 1,35 33,3 11 32 8,62 79,3 265 3,52 11,9 ULKUS_DM P 61 Y Y Y T Y T Y Y T Y 388 381 1,62 33,5 12,2 36 10,56 74,7 278 4,21 11,3 ULKUS_DM P 46 Y T Y Y Y T Y Y Y Y 383 351 0,6 33,9 11,2 32,4 7,09 86,3 300 3,77 8,2 ULKUS_DM P 59 Y Y Y T Y T T Y Y T 347 303 0,69 38,6 12,5 34,6 11,07 81,7 331 3,99 9,5 HT_DM P 59 Y Y Y T Y T T Y Y T 359 312 0,69 38,6 12,5 34,6 11,07 81,7 331 3,99 9,5 HT_DM P 69 Y T Y Y T T Y T Y Y 378 352 0,87 35,3 12,6 38,6 24,9 79,9 279 3,4 7,1 ULKUS_DM P 59 Y Y Y T Y T T Y Y Y 340 350 0,74 33,98 12,5 36,5 9,2 75,5 333 4,14 11,7 HT_DM P 60 T T Y T Y T T Y T Y 334 230 1,36 60,6 12,5 38 8,11 77 333 4,75 9,1 HT_DM L 47 Y Y T Y Y T Y T T Y 362 381 0,96 35,4 13,1 39,8 30,5 45,9 8,2 ULKUS_DM L 47 Y Y T Y Y T Y T T Y 362 381 0,96 35,4 13,1 39,8 30,5 45,9 8,2 ULKUS_DM P 75 T T T Y Y T Y T T T 378 355 0,62 42,2 14 38,8 6,8 93 288 4,47 13,5 5,5 ULKUS_DM P 50 Y T Y Y Y T Y T T T 378 351 0,98 43,1 13,5 41,5 7,48 56,8 286 4,54 9,9 ULKUS_DM P 50 Y T Y Y Y T Y T T T 378 351 0,98 43,1 13,5 41,5 7,48 56,8 286 4,54 9,9 ULKUS_DM P 65 T Y Y Y Y T T Y Y T 360 343 0,89 32,4 12,8 38,7 10,12 78,9 301 4,52 9,4 HT_DM L 54 T Y Y Y Y T T Y T Y 351 301 1,07 43 13 36,8 9,9 81,5 331 4,79 5,8 HT_DM L 47 Y T Y Y Y T T T T Y 388 355 0,84 45,1 8,4 23 19 78,8 251 2,6 3,4 ULKUS_DM P 80 T T T Y Y T T T T Y 388 352 1,41 52 10,8 30 30,2 63,8 268 6 6,9 ULKUS_DM P 89 T T Y T Y T T Y T Y 388 352 0,92 54,2 13,5 37,9 18,64 89,4 270 4,27 10,9 ULKUS_DM L 60 T T Y Y Y T T Y T Y 360 301 1,87 14,7 13,3 36,3 42,8 97,4 321 4,33 35,3 9,4 HT_DM P 73 Y T Y Y Y T Y T T T 388 352 1,52 55 11 32,5 30,2 69,5 269 7,2 7 ULKUS_DM P 65 Y Y Y Y T T Y Y T T 388 390 1 55,8 11,8 39 42,77 87 251 5,3 33,6 9,7 ULKUS_DM P 43 T Y T Y Y T Y T T T 378 352 2,1 56 10,7 34,1 9,25 87,7 268 4,03 8,3 ULKUS_DM L 50 Y Y T Y Y T T T T Y 362 351 0,9 57 13,7 38,9 24,52 21 300 4,71 36,1 ULKUS_DM P 55 Y T Y Y Y Y T Y T T 352 309 0,98 43,1 13,5 41,5 7,48 56,8 322 4,54 9,9 HT_DM


(2)

66

P 50 Y T Y Y Y Y T Y T T 360 309 0,98 43,1 13,5 41,5 7,48 56,8 322 4,54 9,9 HT_DM P 52 Y Y Y Y Y Y T Y T Y 358 301 0,68 14,9 13,5 39,8 10,9 82,8 349 5,17 HT_DM L 50 Y Y T Y Y T T T T Y 363 351 0,9 57 13,7 38,9 24,52 21 300 4,71 36,1 ULKUS_DM L 60 T T Y Y T T Y T T T 403 391 0,99 110,3 16,4 49,2 8,06 62,6 380 4,93 10,1 DM_NEUROPATI P 74 T T Y Y T T Y Y T T 378 381 0,77 58,8 12,9 37,6 8,5 90 300 4,79 13,9 5,4 ULKUS_DM L 68 T T Y T Y T T T T Y 378 351 1,03 60 11,9 35,4 8,1 69,1 300 4,47 33,6 12,5 ULKUS_DM P 68 T T Y T Y T T T T Y 389 351 1,03 60 11,9 35,4 8,1 69,1 300 4,47 33,6 12,5 ULKUS_DM L 70 T T T Y T T Y T T T 403 401 0,78 126,4 14,2 40,8 18,3 93 364 4,9 13,8 7,2 DM_NEUROPATI P 52 Y Y Y Y Y Y T Y T Y 358 301 0,68 14,9 13,5 39,8 10,9 82,8 349 5,17 9,3 HT_DM P 62 T T T Y Y T T T T Y 400 355 1,12 62,4 12,2 35,6 19,7 88,3 251 4,86 13,6 5,3 ULKUS_DM P 68 Y Y Y Y Y T T Y T Y 360 301 2,55 27 13,5 41 2,42 41,3 333 4,66 9,2 9,2 HT_DM L 50 Y Y Y T Y T T Y T Y 335 333 0,9 57 13,7 38,9 24,52 21 321 4,71 36,1 HT_DM L 57 Y T T Y Y T T Y T T 360 301 1,19 56,8 13,8 41,9 8,9 81,2 333 4,83 12,2 HT_DM P 62 Y T Y Y Y T T Y T T 360 301 0,63 19,8 14 41,3 2,87 48,5 301 4,91 11,7 HT_DM L 70 T T Y Y Y Y T Y Y Y 360 341 1,28 42,01 14 41,1 7,42 68,1 331 5,44 HT_DM L 70 Y T Y Y Y Y T Y Y Y 340 320 1,7 53,1 14,5 45,1 4,39 62,7 333 5,17 9,4 HT_DM P 66 T T T Y Y T T T T Y 400 355 1,12 62,4 12,2 35,6 19,7 88,3 286 4,86 13,6 5,3 ULKUS_DM P 70 Y T Y Y Y Y T Y Y Y 341 310 1,7 53,1 14,5 45,1 4,39 62,7 333 5,17 9,4 HT_DM P 58 T T Y Y Y Y T Y T Y 349 391 0,93 37,1 14,7 42,8 9,03 78 301 4,7 10,7 HT_DM P 60 Y T T Y Y T T T T Y 377 351 1,62 74,1 10,7 31,2 6 92,5 47,7 10,1 ULKUS_DM P 64 Y Y Y Y Y T Y T T Y 388 390 2,47 74,5 4,86 38,4 7,87 83,6 286 3,7 44,5 9,2 ULKUS_DM L 53 Y Y Y Y Y Y T Y Y Y 341 311 1 31,4 14,7 42,7 8,59 71,1 333 4,88 9,4 HT_DM L 50 Y T Y T Y T T Y T Y 350 1,7 24 14,8 42,7 49,4 9 HT_DM L 58 T T Y Y Y Y T Y T Y 334 301 1,42 43 14,8 44,2 6,24 76,8 333 5,04 38,4 HT_DM P 71 Y T T Y T T T T T T 378 351 1,9 82,4 12,4 37,4 15,95 86,8 286 4,09 8,3 ULKUS_DM


(3)

67

P 58 T Y Y Y T T T Y Y Y 378 381 2,05 106,7 9,4 28,3 3,38 65,4 261 3,39 10,1 ULKUS_DM L 61 Y Y T Y Y T T T Y Y 361 391 3,29 176 19,9 65,4 15,36 91,5 268 7,15 13,5 ULKUS_DM P 51 Y Y T Y T T T T Y Y 7,57 195,7 7,6 22,5 79,7 55,7 8,6 ULKUS_DM P 60 Y Y Y Y Y T T Y T Y 352 345 2,22 155 14,9 44,8 11,77 88,3 331 5,01 8,8 HT_DM L 55 Y T Y Y Y T T Y T Y 335 301 1,28 25,3 15,4 45,7 26,9 90,7 331 4,79 12,7 5,3 HT_DM P 70 Y Y Y Y T T Y T Y Y 362 355 9,6 28,6 4,92 77,7 268 3,1 8,2 ULKUS_DM L 61 T T T Y T T Y T T T 403 400 0,79 13,4 14,2 41,1 7,41 83,9 363 5,15 10,3 DM_NEUROPATI L 53 T T T T T T Y T Y T 404 335 0,79 29 11,6 35,1 9,37 80 452 6,19 10,7 DM_NEUROPATI L 70 T T T T T T Y T T Y 405 392 0,99 37 12,5 35,3 10,35 65 452 3,89 8,3 DM_NEUROPATI L 56 Y T T Y T T Y T T Y 400 395 0,78 41,2 11,3 34,4 6,53 71,3 400 4,08 7,2 DM_NEUROPATI L 60 T T Y Y T T Y T T T 402 391 0,91 110,3 16,4 49,2 8,06 62,6 380 4,93 10,1 DM_NEUROPATI


(4)

Lampiran 9 Keterangan Nama Kolom

Kode

Keterangan

K1

Jenis kelamin

K2

Keturunan

K3

Nafas

K4

Jantung dan darah

K5

Integumen

K6

Persyarafan

K7

Sendi

K8

Penglihatan

K9

Pendengaran

K10

Penciuman

K11

Pencernaan

K12

Gula darah puasa

K13

Gula darah 2 jam PP

K14

Creatin

K16

Urea

K17

Hemoglobin

K18

Hematrokit

K19

Lekosit

K20

Neutrofil

K21

Trombosit

K22

Eritrosit

K23

RDW-SD

K24

MPV


(5)

(6)