Identifikasi penyakit hepatitis dengan pendekatan Agglomerative Hierarchical Clustering.
ABSTRAK
Penyakit hepatitis merupakan salah satu jenis penyakit hati. Walaupun hepatitis memiliki
tipe yang bermacam-macam, tetapi gejala seseorang terkena penyakit hepatitis sangat mirip sehingga sangat sulit untuk menentukan bahwa orang tersebut terkena penyakit hepatitis tipe A, B atau C. Pada bidang teknik informatika, penelitian terkait hepatitis sudah pernah dilakukan sebelumnya oleh Estu Karunianingtyas. Pada penelitian tersebut hanya mendapatkan akurasi 51,11 % karena hanya menggunakan data gejala yang tidak pasti merujuk pada satu penyakit saja.
Pada penelitian ini menambahkan data laboratorium sehingga mempengaruhi hasil akurasi dimana data laboratorium dapat mendiagnosa dengan benar jenis penyakit hepatitis. Berdasarkan hal tersebut maka sistem cerdas dibuat untuk mengelompokkan pasien yang terinfeksi hepatitis A, B dan C sesuai dengan data gejala dan data laboratoriumnya. Tahap
pada penelitian ini menggunakan knowledge discovery in databases sehingga tujuan
penelitian dapat tercapai. Pengelompokkan ini menggunakan algoritma agglomerative
hierarchical clustering dengan pengukuran kemiripan single, average dan complete linkage. Ada empat pengujian yang dilakukan untuk menghitung akurasi, yaitu perhitungan data laboratorium yang mendapatkan hasil 100 %, data gabungan gejala dan laboratorium dengan hasil 82,72 %, data laboratorium dan data gejala yang sudah diproses dengan principal component analysisdengan hasil 80,90 % serta data laboratorium dan data gejala hasil dari
principal component analysisdengan 100 %. Hasil yang baik didapatkan oleh normalisasi
[0-1] dengan pengukuran kemiripan complete linkage. Data laboratorium yang digunakan untuk
(2)
Hepatitis is one of kind the liver diseases. There are many various types of hepatitis. However, the symptoms of hepatitis are very similar because of that it was very difficult to determine that the person was infected by hepatitis A, hepatitis B and hepatitis C. In informatics engineering’s field, the research about hepatitis diseases had been done by Estu Karunianingtyas. In that research, it just got accuracy about 51,11 % because it only used symptoms data that were not only indicated one disease.
This research added laboratory data to influence the result of accuracy in which laboratory data can diagnose the hepatitis diseases correctly. Based on the previous explanation, intelligent system was made in order to cluster the patients who were infected by hepatitis A, hepatitis B, and hepatitis C that were appropriate with the laboratory data and the symptoms data. The step of this research used knowledge discovery in databases so that the
purpose of this research can be achieved. The clustering’s algorithm that were
usedwereagglomerative hierarchical clustering with similarity measure of single, average and complete linkage.
There were four tests that were used to calculate the accuracy: calculation of laboratory data that got the result of 100 %, the data with a combination of symptoms and laboratory that got the result of 82.72 %, symptoms and laboratory data that had been processed by principal component analysis that got the result of 80,90 %, and the last was result of laboratory data from principal component analysis that combine with symptoms data was 100 %. The good results were obtained by normalization [0-1] and used the similarity measure of complete linkage. The laboratory data which were used to cluster were very useful because the accuracy result was good enough.
(3)
i
IDENTIFIKASI PENYAKIT HEPATITIS DENGAN
PENDEKATAN AGGLOMERATIVE HIERARCHICAL
CLUSTERING
SKRIPSIDiajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer
Program Studi Teknik Informatika
Disusun oleh : Christina Wienda Asrini
095314011
HALAMAN JUDUL
PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA YOGYAKARTA
(4)
ii
IDENTIFICATION OF HEPATITIS DISEASE BY USING
AGGLOMERATIVEHIERARCHICAL CLUSTERING
APPROACH
A ThesisPresented as Partial Fulfillment of the Requirements
To Obtain the Sarjana Komputer Degree
In Informatics Engineering Study Program
By :
Christina Wienda Asrini 095314011
HALAMAN JUDUL (Inggris)
INFORMATICS ENGINEERING STUDY PROGRAM DEPARTMENT OF INFORMATICS ENGINEERING
FACULTY OF SCIENCE AND TECHNOLOGY SANATA DHARMA UNIVERSITY
YOGYAKARTA 2013
(5)
iii HALAMAN PERSETUJUAN
(6)
iv HALAMAN PENGESAHAN
(7)
v
HALAMAN PERSEMBAHAN
Skripsi ini saya persembahkan untuk :
Tuhan Yesus Kristus, Keluarga tercinta, Dosen serta sahabat yang terkasih Terima Kasih atas segalanya God Bless!
(8)
vi
PERNYATAAN KEASLIAN KARYA
Saya menyatakan dengan sesungguhnya bahwa tugas akhir yang saya tulis tidak memuat karya atau bagian karya orang lain, kecuali yang telah disebutkan dalam kutipan dan daftar pustaka sebagaimana layaknya karya ilmiah.
Yogyakarta, 1 November 2013 Penulis
Christina Wienda Asrini
(9)
vii
LEMBAR PERNYATAAN PERSETUJUAN
PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS
HALAMAN PERSETUJUAN PUBLIKASI
Yang bertanda tangan dibawah ini, saya mahasiswa Universitas Sanata Dharma : Nama : Christina Wienda Asrini
NIM : 095314011
Demi pengembangan pengetahuan, saya memberikan kepada perpustakaan Universitas Sanata Dhama karya ilmiah yang berjudul :
IDENTIFIKASI PENYAKIT HEPATITIS DENGAN PENDEKATAN AGGLOMERATIVE HIERARCHICAL CLUSTERING
Beserta perangkat yang diperlukan (bila ada) dengan demikian saya memberikan kepada perpustakaan Universitas Sanata Dharma hak untuk menyimpan, mengalihkan dalam bentuk media lain, mengelolanya dalam bentuk pangkalan data, mendistribusikan secara terbatas dan mempublikasikan di internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya maupun memberikan royalti kepada saya selama tetap mencantumkan nama saya sebagai penulis.
Demikian pernyataan ini saya buat dengan sebenarnya.
Yogyakarta, ….. November 2013 Yang menyatakan,
(10)
viii
IDENTIFIKASI PENYAKIT HEPATITIS DENGAN PENDEKATAN AGGLOMERATIVE HIERARCHICAL CLUSTERING
ABSTRAK
Penyakit hepatitis merupakan salah satu jenis penyakit hati. Walaupun
hepatitis memiliki tipe yang bermacam-macam, tetapi gejala seseorang terkena penyakit hepatitis sangat mirip sehingga sangat sulit untuk menentukan bahwa orang tersebut terkena penyakit hepatitis tipe A, B atau C. Pada bidang teknik informatika, penelitian terkait hepatitis sudah pernah dilakukan sebelumnya oleh Estu Karunianingtyas. Pada penelitian tersebut hanya mendapatkan akurasi 51,11 % karena hanya menggunakan data gejala yang tidak pasti merujuk pada satu penyakit saja.
Pada penelitian ini menambahkan data laboratorium sehingga mempengaruhi hasil akurasi dimana data laboratorium dapat mendiagnosa dengan benar jenis penyakit hepatitis. Berdasarkan hal tersebut maka sistem cerdas dibuat untuk mengelompokkan pasien yang terinfeksi hepatitis A, B dan C sesuai dengan data gejala dan data laboratoriumnya. Tahap pada penelitian ini menggunakan
knowledge discovery in databases sehingga tujuan penelitian dapat tercapai.
Pengelompokkan ini menggunakan algoritma agglomerative hierarchical
clustering dengan pengukuran kemiripan single, average dan complete linkage. Ada empat pengujian yang dilakukan untuk menghitung akurasi, yaitu perhitungan data laboratorium yang mendapatkan hasil 100 %, data gabungan gejala dan laboratorium dengan hasil 82,72 %, data laboratorium dan data gejala yang sudah diproses dengan principal component analysisdengan hasil 80,90 %
serta data laboratorium dan data gejala hasil dari principal component
analysisdengan 100 %. Hasil yang baik didapatkan oleh normalisasi [0-1] dengan
pengukuran kemiripan complete linkage. Data laboratorium yang digunakan untuk
pengelompokkan sangat membantu karena hasil akurasi yang dihasilkan cukup baik.
(11)
ix
ABSTRACT
Hepatitis is one of kind the liver diseases. There are many various types of hepatitis. However, the symptoms of hepatitis are very similar because of that it was very difficult to determine that the person was infected by hepatitis A, hepatitis B and hepatitis C. In informatics engineering’s field, the research about hepatitis diseases had been done by Estu Karunianingtyas. In that research, it just got accuracy about 51,11 % because it only used symptoms data that were not only indicated one disease.
This research added laboratory data to influence the result of accuracy in which laboratory data can diagnose the hepatitis diseases correctly. Based on the previous explanation, intelligent system was made in order to cluster the patients who were infected by hepatitis A, hepatitis B, and hepatitis C that were appropriate with the laboratory data and the symptoms data. The step of this research used knowledge discovery in databases so that the purpose of this
research can be achieved. The clustering’s algorithm that were
usedwereagglomerative hierarchical clustering with similarity measure of single, average and complete linkage.
There were four tests that were used to calculate the accuracy: calculation of laboratory data that got the result of 100 %, the data with a combination of symptoms and laboratory that got the result of 82.72 %, symptoms and laboratory data that had been processed by principal component analysis that got the result of 80,90 %, and the last was result of laboratory data from principal component analysis that combine with symptoms data was 100 %. The good results were obtained by normalization [0-1] and used the similarity measure of complete linkage. The laboratory data which were used to cluster were very useful because the accuracy result was good enough.
(12)
x
KATA PENGANTAR
Puji dan syukur saya panjatkan kepada Tuhan Yesus Kristus karena limpahan kebaikan dan penyertaan-Nya sehingga saya dapat menyelesaikan tugas
akhir yang berjudul “Identifikasi Penyakit Hepatitis dengan Pendekatan
Aglomerative Hierarchical Clustering”. Pada proses penulisan tugas akhir ini, saya mengucapkan terima kasih yang sebesar-besarnya kepada :
1. Romo Dr. Cyprianus Kuntoro Adi, SJ, MA, M.Sc selaku dosen
pembimbing, terima kasih atas segala bimbingan dan kesabarannya sehingga saya dapat menyelesaikan tugas akhir ini.
2. Ibu Ridowati Gunawan, S.Kom, M.T dan Ibu Sri hartati Wijono, S.Si,
M.Kom, selaku dosen penguji yang telah memberikan banyak kritik dan saran terhadap tugas akhir saya.
3. Seluruh staff dosen dan laboran teknik informatika universitas sanata
dharma yang telah banyak memberikan bantuan selama saya menempuh studi.
4. Kedua orang tua saya, bapak Dwi Budiyanto dan ibu Endang Retno yang
senantiasa mendukung saya dengan doa, kasih sayang dan perhatiannya sehingga saya mampu menyelesaikan studi saya.
5. Adik satu-satunya Enggar Jati, saya juga mengucapkan terimakasih karena
(13)
xi
6. Keluarga saya yang lain, Eyang kakung dan eyang putri dari Magelang
dan Temanggung, Angga Satria, Dolorosa Lintang, Tante Woro dan Om Dwi yang juga telah memberikan dukungannya serta doa.
7. Sahabat yang luar biasa dari SMP, Lucia Septi dan Gofenni yang
senantiasa mendengarkan keluh kesah setiap saat serta memberi saya dukungan moril.
8. Teman-teman dari Teknik Informatika 2009, Cosmas Dipta, Mirella Tri,
Fiona Endah, Fidelis Adi, Audris Evan, Astriana Krisma, Rafaela Rosi, Dyah Ayu Paramita, Ade Ignatio, Nicodimus, Laurentius Puji, Petrus Kiki, Setyo Resmi, Wiwinniarti,Yoseph Dian, Agustinus Wikrama dan semua yang tidak sempat disebutkan, terimakasih atas segala dukungan, bantuan, canda-tawa dan doa sehingga saya dapat tetap semangat.
9. Teman-teman dari PBSID dan PBI 2009, Yohanes Marwan dan Paulina
Ine, yang membantu saya mengoreksi dan memberikan dukungan.
Dengan rendah hati penulis menyadari bahwa tugas akhir ini masih jauh dari sempurna. Oleh karena itu segala kritik dan saran untuk perbaikan tugas akhir ini sangat diperlukan. Akhir kata, semoga tugas akhir ini dapat bermanfaat bagi semua pihak. Sekian dan terima kasih.
Yogyakarta, 11 November 2013
(14)
xii DAFTAR ISI
HALAMAN JUDUL ... i
HALAMAN JUDUL (Inggris) ... ii
HALAMAN PERSETUJUAN ... iii
HALAMAN PENGESAHAN ... iv
HALAMAN PERSEMBAHAN ... v
HALAMAN PERNYATAAN KEASLIAN KARYA ... vi
HALAMAN PERSETUJUAN PUBLIKASI... vii
ABSTRAK ... viii
ABSTRACT ... ix
KATA PENGANTAR... x
DAFTAR ISI ... xii
DAFTAR GAMBAR ... xiv
DAFTAR TABEL ... xvi
BAB I ... 1
PENDAHULUAN ... 1
1.1 Latar Belakang... 1
1.2 Rumusan Masalah ... 4
1.3 Batasan Masalah ... 4
1.4 Tujuan Penelitian ... 5
1.5 Manfaat Penelitian ... 5
BAB II ... 6
LANDASAN TEORI ... 6
2.1 Pengertian Knowledge Discovery in Databases (KDD) ... 6
2.2 Jenis-Jenis Metode Data mining ... 10
2.3 Metode Clustering ... 13
2.3.1 Pengertian Clustering ... 13
2.3.2 Agglomerative Hierarchical Clustering ... 19
2.4 Dimensionality Reduction ... 29
(15)
xiii
2.6 Pengujian Keakuratan Metode... 34
BAB III ... 37
METODOLOGI PENELITIAN... 37
3.1 Data ... 37
3.2 Metode Pengumpulan Data ... 38
3.3 Teknik Analisa Data ... 39
3.4 Design User Interface ... 46
3.5 Spesifikasi Software dan Hardware ... 49
BAB IV ... 50
IMPLEMENTASI DAN ANALISA HASIL ... 50
4.1 Hasil Penelitian dan Analisa... 50
4.2 Preprocessing Data ... 52
4.3 Hasil Uji Clustering dan Akurasi ... 56
4.4 Implementasi User Interface ... 83
4.4.1 Tampilan menu utama ... 83
4.4.2 Tampilan sub menu preprocessing ... 84
4.4.3 Tampilan sub menu clustering ... 86
4.4.4 Tampilan menu help ... 89
BAB V ... 90
PENUTUP ... 90
5.1 Kesimpulan... 90
5.2 Saran ... 92
(16)
xiv
DAFTAR GAMBAR
Gambar Keterangan Halaman
2.1 Proses KDD 7
2.2 Obyek dan atribut 9
2.3 Ilustrasi algoritma Apriori 11
2.4 Hasil clustering pada data
hipertensi
13
2.5 Dendrogram 16
2.6 Hasil ilustrasi clustering 19
2.7 Matriks jarak 21
2.8 Matriks jarak kedua single linkage 22
2.9 Matriks jarak ketiga single linkage 22
2.10 Matriks jarak terakhir single linkage
23 2.11 Dendrogram single linkage untuk
jarak antara lima obyek
23 2.12 Matriks jarak kedua complete
linkage
24 2.13 Matriks jarak ketiga complete
linkage
25 2.14 Demdrogram complete linkage
untuk jarak antara lima obyek
25 2.15 Matriks jarak kedua average
linkage
26 2.16 Matriks jarak ketiga average
linkage
27 2.17 Matriks jarak terakhir average
linkage
27 2.18 Demdrogram average linkage
untuk jarak antara lima obyek
28 2.19 Dendrogram yang sudah di
lakukan pemotongan (cut-off)
28
3.1 Diagram blok proses clustering 40
3.2 Dendrogram single linkage 41
3.3 Dendrogram average linkage 42
3.4 Dendrogram complete linkage 42
3.5 Halaman utama 47
3.6 Halaman preprocessing 48
3.7 Halaman clustering 49
4.1 Dendrogram complete linkage 60
4.2 Dendrogram complete linkage 61
(17)
xv
4.4 Dendrogram complete linkage 63
4.5 Dendrogram complete linkage 65
4.6 Grafik akurasi tanpa normalisasi 66
4.7 Dendrogram single linkage 68
4.8 Dendrogram average linkage 68
4.9 Dendrogram complete linkage 69
4.10 Dendrogram complete linkage 70
4.11 Dendrogram complete linkage 71
4.12 Dendrogram single linkage 73
4.13 Dendrogram average linkage 73
4.14 Dendrogram complete linkage 74
4.15 Hasil akurasi dengan normalisasi [0-1]
75
4.16 Dendrogram single linkage 76
4.17 Dendrogram complete linkage 78
4.18 Dendrogram complete linkage 79
4.19 Dendrogram complete linkage 80
4.20 Hasil akurasi dengan normalisasi
zscore
81
4.21 Halaman utama sistem 84
4.22 Halaman preprocessing sistem 85
4.23 Halaman clusterig sistem 87
4.24 Contoh Dendrogram 88
(18)
xvi
DAFTAR TABEL
Gambar Keterangan Halaman
2.1 Contoh data klasifikasi 11
2.2 Contoh data clustering 12
2.3 Contoh data 20
2.4 Contoh matrik similiarity 20
2.5 Cluster Evaluation 34
3.1 Data gejala hepatitis 40
3.2 Contoh matrik jarak dengan
Euclidean distance
43
3.3 Hasilcluster 45
3.4 Confusion matrix 46
4.1 Deskripsi data gejala hepatitis 51
4.2 Deskripsi data laboratorium
hepatitis
52
4.3 SGOT dan SGPT sebelum dan
sesudah normalisasi
54
4.4 Penanda hepatitis sebelum dan
sesudah normalisasi
55
4.5 Hasil tanpa normalisasi 59
4.6 Confusion matrix complete linkage 61 4.7 Confusion matrix complete linkage 62 4.8 Confusion matrix single linkage 63 4.9 Confusion matrix complete linkage 64 4.10 Confusion matrix complete linkage 65 4.11 Hasil akurasi dengan normalisasi
[0-1]
66 4.12 Confusion matrix single linkage,
average lnkage, complete linkage
69 4.13 Confusion matrix complete linkage 70 4.14 Confusion matrix complete linkage 72 4.15 Confusion matrix complete linkage 74 4.16 Hasil akurasi dengan normalisasi
zscore
75 4.17 Confusion matrix single linkage 77 4.18 Confusion matrix complete linkage 78 4.19 Confusion matrix complete linkage 79 4.20 Confusion matrix complete linkage 80 4.21 Hasil pengelompokkan dengan
agglomerative hierarchical clustering
(19)
1
BAB I
PENDAHULUAN
Pada bab ini menjelaskan latar belakang yang menjadi landasan dalam penelitian ini. Kemudian dari latar belakang yang ada dirumuskan permasalahan untuk diselesaikan beserta batasan masalah yang diberikan pada penelitian ini. Pada bab ini juga menjelaskan mengenai tujuan dari penelitian dan manfaat penelitian
1.1 Latar Belakang
Kesehatan merupakan hal yang sangat penting dan perlu dijaga oleh masyarakat. Dewasa ini, masyarakat mudah terserang penyakit karena perubahan cuaca yang ekstrim, kondisi lingkungan yang tidak bersih, dan pola hidup yang tidak teratur. Selain itu, penyakityang ada kinimemiliki beragam tipe. Penyakit tersebut mulai mengalami perubahan (mutasi) sehingga menghasilkan tipe penyakit baru, seperti flu burung dengan tipe baru yang lebih ganas dari tipe sebelumnya. Penyakit yang sudah lama pun ada yang memiliki beragam tipe seperti hepatitis, jantung dan diabetes.
Penyakit hepatitis merupakan salah satu penyakit yang sekarang ini mulai banyak diderita terutama hepatitis B dan C (Abas, 2011). Penyakit hepatitis
mempunyai tipe-tipe yang berbeda, antara lain hepatitis A, hepatitis B, hepatitis C, hepatitis D, hepatitis E, hepatitis F dan hepatitis G. Hepatitis A merupakan tipe
hepatitis yang paling ringan, sedangkan hepatitis B merupakan tipe hepatitis yang berbahaya. Ada 15 juta penderita atau sebanyak 50 persen penderita hepatitis B
(20)
dan C di Indonesia akan menjadi penyakit hati kronik, sedangkan 10 persen penderita menjadi penyakit liver fibrosis dan kanker hati (Dimyati, 2011). Istilah
hepatitisberasal dari bahasa latin yang dipakai untuk semua jenis peradangan pada hati (Wening Sari, 2008:10). Penyakit inimemiliki penyebab antara lain, virus, komplikasi dari penyakit lain, alkohol, obat-obatan atau zat kimia sampai karena
penyakit autoimun (Wening Sari, 2008:16). Proses pemeriksaan yang dilakukan
dokter dengan cara melakukan pemeriksaan fisik dananamnesisserta pemeriksaan
laboratorium.
Pemilihan penyakit hepatitis dilakukan karena banyak orang yang tidak
sadar terkena penyakit hepatitis tipe tertentu karena gejalanya yang mirip. Hal ini dapat dijadikan studi kasus pada data mining. Data mining adalah bagian dari
knowledge discovery in databasesyang merupakan keseluruhan proses konversi data mentah menjadi pengetahuan yang bermanfaat yang terdiri dari serangkaian tahap transformasi meliputi data preprocessing dan postprocessing. Pengertian
data mining itu merujuk pada “extracting” atau “mining” pengetahuan dari
sekumpulan besar data (Han&Kamber,2004). Data mining memiliki beberapa
metode, antara lain classification, association dan clustering.
Penelitian terkait hepatitis sudah pernah dilakukan sebelumnya, yaitu
“Sistem Diagnosa Penyakit Hepatitis dengan menggunakan Metode Naïve
Bayesian” oleh EstuKarunianingtyas. Penelitian tersebut menggunakan data mining untuk menentukan pasien tertentu masuk pada kelas hepatitis A, B atau C berdasarkan gejala. Akurasi pada penelitian sebelumnya tergolong rendah karena hanya mendapatkan 51,11 persen untuk kombinasi gejala dan 44,44 persen untuk
(21)
per gejala. Penelitian ini akan memasukkan pemeriksaan laboratorium dalam
proses analisis. Metode clustering digunakan karena dengan menggunakan
pendekatan yang berbeda dan menambah feature yang lebih lengkap maka dapat memberikan hasil pengelompokan yang berbeda dan lebih baik.Data gejala dan
data hasil laboratoriumhepatitis akan dikelompokkan sesuai dengan tipe
hepatitisnya dengan menemukan kemiripan antar data, maka akan terbentuk kelompok yang berisi data pasien yang terkena hepatitis A, hepatitis B dan
hepatitis C.
Algoritmayang digunakandengan pendekatan hirarki yaituagglomerative
hierarchical clustering. Algoritma tersebut mengelompokkan data gejala yang
mirip ke dalam cluster yang sama, sedangkan yang jauh dikelompokkan pada
hirarki yang berbeda. Proses yang dikerjakan mulai dari Ncluster menjadi satu kesatuan cluster, dimana N adalah jumlah data. Perbedaan penelitian ini dengan penelitian sebelumnya adalah metode yang digunakan. Selain itu, penelitian ini juga menambahkan data hasil laboratorium sehingga akurasi pengelompokkannya dapat lebih tinggi.Penelitian ini penting untuk dilakukan karena dapat membantu
dalam mengelompokkan data gejala pasien menurut tipe penyakit
(22)
1.2 Rumusan Masalah
Berdasarkan latar belakang yang telah dikemukakan di atas, maka permasalahan yang akan dibahas dalam penelitian ini, yaitu :
- Sejauh mana metode agglomerativehierarchicalclustering secara akurat
mampu mengelompokkan pasien yang terkena hepatitis A, B atau C?
1.3 Batasan Masalah
Pada pengerjaan penelitian ini diberikan batasan-batasan masalah untuk permasalahan yang ada antara lain,
1. Metode data mining yang digunakan adalah dengan menggunakan
agglomerativehierarchical clustering.
2. Jenis pengukuran kemiripan yang digunakan adalah single linkage,
average linkage dan complete linkage menggunakan prinsip jarak minimum yang diawali dengan mencari dua obyek terdekat dan keduanya
membentuk cluster
3. Penyakit hepatitis yang akan diteliti hanya yang bertipe A, B dan C sampelnya akan diambil dari kumpulan pasien yang berobat pada dokter
(23)
1.4 Tujuan Penelitian
Berdasarkan rumusan permasalahan diatas, maka tujuan yang ingin dicapai dalam penelitian ini, yaitu :
1. Menganalisa, merancang, mengimplementasikan sistem cerdas untuk
mengelompokan penyakit hepatitis.
2. Mengetahui hasil pengelompokan pasien yang terkena penyakit hepatitis
A, hepatitis B dan hepatitis C dengan metode agglomerative hierarchical clustering.
3. Menguji kehandalan sistem dengan menghitung akurasi pengelompokan.
1.5 Manfaat Penelitian
Manfaat yang diberikan penelitian ini, yaitu :
1. Membantu menganalisa permasalahan yang ada dibidang kedokteran
dengan metode data mining.
2. Menjadi referensi bagi penelitian-penelitian berikut yang relevan dengan
(24)
6
BAB II
LANDASAN TEORI
Bab ini menjelaskan tentang dasar teori yang digunakan dalam penyusunan tugas akhir ini untuk memperjelas materi-materi yang digunakan dalam penelitian.
Penjelasan dimulai dengan Knowledge Discovery in Databases, tentang penyakit
hepatitis, cara perhitunganagglomerative hierarchical clustering danmetode akurasi yang akan dipakai.
2.1 Pengertian Knowledge Discovery in Databases (KDD)
Data mining adalah bagian dari Knowledge Discovery in Databases yang merupakan kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam data yang berukuran besar
(Santoso, 2007). Data mining juga merupakan ilmu pengetahuan yang sekarang
sering digunakan untuk mencari informasi yang berada pada kumpulan data yang
berjumlah banyak. Pengertian data mining itu merujuk pada extracting atau
mining pengetahuan dari sekumpulan besar data (Han&Kamber,2004).
Knowledge discovery in databases memiliki proses yang harus dilakukan
dalam mencari pengetahuan yang diperlukan, yaitu data cleaning, data
integration, data selection, data transformation, data mining dan pattern evaluationyang dapat dilihat pada gambar 2.1.
(25)
Gambar 2.1 : (Han& Kamber,2004)Proses KDD
1. Data cleaning
Langkah pertama adalah dengan melakukan pembersihan terhadap data. Proses ini bertujuanuntuk menghilangkan noise dan data yang tidak konsisten.
2. Data integration
Pada tahap ini, sumber data yang terpecah dan terpisah akan digabungkan dari segala macam tempat penyimpanan menjadi satu tempat.
3. Data selection
Pada data selection, data yang relevan diambil dari database untuk dianalisis. Atribut yang tidak relevan tidak akan digunakan dalam proses selanjutnya.
4. Data transformation
Pada tahap ini data diubah menjadi bentuk yang tepat untuk
(26)
smooting, aggregation, generalization dan attribute construction atau
feature construction. Contoh metode normalisasi, yaitu [0-1] dan zscore. Definisi rumus normalisasi[0-1], sebagai berikut .
�= �− � �
� − � � Keterangan :
- Xi = nilai yang akan dinormalisasi
- Xmin = nilai minimum dari variabel
- Xmax = nilai maksimum dari variabel
Definisi rumus zscore, sebagai berikut :
= � − �
�
(2.2)
Keterangan :
- X = nilai yang akan di normalisasi
- µ = rata-rata
- σ = standar deviasi
5. Data mining
Pada proses data mining ini merupakan suatu proses utama saat
(27)
6. Pattern evaluation
Pada tahap ini, mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan berdasarkan atas beberapa pengukuran yang penting.
7. Knowledge presentation
Langkah terakhir ini informasi yang sudah ditambang akan divisualisasikan dan direpresentasikan kepada user.
Langkah 1 sampai dengan 4 merupakan langkah preprocessing. Setelah
melakukan serangkaian proses diatas seperti data cleaning, data integration, data
selection dan data transformation, maka hasilnya siap untuk dilakukan proses
mining. Pada data mining, data yang dipakai merupakan sekumpulan obyek data dan atribut. Atribut merupakan karakteristik yang dimiliki oleh sebuah obyek. Gambar 2.2 memperlihatkan obyek serta atribut pada sekumpulan dataset yang
akan diukur dengan menggunakan metode pada data mining.
(28)
2.2 Jenis-Jenis Metode Data mining
Pada model data mining dibuat dari metode pembelajaran dengan
supervised dan unsupervised. Fungsi pembelajaran supervised digunakan untuk memprediksi suatu nilai dan mempunyai keluaran berupa label dari setiap data. Pada supervised memiliki proses training dan testing terhadap data yang ada. Setelah dilakukan proses tersebut, maka dapat diketahui parameter yang digunakan untuk menentukan model. Model ini yang akan melakukan tugas
prediksi atau peramalan. Contoh dari algoritma dengan pembelajaran supervised,
yaitu naïve Bayesian. Fungsi pembelajaran unsupervised tidak memerlukan label
dan datanya tidak perlu dilakukan proses training dan testing. Label yang ada
pada unsupervised adalah label dari data yang akan dikelompokkan sehingga
dengan label tersebut dapat diketahui bahwa data tersebut masuk ke dalam
kelompok tertentu. Contoh algoritma unsupervised, yaitu k-means clustering dan
agglomerative hierarchical clustering.
Data mining memiliki beberapa metode yang sering dibahas, antara lain
classification, association danclustering. Setiap metode memiliki berbagai macam algoritma sesuai dengan karakteristiknya masing-masing.
a. Classification mining adalah sebuah pengekstraksi pola pengelompokan atau pengklasifikasian sebuah himpunan obyek atau data ke dalam kelas tertentu berdasarkan atribut-atributnya. Contoh algoritma klasifikasi adalah naïve bayesian, decision tree dan support vector machine. Berikut ini merupakan contoh kasus data penyakit hipertensi untuk classification.
(29)
Tabel 2.1 (Ali, 2006) contoh data klasifikasi
Pada contoh tersebut terdapat label pada setiap obyek data yang menjadi kesimpulan bahwa orang tersebut terkena hipertensi atau tidak.
b. Association mining adalah sebuah cara untuk menemukan pola asosiasi
dalam data. Contoh pada association, mempunyai algoritma apriori,
FPTree. Berikut ini merupakan contoh kasus pada association.
(30)
Contohnya pada saat menganalisa keranjang belanja dengan menghitung
support dan confidence pada masing-masing item set, maka dapat
diketahui pola asosiasinya seperti barang-barang yang dibeli secara bersamaan pada suatu transaksi pembelian. Pola tersebut berguna untuk keperluan promosi, segmentasi pembeli, pembuatan catalog produk dan melihat pola belanja pembeli.
c. Clustering mining adalah proses mencari cluster atau kelompok dari
sekumpulan obyek sehingga obyek-obyek di dalam sebuah cluster mirip
satu dengan lainnya, dan berbeda dengan obyek di luar cluster-nya. Ada 2
jenis clusteringyang biasa digunakan, yaitu hierarchical clustering dan
partition clustering. Contoh algoritma yang ada pada clustering adalah K-Means dan agglomerative. Berikut ini contoh data pada clustering.
(31)
Pada gambar tersebut tidak terdapat label yang menyertakan orang tersebut
terkena hipertensi atau tidak. Pada clustering, ditentukan labelnya
berdasarkan tingkat kemiripan data. Seperti pada gambar dibawah ini terdapat 2 buah cluster,cluster pertama berada pada tingkat gemuk dan sangat gemuk serta terletak pada usia muda dan paruh baya. Sedangkan
cluster kedua pada tingkat terlalu gemuk dan usia paruh baya dan tua,
maka dari hal tersebut dapat disimpulkan bahwa pada cluster kedua
merupakan pasien yang terkena hipertensi. Sedangkan pada cluster
pertama tidak.
Gambar 2.4 (Ali, 2006) hasil clusteringpada data hipertensi
2.3 Metode Clustering 2.3.1 Pengertian Clustering
Metode data mining yang akan dipakai adalah clustering.Clustering
merupakan proses pengelompokan objek yang sama menjadi satu kelompok, sedangkan obyek diantara kelompok tersebut berbeda satu sama lain. Pada proses
(32)
dalam cluster yang sama dan berbeda untuk objek dalam kelompok lain. Tujuan
dari cluster ini untuk menemukan kemiripan antara data, sesuai dengan
karakteristik yang ditemukan di dalam data dan pengelompokan data objek yang sama ke dalam kelompok-kelompok tertentu (Han&Kamber.2004). Jadi, prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu cluster dan
meminimumkan kesamaan antar cluster.
Pada clustering terdapat 2 jenis metode, yaituhierarchical clusteringdan
partition clustering. Hierarchical clusteringadalah teknik clustering yang membentuk hirarki dimana data yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak pada hirarki yang berjauhan. Metode ini terbagi
menjadi dua yaitu bottom-up (agglomerative) yang menggabungkan cluster kecil
menjadi cluster lebih besar dan top-down (divisive) yang memecah cluster besar menjadi cluster yang lebih kecil. Sedangkan partition clustering adalah teknik
pengelompokan obyek ke dalam cluster tertentu dengan menentukan jumlah
cluster terlebih dahulu. Contohnya: algoritma K-Means dan Fuzzy K-Means.
Metode yang akan digunakan untuk penelitian ini menggunakan pendekatan
hirarki yaitu dengan menggunakan agglomerative hierarchical clustering.
Pemilihan metode agglomerative hierarchical clusteringkarena algoritmanya
yang sederhana, jarak untuk setiap gejala dapat diketahui, model
pengelompokannya dapat dilihat dengan dendrogram, dan tidak perlu menentukan
jumlah cluster yang diinginkan diawal. Metode tersebut bekerja dengan
mengelompokan data-data yang mirip ke dalam hirarki yang sama sedangkan
(33)
proses clustering dari Ncluster menjadi satu kesatuan cluster, dimana N adalah jumlah data. Jenis pengukuran jarak yang akan digunakan adalah single linkage, average linkagedan complete linkage. Penggunaan tiga pengukuran kemiripan jarak karena dapat mengetahui mana hasil yang terbaik dengan melihat dendrogram yang dihasilkan.
a. Single linkage merupakan jarak minimum antara elemen dari setiap
cluster. Jarak antara dua cluster didefinisikan sebagai
(2.3)
Keterangan :
- Sxy merupakan jarak antara dua data x dan y dari masing cluster A
dan B.
b. Average linkagemerupakan rata-rata jarak antara elemen dari setiap
cluster pada setiap data. Jarak antar cluster didefinisikan sebagai,
, = 1 { , } �
�
(2.4) Keterangan :
- nA dan nB adalah banyaknya data dalam set A dan B.
d(A,B) = min {Sxy }
(34)
c. Complete linkagemelihat jarak maksimum antar elemen dalam cluster. Jarak antar cluster didefinisikan sebagai,
(2.5)
Keterangan :
- Sxy merupakan jarak antara dua data x dan y dari masing cluster A
dan B.
Ketiga jenis pengukuran jarak tersebutmenggunakan prinsip jarak minimum yang diawali dengan mencari dua obyek terdekat dan keduanya membentuk
cluster yang pertama. Langkah selanjutnya dapat dipilih menjadi dua
kemungkinan, obyek ketiga akan bergabung dengan cluster yang telah terbentuk,
atau membentuk cluster baru. Proses ini akan berlanjut sampai akhirnya terbentuk
cluster tunggal. Hasil dari pengelompokan ini dapat ditampilkan dalam bentuk dendrogram.
Gambar 2.5 : dendrogram
d(A,B) = max {Sxy }
(35)
Pada dendrogram diatas terdapat jarak antar obyek. Garis vertikal merupakan jarak, sedangkan garis horizontal merupakan obyek. Salah satu cara
untuk mempermudah pengembangan dendrogram untuk hierarchicalclustering ini
adalah dengan membuat similarity matrix yang memuat tingkat kemiripan antar data yang dikelompokkan. Tingkat kemiripan bisa dihitung dengan berbagai macam cara seperti :
a. Euclidean distance, pengukuran jarak yang biasa digunakan dan sering
disebut dengan formula phytagoras.
(2.6) Keterangan :
- n = jumlah atribut atau dimensi.
- pkdan qk= data.
b. Minskowski distance, merupakan generalisasi dari euclidean matrix.
(2.7) Keterangan :
1. r = parameter
2. n = jumlah dimensi atau atribut,
(36)
c. Simple Matching Coefficients, biasa digunakan jika data hanya memiliki atribut bertipe biner. Cara kerjanya adalah jumlah data yang cocok dibagi dengan jumlah atribut.
SMC = (M11+ M00 ) / (M01 + M10 + M11+ M00 )
(2.8)
Keterangan :
1. M01 = jumlah atribut dimana p = 0 dan q = 1
2. M10 = jumlah atribut dimana p = 1 dan q = 0
3. M00 = jumlah atribut dimana p = 0 dan q = 0
4. M11 = jumlah atribut dimana p = 1 dan q = 1
d. Jaccard Coefficient, biasa digunakan jika data hanya memiliki atribut bertipe biner. Cara kerjanya adalah jumlah biner 1 dan 1 yang cocok dibagi dengan jumlah nilai atribut yang keduanya tidak 0.
J = (M11) / (M01 + M10 + M11)
(2.9) Keterangan :
1. M01 = jumlah atribut dimana p = 0 dan q = 1
(37)
3. M00 = jumlah atribut dimana p = 0 dan q = 0
4. M11 = jumlah atribut dimana p = 1 dan q = 1
2.3.2 Agglomerative Hierarchical Clustering
Pada agglomerative hierarchical clustering, harus dihitung jarak masing-masing obyek. Setelah jarak dari semua obyek dihitung, maka lakukan langkah-langkah berikut ini :
1. Biarkan setiap data point menjadi sebuah cluster
2. Hitung matriks kemiripan
3. Kelompokkan data paling mirip untuk dimasukan ke dalam cluster yang
sama dengan melihat jarak dalam matriks kemiripan
4. Perbarui matriks kemiripan dengan jarak yang baru.
5. Ulangi sampai tersisa hanya satu cluster. (Tan,Steinbach,dkk 2004).
(38)
Rumus yang digunakan dalam menghitung jarak antar obyek
bermacam-macam dan salah satu yang digunakan adalah euclidean distance. Pada tabel
dibawah ini merupakan contoh data yang belum dihitung jarak kedekatannya. Dari
tabel inilah dapat dihitung dengan menggunakan rumus euclidean distance.
Tabel 2.3 Contoh Data
Titik X Y
1 0.4 0.53
2 0.22 0.38
3 0.35 0.32
4 0.26 0.19
5 0.08 0.41
6 0.45 0.30
Setelah dihitung jarak antar obyek maka dibuatkan matriks jarak. Dalam matriks ini jarak dari setiap pasang obyek dihitung dan nilai dalam satu masukan menunjukan jarak antar obyek dari indeks dari kolom dan baris. Matriks jarak ini bersifat simetris.
Tabel 2.4 Contoh Matriks Similiarity
1 2 3 4 5 6
1 0 0.24 0.22 0.37 0.34 0.23
2 0.24 0 0.15 0.20 0.14 0.25
3 0.22 0.15 0 0.15 0.28 0.11
4 0.37 0.20 0.15 0 0.29 0.22
5 0.34 0.14 0.28 0.29 0 0.39
6 0.23 0.25 0.11 0.22 0.39 0
Untuk mengukur jarak antara dua cluster A dan B digunakan 3 pengukuran
kemiripan, yaitu :
(39)
Pada single linkage, akan mengelompokan data dengan cara melihat jarak yang paling minimum.
Gambar 2.7 : matriks jarak
Pertama gabungkan dua item yang paling dekat, karena objek 5 dan 3 memiliki jarak yang minimum, maka kedua obyek tersebut digabung min(dik ) = d53 = 2 untuk membentuk cluster (35). Kemudian untuk
menemukan cluster berikutnya, maka memerlukan jarak-jarak antara
cluster (35) dan objek-objek yang lain yang tersisa yaitu 1, 2 dan 4. Jarak yang berdekatan, yaitu :
- d (35 )1 = min { d 31, d 51} = min {3, 11} = 3 - d (35 )2 = min { d 32, d 52} = min {7, 10} = 7 - d (35 )4 = min { d 34, d 54} = min { 9, 8} = 8
Kemudian menghapus baris dan kolom yang bersesuaian dengan objek 3,
(40)
Gambar 2.8 : matriks jarak keduasingle linkage
Dari matriks jarak yang baru tersebut, cari jarak terkecil antara pasangan-pasangan cluster sekarang, yaitu d (35)1 = 3. Lalu menggabungkan cluster
(1) dengan cluster (35) untuk mendapatkan cluster berikutnya dengan menghitung :
- d (135 )2 = min { d (35)2, d 12} = min {7, 9} = 7 - d (135 )4 = min { d (35)4, d 14} = min {8, 6} = 6
Kemudian hapus baris dan kolom dari cluster (35) dan (1), maka akan mendapatkan matrik jarak untuk hasil cluster berikutnya, yaitu :
Gambar 2.9 : matriks jarak ketigasingle linkage
Jarak terdekat berikutnya yang paling kecil antara pasangan cluster adalah
(41)
Saat ini sudah mempunyai 2 cluster yang berlainan, (135) dan (24), maka jarak terdekatnya, yaitu
- d (135 )24 = min { d (135 )2 , d (135 )4 } = min {7, 6} = 6
Proses perhitungan sudah selesai karena cluster sudah tersisa satu. Dari hasil diatas menghasilkan matriks jarak yang terakhir dan dendrogramnya sebagai berikut :
Gambar 2.10 : matriks jarak terakhirsingle linkage
Gambar 2.11: Dendrogram single linkage untuk jarak antara 5 obyek
b. Jarak maksimum antara elemen dalam cluster (complete linkage).
Pada complete linkage, semua item dalam satu cluster berada dalam jarak
paling jauh satu sama lain. Pada complete linkage ini menggunakan
(42)
Pada tahap pertama objek- objek 3 dan 5 digabung karena jaraknya paling dekat. Perbedaan single linkagedengan complete linkageadalah pemilihan jaraknya. Setelah dihitung maka akan menghasilkan matriks jarak baru.
Kolom dan baris 3 dan 5 akan dihapus untuk membentuk cluster 35.
- d (35 )1 = maks { d 31, d 51} = maks {3, 11} = 11 - d (35 )2 = maks { d 32, d 52} = maks {7, 10} = 10 - d (35 )4 = maks { d 34, d 54} = maks { 9, 8} = 9
Gambar 2.12 : matriks jarak keduacomplete linkage
Penggabungan berikutnya terjadi antara kelompok yang paling dekat 2 dan
4 untuk membentuk cluster (24) = 5. Pada tahap ini menghasilkan matrik
jarak yang baru dengan menghapus baris dan kolom yang bersesuaian.
- d (24)(35) = maks { d 2(35), d 4(35)} = maks {10, 9} = 10 - d (24)1 = maks { d 21, d 41} = 9
(43)
Gambar 2.13: matriks jarak ketigacomplete linkage
Penggabungan berikutnya menghasilkan cluster (124). Pada tahap akhir
kelompok (35) dan (124) digabungkan menjadi cluster tunggal (12345)
pada perhitungan d (124)(35) = maks { d (1)(35) , d (24)(35) } = maks {11, 10} = 11. Dari hasil inilah maka dapat dibuat bentuk dendrogramnya seperti pada gambar dibawah ini.
(44)
c. Rata-rata jarak antara elemen dari setiap cluster (average linkage).
Pada average linkage, jarak antara dua cluster dihitung sebagai jarak rata-rata antara semua pasangan item-item yang ada pada tiap cluster. Pada
average linkageini juga masih menggunakan matriks jarak pertama. Pada tahap pertama objek 3 dan 5 digabung karena mereka paling dekat jaraknya. Pada tahap kedua, hitung jarak seperti dibawah ini.
- d (35 )1 = { d 31+ d 51}/ 2 = {3 +11}/ 2 = 7 - d (35 )2 = { d 32 + d 52}/2 = {7 + 10}/2 = 8,5 - d (35 )4 = { d 34 + d 54}/2 = { 9 + 8}/2 = 8,5
Gambar 2.15 : matriks jarak keduaaverage linkage
Kemudian cari jarak yang paling dekat berikutnya. Kelompok yang paling
mirip adalah 2 dan 4 untuk membentuk cluster (24) = 5. Pada tahap ketiga,
hitung gabungan cluster untuk menghasilkan matrik jarak yang baru.
- d (24)35 = {d (2,3) + d(2,5) + d(4,3) +d(4,5) }/4 = (7+10+9+8)/4 = 8,5 - d (24)1 = { d (2,1) + d (4,1) }/2 = (9+6)/2 = 7,5
(45)
Gambar 2.16: Matriks jarak ketigaaverage linkage
Pada tahap ini, jarak yang paling dekat menghasilkan cluster (135). Kemudian cluster (135) dan (24) digabungkan menjadi cluster tunggal (13524). Perhitungan ini akan menghasilkan matriks jarak baru dan dendrogram.
- d (135)(24) = { d (2,1)+ d (2,3) + d (2,5) + d (4,1)+ d (4,3) + d
(4,5) }/6 = 49/6 =8,17
Gambar 2.17: matriks jarak terakhir average linkage
0
0
(46)
Gambar 2.18 : Dendrogram average linkage untuk jarak 5 obyek.
Setelah proses perhitungan dengan single linkage, average linkage dan
complete linkage, maka dibuatkan dendrogram untuk mengetahui
pengelompokkan dari hasil perhitungan tersebut. Pada, agglomerative
hierarchical clustering, dapat menentukan jumlah cluster dengan cara memotong dendrogram pada jarak tertentu. Contohnya pada gambar dibawah ini. Pada gambar 2.21 dapat dilihat bahwa cluster terbagi menjadi 2. Cluster 1 berisi obyek 1, 3 dan 5, sedangkan cluster 2 berisi obyek 2 dan 4.
Gambar 2.19 : Dendrogram yang sudah dilakukan pemotongan (cut-off)
(47)
2.4 Dimensionality Reduction
Dimensionality reduction adalah proses pengurangan dimensi dari data yang berdimensi besar menjadi data yang berdimensi kecil. Ada dua teknik dalam
dimensionality reduction ini, yaitu feature selection dan feature extraction.
Feature selection, memilih feature yang berpengaruh dari sekumpulan data asli.
Feature extraction, membentuk feature baru berdasarkan feature yang lama dengan dimensi yang lebih sedikit dibandingkan dengan sebelumnya.
Teknik yang digunakan adalah featureextraction dengan principal
component analysis. Tujuan dari principal component analysis adalah mengekstrak informasi yang paling penting dari dataset, mengompres ukuran dari dataset dengan hanya menjaga informasi yang penting, menyederhanakan deskripsi dari dataset dan menganalisa struktur dari observasi dan variable
(Herve,Lynne2010). Dalam pencapaian tujuan diatas, principal component
analysis menghitung variabel baru yang disebut dengan principal component yang diperoleh sebagai kombinasilinear dari variabel yang asli.Principal component analysis menganalisa semua variance di dalam variabel dan mengatur ulang ke dalam sekumpulan komponen yang baru yang sama dengan jumlah variabel asli. Cara kerja dari principal component analysis, antara lain :
1. Pada data matrix, kurangi rata-rata dari setiap dimensi data (scalling).
2. Hitung covariance matrix dari kumpulan data matrix.
3. Hitung eigenvector dan eigenvalue dari covariance matrix.
4. Pilih component dan bentuk vector feature dan ambil principal
(48)
5. Menurunkan data set yang baru. (Smith, 2002).
2.5 Penyakit Hepatitis
Penyakit hepatitisadalah penyakit yang disebabkan oleh beberapa jenis virus
yang menyebabkan peradangan serta merusak sel-sel organ hati manusia. Penyakit
hepatitis mempunyai tipe-tipe yang berbeda, antara lain hepatitis A, hepatitis B, hepatitis C, hepatitis D, hepatitis E, hepatitis F dan hepatitis G. Hepatitis A
merupakan tipe hepatitis yang paling ringan, sedangkan hepatitis B merupakan tipe hepatitis yang berbahaya. Sebanyak 50 persen atau 15 juta penderita hepatitis B dan C di Indonesia akan menjadi penyakit hati kronik dan 10 persen menjadi
liver fibrosis dan kanker hati (dimyati, 2011). Istilah hepatitisberasal dari bahasa latin yang dipakai untuk semua jenis peradangan pada hati (Wening Sari, 2008:10). Penyebabnya dapat berbagai macam, mulai dari virus, komplikasi dari penyakit lain, alkohol, obat-obatan atau zat kimia sampai karena penyakit
autoimun (Wening Sari, 2008:16).
Hepatitis merupakan penyakit yang sangat menarik untuk dijadikan bahan penelitian. Sebelumnya sudah ada penelitian yang membahas permasalahan
hepatitis ini. Perbedaan antara penelitian ini dengan penelitian sebelumnya adalah
metode yang digunakan. Metode yang digunakan adalah classification dengan
algoritma Naïve Bayesian. Hasil dari penelitian tersebut memiliki nilai akurasi yang tergolong rendah. Akurasi per gejala menghasilkan 44,44 persen, sedangkan kombinasi gejala menghasilkan akurasi 51,11 persen. Penulis beranggapan bahwa rendahnya hasil akurasi disebabkan oleh kurangnya featureatau atribut dari data
(49)
hasil pemeriksaan laboratorium. Berdasarkan dari penelitian sebelumnya, maka penelitian ini akan memakai data hasil pemeriksaan laboratorium sehingga hasil akurasi yang didapatkan akan tinggi.
Penyakit yang akan dijadikan bahan penelitian adalah hepatitis karena
penyakit tersebut memiliki banyak tipe dan sulit untuk menggolongkan pasien
termasuk dalam tipe hepatitisyang ada karena memiliki gejala yang hampir sama.
Pada penelitian ini terbatas untuk hepatitis A, B dan C saja. Berikut ini
merupakan penjelasan mengenai hepatitistipe A, B dan C.
a. Hepatitis A
Hepatitis A adalah golongan penyakit Hepatitis yang ringan dan
jarang sekali menyebabkan kematian. Virus hepatitis A penyebarannya
melalui kotoran atau tinja penderita yang penularannya melalui makanan dan minuman yang terkontaminasi dan bukan melalui aktivitas seksual atau
melalui darah. Penyakit Hepatitis A memiliki masa inkubasi dari 2 sampai 6
minggu sejak penularan terjadi. Kemudian penderita menunjukkan beberapa tanda dan gejala terserang penyakit Hepatitis A. Pada gejala penyakit Hepatitis
A diantaranya yaitu pada minggu pertama, individu yang dijangkit akan mengalami sakit seperti kuning, keletihan, demam, hilang selera makan, muntah, pusing dan kencing yang berwarna hitam pekat. Demam yang terjadi adalah demam yang terus menerus, tidak seperti demam yang lainnya yaitu
(50)
b. Hepatitis B
Hepatitis B merupakan salah satu penyakit menular yang tergolong
berbahaya didunia. Penyakit ini disebabkan oleh virus hepatitis B yang
menyerang hati dan menyebabkan peradangan hati akut, seperti hepatitis C, kedua penyakit ini dapat menjadi kronis dan akhirnya menjadi kanker hati.
Proses penularan hepatitis B yaitu melalui pertukaran cairan tubuh atau kontak
dengan darah dari orang yang terinfeksi hepatitis B. Ada beberapa hal yang menjadi pola penularan antara lain penularan dari ibu ke bayi saat melahirkan, hubungan seksual, transfusi darah, jarum suntik, maupun penggunaan alat kebersihan diri secara bersama-sama. Hepatitis B dapat menyerang siapa saja, akan tetapi umumnya bagi mereka yang berusia produktif akan lebih beresiko terkena penyakit ini. Pada gejala penyakit
Hepatitis B, secara khusus tanda dan gejala terserangnya hepatitis B yang akut adalah demam, sakit perut dan kuning (terutama pada area mata yang putih atau sklera). Namun, bagi penderita hepatitis B kronik akan cenderung tidak tampak tanda-tanda tersebut, sehingga penularan kepada orang lain menjadi lebih beresiko.
c. Hepatitis C
Penyakit hepatitis C adalah penyakit hati yang disebabkan oleh virus
hepatitis C. Proses penularannya melalui kontak darah seperti transfusi, jarum
suntik. Penderitahepatitis C kadang tidak menampakkan gejala yang jelas, akan
(51)
dan terdeteksi sebagai kanker hati. Sejumlah 85% dari kasus, infeksi hepatitis
C menjadi kronis dan secara perlahan merusak hati selama bertahun-tahun. Penderita sering kali tidak menunjukkan gejala, walaupun infeksi telah terjadi bertahun-tahun lamanya. Namun, beberapa gejala yang samar diantaranya adalah lelah, hilang selera makan, sakit perut, urine menjadi gelap dan kulit atau mata menjadi kuning yang disebut jaundice. Pada beberapa kasus dapat
ditemukan peningkatan enzyme hati pada pemeriksaan urine,
Pemeriksaan laboratorium diperlukan untuk memastikan diagnosis hepatitis
karena gejalahepatitis tidak khas. Berikut ini, tahap-tahap pemeriksaan untuk
hepatitis yang harus dilalui selain melihat dari sisi gejala yang tampak dari luar (Marzuki Suryaatmadja, 2010).
1. Pemeriksaan untuk hepatitis akut:
Enzim SGOT, SGPT
Penanda hepatitis A (Anti HAV IgM)
Penanda hepatitis B (HbsAg, Anti HBc IgM)
Penanda hepatitis C (Anti HCV, HCV RNA)
2. Pemeriksaan untuk hepatitis kronis:
Enzim SGOT, SGPT.
Penanda hepatitis B (HbsAg, Hbe, Anti H Bc, Anti Hbe, HBV DNA).
(52)
2.6 Pengujian Keakuratan Metode
Pengujian keakuratan hasil pengelompokan hepatitis ini penting agar
hasilnya lebih valid. Oleh karena itu diperlukan suatu metode untuk mengetahui keakuratan hasil yang telah diperoleh. Pada clustering biasanya menggunakan 3
pendekatan untuk memastikan bahwa proses clustering tepat. Tiga pendekatan itu
adalah external test, internal test dan relative test.
a. Pengujian dengan metode external test, pada pengujian ini digunakan
untuk mengukur sejauh mana label pada cluster cocok dengan label class
yang disediakan. Seperti pada tabel 2.5 terdapat tabel untuk mengevaluasi
cluster. Kolom mewakili jenis hepatitis, sedangkan baris mewakili
kelompok clustering. Contohnya menggunakan confusion matrix, entropy
dan purity. Rumus yang digunakan untuk menghitung akurasi dengan
confusion matrix, yaitu :
�= � ℎ � � cluster
� ℎ 100 %
(2.7) Tabel 2.5 : Cluster evaluation
hepatitis kelompok
A B C
1 X X X
2 X X X
(53)
b. Pengujian dengan metode internal test, pada pengujian ini penyelesaian
cluster digunakan untuk melihat kualitas cluster tanpa informasi yang berasal dari luar (external). Contoh pengukuran pada internal test, yaitu
cluster separation dan cluster cohesion.
a) Cluster cohesion adalah jumlah dari lebar semua link yang ada di
dalam cluster. Cohesion adalah pengukuran di dalam cluster
dengan sum of square (SSE).
(2.6) b) Cluster separation, pengukuran antar cluster dengan sum of
square (SSE).
(2.7)
c. Pengujian dengan metode relative test, pada pengujian ini beberapa
penyelesaian cluster yang berbeda dari data dibandingkan dengan
menggunakan algoritma yang sama dengan parameter yang berbeda. Pada relative test ini sering menggunakan external index atau internal index
untuk mengukurnya. Contohnya dengan SSE atau entropy.
i x C
i
i
m x WSS ( )2
i
i
i m m
C
(54)
Metode evaluasi untukclustering yang akan digunakan pada penelitian ini adalah
external test. External test bekerja dengan membandingkan hasil clustering yang sudah didapat dengan class label yang sudah disediakan. Jadi dapat dilihat tingkat kecocokan hasil clustering yang ada dengan label yang sudah tersedia. Hasil pengelompokkan juga akan dihitung akurasinya sehingga dengan akurasi tersebut dapat terlihat bagus atau tidaknya hasil pengelompokkan yang didapat.
(55)
37
BAB III
METODOLOGI PENELITIAN
Pada bab ini menjelaskan mengenai data yang digunakan pada penelitian dan mengenai metode pengumpulan data. Selain itumembahas mengenai teknik analisis dan evaluasi hasil.
3.1 Data
Pada penelitian yang dilakukan ini menggunakan data pasien yang berupa data hasil laboratorium dan data dari hasil pemeriksaan dari dokter. Data penelitian ini didapat dari rumah sakit di Yogyakarta. Data yang digunakan adalah data gejala dan data laboratorium. Data hasil laboratorium sangat penting karena hasil ini sangat berpengaruh langsung pada diagnosis akhir. Data gejala hasil pemeriksaan dokter juga sama pentingnya untuk memberikan diagnosa awal pada pasien tersebut dan dapat memperkuat hasil dari diagnosa akhir.
Data hasil pemeriksaan dokter yang dikumpulkan adalah hasil diagnosa pada pasien dari tahun 2000 sampai dengan 2010. Data ini berupa data diri pasien,
gejala, diagnosa awal dan akhir. Data pasien yang digunakan terbatas pada pasien
yang terkena hepatitisA, B dan C.Sebelumnya, data gejala ini dipakai oleh
Karunia Estu pada skripsinya yang berjudul “Sistem diagnosa penyakit hepatitis
dengan menggunakan metode Naïve Bayesian”. Pada data hasil pemeriksaan dokter yang digunakan terdapat 5 induk gejala, yaitu gejala otot, gejala perut, gejala kulit, gejala mata dan gejala mirip flu. Jumlah data yang akan dipakai sebanyak 110.
(56)
Data hasil laboratorium merupakan hal yang sangat penting untuk menetapkan pasien tersebut terkena hepatitis tipe tertentu. Pemeriksaan laboratorium dibagi menjadi dua, yaitu kualitatif dan kuantitatif. Pada pemeriksaan kualitatif hanya menetapkan bahwa pasien tersebut positif atau negative terkena hepatitis, sedangkan pemeriksaan kuantitatif memiliki ukuran atau kadar yang berasal dari penanda hepatitis. Pemeriksaan laboratorium untuk
hepatitis meliputi pemeriksaan fungsi hati, yaitu SGOT dan SGPT.Selain itu, pemeriksaan yang paling penting untuk hasil diagnosa akhir adalah penanda
hepatitis, yaitu anti HAV untuk hepatitis A, HBsAg untuk hepatitis B dan anti HCV untuk hepatitis C.
3.2 Metode Pengumpulan Data
Data- data yang digunakan dalam penelitian ini menggunakan data yang didapat dari hasil laboratorium dan hasil wawancara dengan dokter. Pada
pembuatan sistem data mining untuk pengelompokan data penyakit hepatitis
dengan menggunakan metode data mining, menggunakan beberapa teknik
pengumpulan data dan variabel, yaitu :
1. Studi kepustakaan.
Proses ini digunakan untuk mendapatkan informasi tentang penyakit
hepatitis dan metode-metode data mining yang akan digunakan untuk memecahkan masalah. Buku-buku yang akan digunakan terkait dengan
data mining dan aplikasinya.
2. Mengadakan wawancara dengan dokter terkait dengan penjelasan
(57)
Wawancara yang akan dilakukan ini secara lisan dan mempunyai tujuan
untuk mengetahui mengenai penyakit hepatitis itu beserta dengan gejala.
Tujuannya agar lebih mudah memahami mengenai penyakit hepatitis itu
sendiri yang nantinya dapat berguna dalam menentukan atribut untuk menganalisa data-data pasien.
3. Mengajukan permohonan untuk meminta data sample pasien yang
berobat untuk mengetahui penyakit hepatitis yang diderita.
Proses pengajuan untuk meminta data pasien perlu dilakukan karena data-data pasien yang ada tidak dapat secara langsung disebarluaskan karena bersifat pribadi, maka diperlukan adanya surat izin untuk meminta data pasien hepatitis.
3.3 Teknik Analisa Data
Sumber data yang digunakan diperoleh dari survey lapangan di rumah sakit. Data yang akan diambil berupa hasil pemeriksaan laboratorium yang ditunjukan oleh setiap pasien kepada dokter yang berobat di rumah sakit yang bersangkutan. Sumber data ini akan terbatas pada data-data pasien yang hasil diagnosa akhirnya terkena hepatitisA, B maupun C. Data-data yang sudah didapat akan dianalisa untuk diketahui jenis pengelompokan berdasarkan tipe penyakitnya. Tahap-tahap jalannya program, sebagai berikut.
Gambar 3.1 Diagram blok proses clustering
Data Preprocessing Clustering Output
Single Average Complete
Dendrogram Akurasi Perhitun
(58)
a. Preprocessing
Data yang sudah dikumpulkan masuk pada tahap preprocessing yang ada
padaknowledge discovery in databases, yaitu data cleaning, data integration, data selectiondan data transformation. Data gejala pasien hepatitis masih terpisah berdasarkan hasil identifikasi penyakit antara satu sama lain sehingga perlu digabungkan untuk mempermudah proses pengelompokkan seperti pada tabel dibawah ini.
Tabel 3.1 Data gejala hepatitis
Feature No gejala
otot
gejala perut gejala kulit gejala mata gejala mirip flu hasil Identifika si 1 Normal muntah,mual,nyeri perut sebelah kanan,nafsu makan
berkurang Normal kuning demam,batuk A
2
Normal
muntah,mual,nafsu
makan berkurang Normal normal
demam,pusing
batuk A
3
Normal
muntah,kembung,mu al, nyeri perut sebelah kanan, nafsu
makan berkurang Gatal kuning
demam,pusing,
lesu,batuk B
4
Pegal
mual, nyeri perut
sebelah kanan Normal normal lesu,batuk B
5
Normal
muntah,kembung, nafsu makan berkurang,perut_acit
es Normal normal lesu C
6
Normal
nyeri perut sebelah
kanan Normal normal
demam,pusing,
lesu C
7 linu-linu muntah,mual, nafsu makan berkurang,perut_acit
es Normal normal
demam,pusing,
(59)
Dari data diatas gejalanya dikelompokkan menurut gejala masing-masing seperti gejala otot, gejala perut, gejala kulit, gejala mata dan gejala mirip flu. Setelah itu menjabarkan masing-masing gejala seperti pegal, nyeri sendi dan normal untuk gejala otot. Gejala mual, muntah, diare, nyeri perut sebelah kanan, kencing berwarna gelap, nafsu makan berkurang dan perut acites untuk gejala perut. Gejala normal, kuning, lembab, gatal, kemerahan, kering untuk gejala kulit. Gejala normal dan kuning untuk gejala mata Sedangkan gejala demam, pusing, lesu, mialgia, lelah, menggigil, dan batuk untuk gejala mirip flu. Dari gejala-gejala tersebut dilakukan proses binerisasi yang sudah dilakukan pada penelitian Karunia Estu.
Kemudian, selain data gejala ditambahkan pula data laboratorium dengan atribut SGOT, SGPT, anti HAV, HbsAg dan Anti HCV. Gejala laboratorium memiliki range yang berbeda-beda sehingga perlu untuk di normalisasi agar rentang nilai antar data tidak jauh. Jenis normalisasi yang diberikan adalah
zscore atau normalisasi [0-1]. Selain itu, pengurangan dimensi dengan
principal component analysis dapat dilakukan agar mengurangi dimensi data tetapi tidak menghilangkan informasi penting yang terkandung pada data.
b. Pengukuran jarak
Data yang sudah di preprocessing akan dilakukan pengukuran jarak antar data dengan menggunakan salah satu dari pilihan pengukuran jarak. Seperti yang sudah dijelaskan pada bab sebelumnya. Ada pengukuran dengan
(60)
danjaccard coefficients. Hasil dari pengukuran jarak ini berupa matriks jarak antar obyek data.
c. Clustering
Hasil dari matriks jarakakan masuk pada tahap clustering. Metode yang dipakai untuk menyelesaikan pengelompokan data-data pasien yang terkena
hepatitis dengan memakai agglomerativehierarchical clustering. Data pasien
yang akan terkumpul pada masing-masing cluster menggunakan metode
pengukuran kemiripan single linkage (jarak minimum), average linkage (jarak
rata-rata) dan complete linkage (jarak maksimum)dengan memilih jarak
minimum atau yang paling mirip untuk tiap data.Berikut ini adalah tabel untuk jarak keseluruhan antara ke enam data sample yang sudah dihitung dengan
menggunakan rumus jarak euclidean distance.
Tabel 3.2: Contoh matriks jarak dengan Euclidean distance
1. Pengukuran jarak dengan single linkage merupakan pengukuran jarak
minimum antara elemen dari setiap cluster. Dari matriks jarak yang ada,
jarak yang paling minimum adalah 2 yang didapat dari obyek 1 ke 2.
1 2 3 4 5 6
1 0
2 2 0
3 2.236068 2.645751 0 4 2.828427 2.828427 3.316625 0 5 3 2.645751 3.162278 3 0 6 3 2.645751 3.162278 2.64575131 2.828427 0
(61)
Kemudian pasangkan obyek data lainnya dengan jarak yang minimum agar mendapatkan hasil jarak baru pada matriks jarak dan masuk ke
dalam cluster.Hasil jarak baru yang sudah didapat, akan membentuk
matriks jarak baru sehingga dapat dibentuk dendrogram, sebagai berikut.
Gambar 3.2 : Dendrogram singlelinkage
2. Pengukuranaverage linkage yang merupakan pengukuran rata-rata jarak
antara elemen dari setiap cluster. Dari matriks jarak yang ada, jarak yang paling minimum adalah 2 dari obyek 1 ke 2. Kemudian pasangkan dengan seluruh data agar didapat hasil jarak baru pada matrik jarak dan
keseluruhan data sudah masuk ke dalam cluster.Pada average
linkageumlah jarak antar data dibagi dengan jumlah anggota di
dalamcluster. Hasil jarak baru yang sudah didapat, akan membentuk
(62)
Gambar 3.3 : Dendrogram untuk average linkage
3. Pengukuran complete linkagemerupakan pengukuranyang melihat jarak
maksimum antar elemen dalam cluster. Dari matriks jarak yang ada,
jarak yang paling minimum adalah 2 dari obyek 1 ke 2. Pemilihan jarak diawal tiap iterasi tetap nilai yang paling minimum, sedangkan untuk perhitungan kemiripan menggunakan nilai yang paling maksimum. Pasangkan dengan seluruh data agar didapat hasil jarak baru pada matriks jarak dan keseluruhan data sudah masuk ke dalam cluster.Hasil jarak baru yang sudah didapat, akan membentuk matriks jarak baru sehingga dapat dibentuk dendrogram, sebagai berikut.
(63)
Gambar 3.4 : dendrogram untuk complete linkage
4. Menentukan jumlah cluster dari hasil dendrogram yang ada. Pada kasus
ini akan dibuat 3 cluster, yaitu hepatitisA, B dan C. Kemudian dapat
dilakukan proses cut-off atau pemotongan pada dendrogram pada
ketinggian atau jarak tertentu agar terbentuk menjadi tigacluster. Selain
itu, dapat dilakukan dengan proses maxclust, yaitu proses yang
membatasi terbentuknya cluster hanya tiga cluster. Tabel 3.3 Hasilcluster
Kelompok 1 Kelompok 2 Kelompok 3
1 4 5
2 6
3
d. Perhitungan Akurasi
Seterlah dendrogram ditampilkan, maka pengujian akurasi dilakukan agar dapat mengetahui keakuratan hasil pengelompokkan. Tabel yang digunakan adalah tabel evaluasi cluster untuk mengetahui keakuratan hasil yang didapat
dengan metode agglomerative hierarchical clustering dalam mengelompokan
penyakit hepatitis A, B dan C. Evaluasi ini dilakukan dengan cara
membandingkan hasil penggelompokan dengan agglomerative hierarchical
clustering dengan data asli. Hasil yang didapat dari penelitian perlu dievaluasi agar hasil yang diperoleh dapat mencapai tujuan yang ingin dicapai pada
(64)
penelitian ini. Berikut ini adalah tabel evaluasi cluster dari perhitungan sebelumnya. Kolom pada tabel mewakili tipe hepatitis dan baris mewakili kelompok.
Tabel 3.4 : confusion matrix
hepatitis kelompok
A B C
1 2 1 0
2 0 1 1
3 0 0 1
�= 4
6∗100 % = 66, 67% 3.4 Design UserInterface
Design interface sistem identifikasi penyakit hepatitis dengan menggunakan
algoritma agglomerative hierarchical clusteringini memiliki tampilan seperti
dibawah ini :
a. Halaman utama
Pada halaman utama ini terdiri dari gambar icon, judul, menu file dan
help. Pada menu file terdiri dari sub menu preprocessing dan
(65)
Gambar 3.5 Halaman Utama
b. Halaman preprocessing
Pada halaman processing ini terdapat fungsi untuk mencari file yang bertipe .csv. Kemudian ada pilihan untuk memilih jenis normalisasiserta
pilihan untuk memasukan jumlah principal component untuk dilakukan
proses principal component analysisyang kemudian hasilnya akan
(66)
Gambar 3.6 Halaman Preprocessing
c. Halaman Clustering
Pada halaman clustering ini terdapat fungsi untuk mencari file yang bertipe .csv dan menampilkannya pada tabel, memilih jenis perhitungan kedekatan, menampilkan dendrogram dan menghitung akurasi.
Gambar 3.7 Halaman Clustering
d. Halaman Help
Pada fungsi help ini menjelaskan mengenai cara-cara penggunaan
program pada masing-masing submenu. Fungsi help ini ditampilkan
(67)
3.5 Spesifikasi Software dan Hardware
Spesifikasi software dan hardware yang digunakan dalam implementasi
sistem identifikasi penyakit hepatitis dengan agglomerative hierarchical
clustering ini, sebagai berikut :
1. Software :
a. Sistem Operasi : Microsoft Windows 7 ultimate 32-bit
b. Bahasa pemrograman : Matlab Student Version
2. Hardware :
a. Processor : Intel(R) Core(TM) 2 Duo CPU T6400 @ 2.00GHz
b. Memory : 2 GB
(68)
50
BAB IV
IMPLEMENTASI DAN ANALISA HASIL
Pada penelitian ini membahas mengenai hasil pengelompokkan penyakit hepatitis dengan agglomerative hierarchical clustering. Selain itu implementasi program pengelompokkanjuga dijelaskan dalam bab ini. Pada bab ini juga akan membahas
hasil akurasi yang didapat dengan agglomerative hierarchical clustering.
4.1 Hasil Penelitian dan Analisa
Penelitian yang telah dilakukan ini menggunakan 110 data yang terdiri dari
hepatitis A, B, dan C. Data gejala sudah digabungkan dengan data dari laboratorium hepatitis sehingga total atributnya adalah 31. Atribut yang baru ini antara lain SGOT, SGPT, bilirubin direk, bilirubin indirek, anti HAV, HBsAg dan Anti HCV. Atribut tersebut merupakan pemeriksaan yang dilakukan untuk melihat fungsi hati yang berkaitan dengan penyakit hepatitis.
Tabel 4.1 Deskripsi data gejala hepatitis
No. Gejala Keterangan
1. Otot Pegal, nyeri sendi, normal dan linu-linu.
2. Perut Muntah, diare, kencing berwarna gelap, nyeri perut sebelah
kanan, nafsu makan berkurang dan perut acites.
3. Kulit Normal, kuning, lembab, gatal, kemerahan, dan kering.
4. Mata Normal dan kuning.
(69)
Tabel 4.2 Deskripsi data gejala laboratorium hepatitis
No. Gejala Keterangan
1. Fungsi hati SGOT, SGPT, bilirubin direk, bilirubin
indirek, albumin, globulin.
2. Penanda
Hepatitis
Anti HAV, HBsAg dan Anti HCV
Data laboratorium yang akan digunakan adalah SGOT, SGPT, anti HAV, HBsAg dan Anti HCV. Pemeriksaan bilirubin direk, bilirubin indirek, albumin, dan globulin tidak digunakan karena tidak semua pasien menjalani pemeriksaan laboratorium tersebut. Alasan lain karena menurut dokter Tri Joko selaku kepala laboratorium di rumah sakit di Yogyakarta bahwa pemeriksaan yang paling
penting adalah SGOT, SGPT dan penanda hepatitis. Pemeriksaan SGOT dan
SGPT ini memiliki normal range yang berbeda antara pria dan wanita. Pada pria memiliki range SGOT 0-37 dan SGPT 0-42. Pada wanita memiliki range SGOT
0-32 dan SGPT 0-31. Pemeriksaan pada penanda hepatitis Anti HAV, HBsAg dan
Anti HCV berbeda-beda alat dan satuannya. Pemilihan alat periksa data laboratorium tergantung dari dokter yang memeriksa pasien sehingga antara pasien yang satu dengan yang lain tidak sama alat periksanya.
Data pasien yang telah digabung dengan data laboratorium ini disimpan dalam file berformat .xls. Data masing-masing pasien dipisahkan menurut jenis
(70)
sheet kedua 40 data pasien hepatitis B, dan sheet ketiga berjumlah 30 pasien
hepatitis C. Jadi, total keseluruhan pasien ada 110 data yang akan dilakukan proses pengelompokan.
4.2 Preprocessing Data
Data-data yang digunakan dalam penelitian ini merupakan data pasien yang berobat dari tahun 2002 sampai 2010 yang diambil secara random. Data yang diambil adalah data hasil laboratorium, yaitu SGOT, SGPT, anti HAV, HBsAg
dan Anti HCV. Tahap pertama yang dilakukan sebelum melakukan proses data
mining adalah preprocessing pada data pasien terlebih dahulu. Langkah-langkah
preprocessing yang dilakukan antara lain :
1. Data Cleaning
Pembersihan data merupakan tahap awal dalam proses penambangan data. Data yang didapatkan tidak langsung dapat digunakan karena banyak data yang tidak lengkap. Pertama data-data yang tidak lengkap
dikumpulkan sesuai dengan jenis hepatitis. Kedua, data yang tidak
memenuhi kriteria tidak akan digunakan sehingga total data yang akan digunakan adalah 110 dari 130 data yang dicatat.
2. Data Integration
Data yang sudah dilakukan proses pembersihan akan digabung sesuai
dengan tipe hepatitis dan akan disimpan ke dalam satu tempat
(1)
%complete linkage (jarak maksimal antar cluster) Data(I) = max(Data(I),Data(J));
%Menyimpan hasil jarak dari single, average dan complete yang akan dibuat sebagai jarak pada dendrogram.
Hasil_jarak(s,:) = [R(i) R(j) v];
4.4.4 Tampilan menu help
Gambar 4.25PDF Bantuan
Pada gambar 4.25 diatas merupakan tampilan file bantuan.pdf. Jika menu help
diklik maka akan menampilkan file yang bertipe .pdf. Pada file tersebut terdapat penjelasan mengenai penggunaan program mulai dari preprocessing sampai
(2)
90
BAB V
PENUTUP
Halaman ini menjelaskan mengenai kesimpulan dari penelitian terkait dengan pengelompokkan hepatitis. Pada halaman ini juga akan dijelaskan saran yang diberikan pada program yang sudah dibuat.
5.1 Kesimpulan
Pengelompokkan penyakit hepatitis menggunakanagglomerative hierarchical clustering berdasarkan data gejala dan data laboratorium. Ada empat uji percobaan yang dilakukan untuk menghitung akurasi, yaitu perhitungan data laboratorium, data gejala, data gabungan gejala dan laboratorium, data laboratorium dengan data gejala yang sudah diproses dengan principal component analysisdandata laboratorium dan data gejala hasil dari principal component analysis. Berdasarkan hasil percobaan diatas, kesimpulan yang dapat diambil sebagai berikut :
1. Aggomerative hierarchical clustering mampu mengelompokkan pasien yang terkena hepatitis A, B dan C dengan hasil akurasi yang baik.
2. Percobaan dengan data laboratorium menghasilkan akurasi sebesar 100 % baik oleh single, average dan complete linkage dengan normalisasi [0-1], sedangkan dengan normalisasi zscore hanya single linkage saja yang menghasilkan 100 %. Hal tersebut berarti dengan menggunakan data laboratorium dapat dengan cepat membedakan tiga jenis hepatitis dengan baik karena terdapat penanda untuk tiap jenis hepatitis.
(3)
hanya 49.09 % dengan menggunakan complete linkage. Hal tersebut berarti dengan hanya menggunakan data gejala maka belum dapat menentukan jenis penyakit tertentu karena gejala hanya merupakan pemeriksaan umum dan belum tentu gejala merujuk pada satu penyakit saja sehingga hasil akurasi yang didapatkan rendah.
4. Percobaan data gejala yang sudah diproses dengan principal component analysis dan digabung laboratorium menghasilkan akurasi sebesar 100% yang didapatkan oleh single linkage, average linkage dan complete linkage.
5. Percobaan data gabungan dengan normalisasi [0-1] dapat tidak menggunakan principal component analysis karena data yangdigabung tanpa principal component analysis juga baik hasil akurasinya yaitu 82,72 %.
6. Percobaan data gabungan dengan normalisasi zscore menghasilkan akurasi yang lebih baik jika menggunakan principal component analysis
dan mendapatkan 69,09 %.
7. Hasil akurasi yang didapatkan oleh data gabungan sudah baik karena menggunakan data laboratorium yang dapat menentukan seseorang dapat terkena penyakit hepatitis atau tidak. Hasil yang didapatkan ini lebih baik daripada hasil dari penelitian sebelumnya yang hanya mendapatkan 51,11 %
(4)
8. Hasil yang terbaik didapatkan oleh normalisasi [0-1] dengan 84,54 % dengan menggunakan data gejala yang dilakukan proses principal component analysis dan digabung dengan data laboratorium.
9. Secara keseluruhan hasil akurasi complete linkage lebih baik jika dibandingkan dengan single linkage dan average linkage.
5.2 Saran
Saran yang diperlukan untuk pengembangan program lebih lanjut, sebagai berikut :
1. Perhitungan jarak kedekatan dapat dicoba dengan metode yang lain selain single linkage, average linkage dan complete linkage.
(5)
Abdi,H. & Williams, L.,(2010,July/August), Principal Component Analysis, John Wiley & Sons, inc, Diakses 2 Oktober 2013.
Amro, 2011, Agglomerative Clustering in Matlab ,
http://stackoverflow.com/questions/7132130/matlab-cluster-coding-plot-scatter-graph, diakses 5 Mei 2013.
Bing Liu, 2004, Chapter 4 : Unsupervised Learning, University Illnois of Chicago.http://www.cs.uic.edu/~liub/teach/cs583-fall-05/CS583-unsupervised-learning.ppt. Diakses tanggal 18 Agustus 2013.
Dimyati,V, 2011, 30 Juta Orang Kena Hepatitis,
http://www.jurnas.com/news/35402/30_Juta_Orang_Kena_Hepatitis/1/Sosial_Bu daya/Kesehatan.
Edward,R., 2010, UPGMA Worked Example , University of Southampton,
http://www.southampton.ac.uk/~re1u06/teaching/upgma/, Diakses pada tanggal 4 april 2013.
Han, J.& Kamber,M., 2011, Data mining Concepts and Techniques ,USA: Morgan Kaufmann
Hartini,E, 2012, Metode Clustering Hirarki, Batan,
http://www.batan.go.id/ppin/lokakarya/LKSTN_15/Entin.pdf, Diakses pada tanggal 4 April 2013.
Ridho,A., 2006, Clustering, Politeknik Elektronika Negeri Surabaya,http://lecturer.eepis-its.edu/~entin/Machine%20Learning/Minggu%206%20Clustering.pdf, Diakses pada 5 April 2013.
Santosa,Budi, 2007, Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis, Yogyakarta : Graha Ilmu.
Sari, W & Indrawati, L., 2008, Care your Self: Hepatitis, Jakarta : Penebar plus+, Jakarta.
(6)
Shlens,Jonathon, 2009, A Tutorial on Principal Component
Analysis.http://www.snl.salk.edu/~shlens/pca.pdf.Diakses tanggal 28 Juli 2013. Suryaatmadja, Marzuki, Diagnosis Laboratorium Hepatitis Virus dengan
Penanda Virus Hepatitis. http://info@abclab.co.id. Diakses tanggal 28 April 2013. Smith, L., 2002, A Tutorial on Principal component analysis,
http://www.ce.yildiz.edu.tr/personal/songul/file/1097/principal_components.pdf.
Diakses pada tanggal 7 Juni 2013.
Tan &Steinbach,dkk, 2004, Lecture Notes for Chapter 2 : Introduction to Data Mining, http://www-users.cs.umn.edu/~kumar/dmbook/index.php. Diakses pada tanggal 30 September 2013.