Data hasil laboratorium merupakan hal yang sangat penting untuk menetapkan pasien tersebut terkena hepatitis tipe tertentu. Pemeriksaan
laboratorium dibagi menjadi dua, yaitu kualitatif dan kuantitatif. Pada pemeriksaan kualitatif hanya menetapkan bahwa pasien tersebut positif atau
negative terkena hepatitis, sedangkan pemeriksaan kuantitatif memiliki ukuran atau kadar yang berasal dari penanda hepatitis. Pemeriksaan laboratorium untuk
hepatitis meliputi pemeriksaan fungsi hati, yaitu SGOT dan SGPT.Selain itu, pemeriksaan yang paling penting untuk hasil diagnosa akhir adalah penanda
hepatitis, yaitu anti HAV untuk hepatitis A, HBsAg untuk hepatitis B dan anti HCV untuk hepatitis C.
3.2 Metode Pengumpulan Data
Data- data yang digunakan dalam penelitian ini menggunakan data yang didapat dari hasil laboratorium dan hasil wawancara dengan dokter. Pada
pembuatan sistem data mining untuk pengelompokan data penyakit hepatitis dengan menggunakan metode data mining, menggunakan beberapa teknik
pengumpulan data dan variabel, yaitu : 1.
Studi kepustakaan. Proses ini digunakan untuk mendapatkan informasi tentang penyakit
hepatitis dan metode-metode data mining yang akan digunakan untuk memecahkan masalah. Buku-buku yang akan digunakan terkait dengan
data mining dan aplikasinya. 2.
Mengadakan wawancara dengan dokter terkait dengan penjelasan penyakit hepatitis dan gejala-gejalanya.
Wawancara yang akan dilakukan ini secara lisan dan mempunyai tujuan untuk mengetahui mengenai penyakit hepatitis itu beserta dengan gejala.
Tujuannya agar lebih mudah memahami mengenai penyakit hepatitis itu sendiri yang nantinya dapat berguna dalam menentukan atribut untuk
menganalisa data-data pasien. 3.
Mengajukan permohonan untuk meminta data sample pasien yang berobat untuk mengetahui penyakit hepatitis yang diderita.
Proses pengajuan untuk meminta data pasien perlu dilakukan karena data-data pasien yang ada tidak dapat secara langsung disebarluaskan
karena bersifat pribadi, maka diperlukan adanya surat izin untuk meminta data pasien hepatitis.
3.3 Teknik Analisa Data
Sumber data yang digunakan diperoleh dari survey lapangan di rumah sakit. Data yang akan diambil berupa hasil pemeriksaan laboratorium yang ditunjukan
oleh setiap pasien kepada dokter yang berobat di rumah sakit yang bersangkutan. Sumber data ini akan terbatas pada data-data pasien yang hasil diagnosa akhirnya
terkena hepatitisA, B maupun C. Data-data yang sudah didapat akan dianalisa untuk diketahui jenis pengelompokan berdasarkan tipe penyakitnya. Tahap-tahap
jalannya program, sebagai berikut.
Gambar 3.1 Diagram blok proses clustering
Data Preprocessing
Clustering Output
Single Average
Complete Dendrogram
Akurasi Perhitun
gan jarak
a. Preprocessing
Data yang sudah dikumpulkan masuk pada tahap preprocessing yang ada padaknowledge discovery in databases, yaitu data cleaning, data integration,
data selectiondan data transformation. Data gejala pasien hepatitis masih terpisah berdasarkan hasil identifikasi penyakit antara satu sama lain sehingga
perlu digabungkan untuk mempermudah proses pengelompokkan seperti pada tabel dibawah ini.
Tabel 3.1 Data gejala hepatitis
Feature No
gejala otot
gejala perut gejala
kulit gejala
mata gejala mirip
flu hasil
Identifika si
1
Normal muntah,mual,nyeri
perut sebelah kanan,nafsu makan
berkurang Normal
kuning demam,batuk
A 2
Normal muntah,mual,nafsu
makan berkurang Normal
normal demam,pusing
batuk A
3
Normal muntah,kembung,mu
al, nyeri perut sebelah kanan, nafsu
makan berkurang Gatal
kuning demam,pusing,
lesu,batuk B
4 Pegal
mual, nyeri perut sebelah kanan
Normal normal
lesu,batuk B
5
Normal muntah,kembung,
nafsu makan berkurang,perut_acit
es Normal
normal lesu
C 6
Normal nyeri perut sebelah
kanan Normal
normal demam,pusing,
lesu C
7 linu-
linu muntah,mual, nafsu
makan berkurang,perut_acit
es Normal
normal demam,pusing,
batuk C
Dari data diatas gejalanya dikelompokkan menurut gejala masing-masing seperti gejala otot, gejala perut, gejala kulit, gejala mata dan gejala mirip flu.
Setelah itu menjabarkan masing-masing gejala seperti pegal, nyeri sendi dan normal untuk gejala otot. Gejala mual, muntah, diare, nyeri perut sebelah
kanan, kencing berwarna gelap, nafsu makan berkurang dan perut acites untuk gejala perut. Gejala normal, kuning, lembab, gatal, kemerahan, kering untuk
gejala kulit. Gejala normal dan kuning untuk gejala mata Sedangkan gejala demam, pusing, lesu, mialgia, lelah, menggigil, dan batuk untuk gejala mirip
flu. Dari gejala-gejala tersebut dilakukan proses binerisasi yang sudah dilakukan pada penelitian Karunia Estu.
Kemudian, selain data gejala ditambahkan pula data laboratorium dengan atribut SGOT, SGPT, anti HAV, HbsAg dan Anti HCV. Gejala laboratorium
memiliki range yang berbeda-beda sehingga perlu untuk di normalisasi agar rentang nilai antar data tidak jauh. Jenis normalisasi yang diberikan adalah
zscore atau normalisasi [0-1]. Selain itu, pengurangan dimensi dengan principal component analysis dapat dilakukan agar mengurangi dimensi data
tetapi tidak menghilangkan informasi penting yang terkandung pada data. b.
Pengukuran jarak Data yang sudah di preprocessing akan dilakukan pengukuran jarak antar
data dengan menggunakan salah satu dari pilihan pengukuran jarak. Seperti yang sudah dijelaskan pada bab sebelumnya. Ada pengukuran dengan
euclidean distance, minkowski distance, simple matching coefficients
danjaccard coefficients. Hasil dari pengukuran jarak ini berupa matriks jarak antar obyek data.
c. Clustering
Hasil dari matriks jarakakan masuk pada tahap clustering. Metode yang dipakai untuk menyelesaikan pengelompokan data-data pasien yang terkena
hepatitis dengan memakai agglomerativehierarchical clustering. Data pasien yang akan terkumpul pada masing-masing cluster menggunakan metode
pengukuran kemiripan single linkage jarak minimum, average linkage jarak rata-rata dan complete linkage jarak maksimumdengan memilih jarak
minimum atau yang paling mirip untuk tiap data.Berikut ini adalah tabel untuk jarak keseluruhan antara ke enam data sample yang sudah dihitung dengan
menggunakan rumus jarak euclidean distance.
Tabel 3.2: Contoh matriks jarak dengan Euclidean distance
1. Pengukuran jarak dengan single linkage merupakan pengukuran jarak
minimum antara elemen dari setiap cluster. Dari matriks jarak yang ada, jarak yang paling minimum adalah 2 yang didapat dari obyek 1 ke 2.
1 2
3 4
5 6
1 2
2
3 2.236068 2.645751
4
2.828427 2.828427 3.316625
5 3 2.645751 3.162278
3
6 3 2.645751 3.162278 2.64575131 2.828427
Kemudian pasangkan obyek data lainnya dengan jarak yang minimum agar mendapatkan hasil jarak baru pada matriks jarak dan masuk ke
dalam cluster.Hasil jarak baru yang sudah didapat, akan membentuk matriks jarak baru sehingga dapat dibentuk dendrogram, sebagai berikut.
Gambar 3.2 : Dendrogram singlelinkage 2.
Pengukuranaverage linkage yang merupakan pengukuran rata-rata jarak antara elemen dari setiap cluster. Dari matriks jarak yang ada, jarak yang
paling minimum adalah 2 dari obyek 1 ke 2. Kemudian pasangkan dengan seluruh data agar didapat hasil jarak baru pada matrik jarak dan
keseluruhan data sudah masuk ke dalam cluster.Pada average linkageumlah jarak antar data dibagi dengan jumlah anggota di
dalamcluster. Hasil jarak baru yang sudah didapat, akan membentuk matriks jarak baru sehingga dapat dibentuk dendrogram, sebagai berikut.
Gambar 3.3 : Dendrogram untuk average linkage 3.
Pengukuran complete linkagemerupakan pengukuranyang melihat jarak maksimum antar elemen dalam cluster. Dari matriks jarak yang ada,
jarak yang paling minimum adalah 2 dari obyek 1 ke 2. Pemilihan jarak diawal tiap iterasi tetap nilai yang paling minimum, sedangkan untuk
perhitungan kemiripan menggunakan nilai yang paling maksimum. Pasangkan dengan seluruh data agar didapat hasil jarak baru pada matriks
jarak dan keseluruhan data sudah masuk ke dalam cluster.Hasil jarak baru yang sudah didapat, akan membentuk matriks jarak baru sehingga
dapat dibentuk dendrogram, sebagai berikut.
Gambar 3.4 : dendrogram untuk complete linkage 4.
Menentukan jumlah cluster dari hasil dendrogram yang ada. Pada kasus ini akan dibuat 3 cluster, yaitu hepatitisA, B dan C. Kemudian dapat
dilakukan proses cut-off atau pemotongan pada dendrogram pada ketinggian atau jarak tertentu agar terbentuk menjadi tigacluster. Selain
itu, dapat dilakukan dengan proses maxclust, yaitu proses yang membatasi terbentuknya cluster hanya tiga cluster.
Tabel 3.3 Hasilcluster Kelompok 1
Kelompok 2 Kelompok 3
1 4
5
2
6
3
d. Perhitungan Akurasi
Seterlah dendrogram ditampilkan, maka pengujian akurasi dilakukan agar dapat mengetahui keakuratan hasil pengelompokkan. Tabel yang digunakan
adalah tabel evaluasi cluster untuk mengetahui keakuratan hasil yang didapat dengan metode agglomerative hierarchical clustering dalam mengelompokan
penyakit hepatitis A, B dan C. Evaluasi ini dilakukan dengan cara membandingkan hasil penggelompokan dengan agglomerative hierarchical
clustering dengan data asli. Hasil yang didapat dari penelitian perlu dievaluasi agar hasil yang diperoleh dapat mencapai tujuan yang ingin dicapai pada
penelitian ini. Berikut ini adalah tabel evaluasi cluster dari perhitungan sebelumnya. Kolom pada tabel mewakili tipe hepatitis dan baris mewakili
kelompok.
Tabel 3.4 : confusion matrix
hepatitis kelompok
A B
C
1 2
1
2 1
1
3 1
� = 4
6
∗ 100 = 66, 67
3.4 Design UserInterface