hepatitis A, B dan C. Pada sheet pertama, terdapat data 40 pasien hepatitis A, sheet kedua 40 data pasien hepatitis B, dan sheet ketiga berjumlah 30 pasien
hepatitis C. Jadi, total keseluruhan pasien ada 110 data yang akan dilakukan proses pengelompokan.
4.2 Preprocessing Data
Data-data yang digunakan dalam penelitian ini merupakan data pasien yang berobat dari tahun 2002 sampai 2010 yang diambil secara random. Data yang
diambil adalah data hasil laboratorium, yaitu SGOT, SGPT, anti HAV, HBsAg dan Anti HCV. Tahap pertama yang dilakukan sebelum melakukan proses data
mining adalah preprocessing pada data pasien terlebih dahulu. Langkah-langkah preprocessing yang dilakukan antara lain :
1. Data Cleaning
Pembersihan data merupakan tahap awal dalam proses penambangan data. Data yang didapatkan tidak langsung dapat digunakan karena banyak
data yang tidak lengkap. Pertama data-data yang tidak lengkap dikumpulkan sesuai dengan jenis hepatitis. Kedua, data yang tidak
memenuhi kriteria tidak akan digunakan sehingga total data yang akan digunakan adalah 110 dari 130 data yang dicatat.
2. Data Integration
Data yang sudah dilakukan proses pembersihan akan digabung sesuai dengan tipe hepatitis dan akan disimpan ke dalam satu tempat
penyimpanan yang sama yang bertipe .csv. Data yang sudah digabung
antara hepatitis A, B dan C akan mempermudah proses clustering.
3. Data Transformation
Data yang sudah terkumpul dalam satu tempat akan ditransformasi kedalam bentuk yang tepat untuk di tambang. Data pasien hepatitis ini
memiliki rentang nilai yang jauh antara nilai satu dengan yang lain sehingga perlu dilakukan proses normalisasi agar datanya menjadi
seimbang dan berada dalam range yang sudah ditetapkan. Normalisasi yang digunakan adalah [0-1] dan zscore.
Normalisasi [0-1] dilakukan pada atribut SGOT dan SGPT dan data gabungan antara gejala dan laboratorium. Atribut SGOT dan SGPT yang
memiliki range yang berbeda antara pria dan wanita. Range normal SGOT wanita berkisar antara 0-32. Sedangkan normal SGOT pria berkisar antara
0-37. Range normal SGPT wanita berkisar antara 0-31. Sedangkan range normal SGPT pria berkisar antara 0-42. SGOT dan SGPT masing-masing
wanita dan pria akan di normalisasi sesuai dengan rangenya. Berikut ini data SGOT dan SGPT sebelum dan sesudah di normalisasi.
Tabel 4.3 SGOT dan SGPT sebelum dan sesudah dinormalisasi
Sebelum Sesudah
SGOT SGPT
SGOT SGPT
163.8 756.3 2.619421 10.69117
273.9 460.8
4.5934 6.427688 1092
1710.7 19.26108 24.46128 340.4
639.1 4.615795 7.895486
100.1 402.7 1.477347 5.589419
44.9 344 0.487668 4.742494
302.2 561.1
5.10079 7.87482
26.3 57.9 0.154189 0.614634
Penanda hepatitis A, B dan C, yaitu anti HAV igm, HBsAg, dan anti HCV juga akan dinormlisasi. Hal tersebut karena alat yang digunakan
untuk memeriksa data laboratorium berbeda dan satuannya pun berbeda sehingga range antara satu data dan lainnya menjadi jauh. Contohnya ada
yang bernilai 4,78 dan ada yang bernilai 1955. Salah satu penyelesaiannya adalah mengubah data tersebut menjadi bilangan biner 0 dan 1. Bilangan 1
berarti pasien tersebut terkena penyakit hepatitis A, B atau C, sedangkan 0 berarti pasien tersebut tidak terkena penyakit hepatitis A, B atau C.
Tabel 4.4 Penanda hepatitis sebelum dan sesudah normalisasi
Sebelum Sesudah
Anti HaV
HBsAg Anti
HCV Anti
HaV HBsAg
Anti HCV
2.67 1
3.12 1
4.74
1
3.37
1
3.24
1
3.43
1
2.57
1
1.55
1
2.8
1
3.84
1
1955 1
18.89 1
17.22 1
20.2 1
1 1
23.41 1
18.48 1
1 1
1 1
0.72 1
1 1
10.53 1
11.03 1
1 1
97.6 1
1 1
12.33 1
1 1
1 1
402 1
Setelah data tersebut dikonversi, maka data tersebut masih harus dilakukan normalisasi terlebih dahulu. Hal itu karena masih adanya
perbedaan range antara data yang bernilaibiner dan desimal. Normalisasi yang dilakukan dengan normalisasi 0-1karena banyak yang bertipe data 0
dan 1. Kemudian hasil normalisasi tersebut yang digunakan untuk proses clustering dengan agglomerative hierarchical clustering.
4. Data Reduksi
Proses ini dilakukan agar mengurangi dimensi pada data sehingga dapat memperoleh dataset yang lebih kecil dari sisi volume sehingga dapat
menjaga integrity data dari data yang sebenarnya. Salah satu teknik data reduksi adalah principal component analysis. Cara kerjanya dengan
memproyeksikan data yang berdimensi tinggi ke dimensi yang rendah. Tujuan dari principal component analysisadalah mengurangi dimensi data
dengan mempertahankan variasi dari data yang ada. Dari data gejala hasil dikelompokkan menurut gejala masing-masing seperti gejala otot, gejala
perut, gejala kulit, gejala mata dan gejala mirip flu. Gejala otot terdiri dari pegal, nyeri sendi dan normal. Gejala perut terdiri dari mual, muntah, diare,
nyeri perut sebelah kanan, kencing berwarna gelap, nafsu makan berkurang dan perut acites. Gejala kulit terdiri dari normal, kuning, lembab,
gatal, kemerahan, kering. Gejala mata terdiri dari normal dan kuning untuk gejala mata. Sedangkan gejala mirip flu terdiri dari demam, pusing, lesu,
mialgia, lelah, menggigil, dan batuk. Adapula hasil laboratorium yang meliputi SGOT, SGPT, anti HAV, HBsAg, dan anti HCV. Gejala-gejala
ini digabungkan dengan hasil laboratorium sehingga total atribut ada 31 atribut. Kemudian, 31 atribut dilakukan preprocessing dengan principal
component analysis, maka 31 atribut tersebut akan berkurang sesuai dengan parameter principal component yang akan dimasukan. Hasilfeature
baru yang akan digunakan adalah yang memiliki nilai eigenvalue tertinggi yang diurutkan dari besar ke kecil.
4.3 Hasil UjiClustering dan Akurasi