Preprocessing Data Identifikasi penyakit hepatitis dengan pendekatan Agglomerative Hierarchical Clustering.

hepatitis A, B dan C. Pada sheet pertama, terdapat data 40 pasien hepatitis A, sheet kedua 40 data pasien hepatitis B, dan sheet ketiga berjumlah 30 pasien hepatitis C. Jadi, total keseluruhan pasien ada 110 data yang akan dilakukan proses pengelompokan.

4.2 Preprocessing Data

Data-data yang digunakan dalam penelitian ini merupakan data pasien yang berobat dari tahun 2002 sampai 2010 yang diambil secara random. Data yang diambil adalah data hasil laboratorium, yaitu SGOT, SGPT, anti HAV, HBsAg dan Anti HCV. Tahap pertama yang dilakukan sebelum melakukan proses data mining adalah preprocessing pada data pasien terlebih dahulu. Langkah-langkah preprocessing yang dilakukan antara lain : 1. Data Cleaning Pembersihan data merupakan tahap awal dalam proses penambangan data. Data yang didapatkan tidak langsung dapat digunakan karena banyak data yang tidak lengkap. Pertama data-data yang tidak lengkap dikumpulkan sesuai dengan jenis hepatitis. Kedua, data yang tidak memenuhi kriteria tidak akan digunakan sehingga total data yang akan digunakan adalah 110 dari 130 data yang dicatat. 2. Data Integration Data yang sudah dilakukan proses pembersihan akan digabung sesuai dengan tipe hepatitis dan akan disimpan ke dalam satu tempat penyimpanan yang sama yang bertipe .csv. Data yang sudah digabung antara hepatitis A, B dan C akan mempermudah proses clustering. 3. Data Transformation Data yang sudah terkumpul dalam satu tempat akan ditransformasi kedalam bentuk yang tepat untuk di tambang. Data pasien hepatitis ini memiliki rentang nilai yang jauh antara nilai satu dengan yang lain sehingga perlu dilakukan proses normalisasi agar datanya menjadi seimbang dan berada dalam range yang sudah ditetapkan. Normalisasi yang digunakan adalah [0-1] dan zscore. Normalisasi [0-1] dilakukan pada atribut SGOT dan SGPT dan data gabungan antara gejala dan laboratorium. Atribut SGOT dan SGPT yang memiliki range yang berbeda antara pria dan wanita. Range normal SGOT wanita berkisar antara 0-32. Sedangkan normal SGOT pria berkisar antara 0-37. Range normal SGPT wanita berkisar antara 0-31. Sedangkan range normal SGPT pria berkisar antara 0-42. SGOT dan SGPT masing-masing wanita dan pria akan di normalisasi sesuai dengan rangenya. Berikut ini data SGOT dan SGPT sebelum dan sesudah di normalisasi. Tabel 4.3 SGOT dan SGPT sebelum dan sesudah dinormalisasi Sebelum Sesudah SGOT SGPT SGOT SGPT 163.8 756.3 2.619421 10.69117 273.9 460.8 4.5934 6.427688 1092 1710.7 19.26108 24.46128 340.4 639.1 4.615795 7.895486 100.1 402.7 1.477347 5.589419 44.9 344 0.487668 4.742494 302.2 561.1 5.10079 7.87482 26.3 57.9 0.154189 0.614634 Penanda hepatitis A, B dan C, yaitu anti HAV igm, HBsAg, dan anti HCV juga akan dinormlisasi. Hal tersebut karena alat yang digunakan untuk memeriksa data laboratorium berbeda dan satuannya pun berbeda sehingga range antara satu data dan lainnya menjadi jauh. Contohnya ada yang bernilai 4,78 dan ada yang bernilai 1955. Salah satu penyelesaiannya adalah mengubah data tersebut menjadi bilangan biner 0 dan 1. Bilangan 1 berarti pasien tersebut terkena penyakit hepatitis A, B atau C, sedangkan 0 berarti pasien tersebut tidak terkena penyakit hepatitis A, B atau C. Tabel 4.4 Penanda hepatitis sebelum dan sesudah normalisasi Sebelum Sesudah Anti HaV HBsAg Anti HCV Anti HaV HBsAg Anti HCV 2.67 1 3.12 1 4.74 1 3.37 1 3.24 1 3.43 1 2.57 1 1.55 1 2.8 1 3.84 1 1955 1 18.89 1 17.22 1 20.2 1 1 1 23.41 1 18.48 1 1 1 1 1 0.72 1 1 1 10.53 1 11.03 1 1 1 97.6 1 1 1 12.33 1 1 1 1 1 402 1 Setelah data tersebut dikonversi, maka data tersebut masih harus dilakukan normalisasi terlebih dahulu. Hal itu karena masih adanya perbedaan range antara data yang bernilaibiner dan desimal. Normalisasi yang dilakukan dengan normalisasi 0-1karena banyak yang bertipe data 0 dan 1. Kemudian hasil normalisasi tersebut yang digunakan untuk proses clustering dengan agglomerative hierarchical clustering. 4. Data Reduksi Proses ini dilakukan agar mengurangi dimensi pada data sehingga dapat memperoleh dataset yang lebih kecil dari sisi volume sehingga dapat menjaga integrity data dari data yang sebenarnya. Salah satu teknik data reduksi adalah principal component analysis. Cara kerjanya dengan memproyeksikan data yang berdimensi tinggi ke dimensi yang rendah. Tujuan dari principal component analysisadalah mengurangi dimensi data dengan mempertahankan variasi dari data yang ada. Dari data gejala hasil dikelompokkan menurut gejala masing-masing seperti gejala otot, gejala perut, gejala kulit, gejala mata dan gejala mirip flu. Gejala otot terdiri dari pegal, nyeri sendi dan normal. Gejala perut terdiri dari mual, muntah, diare, nyeri perut sebelah kanan, kencing berwarna gelap, nafsu makan berkurang dan perut acites. Gejala kulit terdiri dari normal, kuning, lembab, gatal, kemerahan, kering. Gejala mata terdiri dari normal dan kuning untuk gejala mata. Sedangkan gejala mirip flu terdiri dari demam, pusing, lesu, mialgia, lelah, menggigil, dan batuk. Adapula hasil laboratorium yang meliputi SGOT, SGPT, anti HAV, HBsAg, dan anti HCV. Gejala-gejala ini digabungkan dengan hasil laboratorium sehingga total atribut ada 31 atribut. Kemudian, 31 atribut dilakukan preprocessing dengan principal component analysis, maka 31 atribut tersebut akan berkurang sesuai dengan parameter principal component yang akan dimasukan. Hasilfeature baru yang akan digunakan adalah yang memiliki nilai eigenvalue tertinggi yang diurutkan dari besar ke kecil.

4.3 Hasil UjiClustering dan Akurasi