3.2. Analisa Pengolahan Data
Berikut ini merupakan langkah-langkah dari analisa pengolahan data yang akan dilakukan
Gambar 3. 1 Alur Pengolahan Data
3.2.1. Seleksi Data dan Integrasi Data
Pada tahap ini akan dilakukan penyeleksian terhadap data gejala terhadap data yang kurang relevan terhadap penelitian
menghilangkan atau menghapus data gejala yang memiliki missing
value
sangat banyak sehingga sulit untuk dikenali gejala ataupun data labnya. Setelah diseleksi, dilakukan penggabungan seluruh
data yang telah diperoleh atau dilakukannya integrasi data. Setelah itu data akan disimpan dalam satu
file
dengan ekstensi .xlsx atau .csv berdasarkan atribut dari tiap gejala sesuai dengan kriteria atributnya.
3.2.2. Cleaning
Data
Pada tahap ini dilakukan pembersihan data atribut uji lab. yang kurang atau tidak relevan terhadap penelitian pengisian
missing value
, yaitu dengan melakukan pengisian nilai
missing value
dengan memberikan nilai rata-rata atribut tertentu disetiap daerah kosong dengan mengacu pada atributnya.
3.2.3. Transformasi
Pada tahap ini akan dilakukan perubahan data menjadi data numerik semua untuk mempermudah penghitungan pada proses
mining nanti. Yaitu mengubah nilai pada atribut sex, diagnosa penyakit dan atribut kelas. Perubahan itu dengan melakukan
transformasi sebagai berikut ini dan hasilnya terdapat pada lampiran tabel contoh data pada contoh kolom K1 dan K25:
1. Transformasi pada kolom K1 :
a. L = 1
b. P = 2
2. Transformasi pada kolom K3 sampai kolom K12 :
a. T = 1
b. Y = 2
3. Transformasi pada kolom data kontinu dilakukannya
proses diskretisasi dengan EWD. a.
Pilih atribut yang akan didiskretisasi, sebagai contoh atribut umur K3 dan gula darah K13, data diambil
secara acak.
Tabel 3. 2 Contoh EWD
K3 K13
83 360
69 312
51 352
30 125
40 222
b. Data tersebut akan dicari nilai
n
untuk interval dari tiap data pada atributnya. Cari nilai minimal dan
maksimal dari tiap atribut
K3 nilai minimal 30, nilai maksimal 83
K13 nilai minimal 125, nilai maksimal 360 c.
Hitung besarnya nilai
n
interval yaitu dengan rumusan EWD yang telah dibahas pada pembahasan
2.6.2 poin 1. Nilai
n
tersebut dapat ditentukan dengan mencari nilai standar deviasi dari tiap atribut.
Tabel 3. 3 Menghitung n
K3 K3
2
K13 K13
2
83
6889
360
129600
69
4761
312
97344
51
2601
352
123904
30
900
125
15625
40
1600
222
49284
∑
273 16751
1371 415757
= √
∑ −
∑ � �
−
................................................3.1
�� = √
−
7 5
−
= √
.
= √ . =
. =
�� = √
−
7 5
−
= √
.
= √
. =
. =
Setelah nilai
n
pada K3 dan K13 sudah ditemukan, langkah selanjutnya cari nilai
k
dengan penerapan rumus EWD.
� =
−
..................................................3.2 �� =
−
= = . = �� =
−
= = .
=
Selanjutnya, masukkan nilai
k
kedalam pembagian interval sebanyak
k
bagian. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Tabel 3. 4 Tabel Interval
nK3 nK13
k
� �
1
� ≤ �
2
�
3 ....
d. Setiap nilai atribut akan dicocokkan dengan nilai
interval yang telah dibuat di tabel 3.4 di atas. Masukkan data pada varibel
x
, maka ditemukanlah hasil diskretisasi datanya sebagai berikut :
Tabel 3. 5 Hasil Diskretisasi
K3 K13
menjadi dK3
dK13
83 360
2 2
69 312
2 2
51 352
1 2
30 125
1 1
40 222
1 2
4. Transformasi pada kolom K25 :
a. DM = 2
b. DM_Hiperglikemia = 3
c. HT_DM = 4
d. Ulkus_DM = 5
e. DM_Neuropati = 6
3.2.4. Penerapan Teknik Mining
Pada tahap ini data yang telah ditransformasi dan menjadi data yang sangat relevan data setelah
cleaning
, data gejala
Diabetes Millitus
tersebut akan diklasifikasikan ke tipe dari diabetes tersebut dengan algoritma
naive bayes
. Data-data tersebut akan diolah dengan variabel input dan output, variabel input meliputi
atribut gejala sakit dan data lab. dan outputya adalah kelas dari diabetes yang diderita.
Gambar 3. 2 Alur Kerja Naive Bayes
Berikut ini merupakan pengerjaan metode Naive Bayes pada data Diabetes Milletus :
a Setelah melakukan preprosesing pada data, selanjutnya
lakukan
mining
terhadap data. Yang pertama-tama dikerjakan adalah membuat kelas training pada langkah-
langkah dibawah ini. b
Hitung jumlah
kelaslabel. Untuk
percontohan pengerjaan gunakan data sbb, yang mana data diambil
secara acak dan memakai data berdasarkan hasil transformasi data :
Tabel 3. 6 Contoh Tabel Training
K1 K2 K3 K14 K15 K25
1 1
2 3
1 2
2 3
2 4
2 2
2 3
2 3
1 2
2 2
2 3
1 2
2 2
1 4
1 3
2 3
1 4
1 3
1 3
1 3
1 3
2 3
1 4
1 3
1 3
2 3
3 4
1 3
1 4
1 4
2 3
2 5
1 4
1 2
2 4
1 4
2 3
1 5
1 5
2 2
2 5
1 5
1 3
2 5
2 5
2 2
2 4
3 5
2 4
2 5
1 5
1 3
1 5
1 6
1 4
1 5
1 6
2 2
1 5
1 6
� � =
� |
�
� � �
Probabilitas kelas : � �
= =
= . , � �
= =
= . , � �
= =
= . , � �
= =
= . , � �
= =
= .
Probabilitas K1 banding K25 � �
| = = , , � � | = = ,
� � | = = , , � �
| = = , � �
| = = , , � � | = = ,
� � | = = , , � �
| = = , PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
� � | = = , , � �
| = = ,
Probabilitas K2 banding K25 � �
| = = , ,� � | = = ,
� � | = = , , � �
| = � �
| = � �
| = ,� � | = = ,
� � | = = , , � �
| = � �
| = � �
| = , � � | = = ,
� � | = = , , � �
| = � �
| = � �
| = ,� � | = = ,
� � | = = , , � �
| = = , � �
| = � �
| = ,� � | = = ,
� � | = = , , � �
| = = , � �
| =
Probabilitas K3 banding K25 � �
| = ,� � | = =
� � | = = ,� �
| = � �
| = = , ,� � | = = ,
� � | = = ,� �
| = = , � �
| = = ,� � | =
Probabilitas K14 banding K25 � �
| = ,� � | =
� � | = . , � �
| = = . , � �
| = � �
| = , � � | =
� � | = = . , � �
| = . � �
| = � �
| = ,� � | =
� � | = = . , � �
| = . � �
| = . � �
| = ,� � | =
� � | = , � �
| = . � �
| = . � �
| = ,� � | =
� � | = , � �
| = � �
| =
Probabilitas K15 banding K25 � �
| = = , � �
| = = , � �
| = , � � | =
� � | =
� � | = = , � �
| = � �
| = , � � | =
� � | =
� � | = = , , � �
| = � �
| = = , , � � | =
� � | =
� � | = = , , � �
| = = , PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
� � | = = , , � �
| = � �
| = � �
| = = , � � | =
� � | = = , , � �
| = � �
| =
c Setelah data training selesai diolah, dilakukanlah
suatu testing terhadap data. Data testing disini penulis mencoba membuat suatu data baru. Setelah
itu lakukan penghitungan probabilitas dari masing- masing kelas dan ditentukan bahwa probabilitas
terbesarlah yang menjadi jawaban dari kelas yang dicari.
Tabel 3. 7 Contoh Data Tabel Testing
K1 K2 K3 K14 K15 K25
1 1
2 1
1 ?
Cari probabilitas pada hitungan dengan mencocokkan pada tabel 3.7
� � | = , , � �
| = , , � �
| = , , � � | = , ,
� � | = ,
� � | = ,
� � | = , � �
| = , � �
| = , � � | = ,
� � | = ,� �
| = , PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
� � | = , , � �
| = , , � �
| = , � �
| = . , � � | = .
� � | = . , � �
| = � �
| = � �
| = , , � � | =
� � | = , , � �
| = , � �
| = Lalu
semua hasil dikalikan terhadap hasil probabilitas berdasarkan pengelompokan kelasnya.
� = , × , × × . × ,
= ,
� = , × × × . ×
=
� = , × × , × . × ,
=
� = , × × , × × ,
=
� = , × × × ×
=
Setelah itu bandingkan keenam nilai tersebut, cari nilai terbesarnya. Dan dapat diketahui nilai
probabilitas terbesar terdapat pada P2 dengan nilai probabilitas 0,03516. Maka dapat disimpulkan
bahwa data test tersebut termasuk kelas 2 yang artinya pasien yang bersangkutan menderita
Diabetes Mellitus
saja, tanpa ada penyakit komplikasinya.
3.2.5. Evaluasi Data
Setelah dilakukannya proses modeling, maka akan dilakukan proses menghitung akurasi dari kebenaran data dengan metode
confution matrix
, yaitu dengan menjumlahkan data yang benar dan membaginya dengan semua data yang benar maupun data salah dan
dikalikan dengan 100. Berikut ini contoh dari
confution matrix
- nya.
Tabel 3. 8 Confution Matrix
Kelas
DM DM_Hiper-
glikemia HT_DM
Ulkus_DM DM_Neu-
ropati DM
T F
F F
F
DM_Hiperglike mia
F T
F F
F
HT_DM
F F
T F
F
Ulkus_DM
F F
F T
F
DM_Neuropati
F F
F T
Berdasarkan tabel 3.8 diatas, jumlah akurasi dari tiap percobaan dapat dihitung dengan rumusan berikut :
� � =
∑ ∑ + ∑ ∗
∑ , dapat dicari dengan menjumlahkan semua T yang terdapat pada tabel 3.8. Sementara itu
∑ diperoleh dari semua nilai F pada tabel. Setelah
∑ dihitung, dibagikan dengan ∑ + ∑ dan setelah itu dapat dikalikan dengan 100.
3.3. Desain Pengujian