3.2. Analisa Pengolahan Data
Berikut ini merupakan langkah-langkah dari analisa pengolahan data yang akan dilakukan
Gambar 3. 1 Alur Pengolahan Data
3.2.1. Seleksi Data dan Integrasi Data
Pada tahap ini akan dilakukan penyeleksian terhadap data gejala terhadap data yang kurang relevan terhadap penelitian
menghilangkan atau menghapus data gejala yang memiliki missing value
sangat banyak sehingga sulit untuk dikenali gejala ataupun data labnya. Setelah diseleksi, dilakukan penggabungan seluruh
data yang telah diperoleh atau dilakukannya integrasi data. Setelah itu data akan disimpan dalam satu file dengan ekstensi .xlsx atau .csv
berdasarkan atribut dari tiap gejala sesuai dengan kriteria atributnya.
3.2.2. Cleaning Data
Pada tahap ini dilakukan pembersihan data atribut uji lab. yang kurang atau tidak relevan terhadap penelitian pengisian
missing value , yaitu dengan melakukan pengisian nilai missing
value dengan memberikan nilai rata-rata atribut tertentu disetiap
daerah kosong dengan mengacu pada atributnya. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3.2.3. Transformasi
Pada tahap ini akan dilakukan perubahan data menjadi data numerik semua untuk mempermudah penghitungan pada proses
mining nanti. Yaitu mengubah nilai pada atribut sex, diagnosa penyakit dan atribut kelas. Perubahan itu dengan melakukan
transformasi sebagai berikut ini dan hasilnya terdapat pada lampiran tabel contoh data pada contoh kolom K1 dan K25:
1. Transformasi pada kolom K1 :
a. L = 1
b. P = 2
2. Transformasi pada kolom K3 sampai kolom K12 :
a. T = 1
b. Y = 2
3. Transformasi pada kolom data kontinu dilakukannya
proses diskretisasi dengan EWD. a.
Pilih atribut yang akan didiskretisasi, sebagai contoh atribut umur K3 dan gula darah K13, data diambil
secara acak.
Tabel 3. 2 Contoh EWD
K3 K13
83 360
69 312
51 352
30 125
40 222
b. Data tersebut akan dicari nilai n untuk interval dari
tiap data pada atributnya. Cari nilai minimal dan maksimal dari tiap atribut
K3 nilai minimal 30, nilai maksimal 83
K13 nilai minimal 125, nilai maksimal 360
c. Hitung besarnya nilai n interval yaitu dengan
rumusan EWD yang telah dibahas pada pembahasan PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2.6.2 poin 1. Nilai n tersebut dapat ditentukan dengan mencari nilai standar deviasi dari tiap atribut.
Tabel 3. 3 Menghitung n
K3 K3
2
K13 K13
2
83
6889
360
129600
69
4761
312
97344
51
2601
352
123904
30
900
125
15625
40
1600
222
49284
∑
273 16751
1371 415757
= √
∑ −
∑ � �
−
................................................3.1
�� = √
−
7 5
−
= √
.
= √ . =
. =
�� = √
−
7 5
−
= √
.
= √
. =
. =
Setelah nilai n pada K3 dan K13 sudah ditemukan, langkah selanjutnya cari nilai k dengan penerapan
rumus EWD. � =
−
..................................................3.2 �� =
−
= = . = �� =
−
= = .
=
Selanjutnya, masukkan nilai k kedalam pembagian interval sebanyak k bagian.
Tabel 3. 4 Tabel Interval
nK3 nK13
k
� �
1
� ≤ �
2
�
3 ....
d. Setiap nilai atribut akan dicocokkan dengan nilai
interval yang telah dibuat di tabel 3.4 di atas. Masukkan data pada varibel x, maka ditemukanlah
hasil diskretisasi datanya sebagai berikut :
Tabel 3. 5 Hasil Diskretisasi
K3 K13
menjadi dK3
dK13
83 360
2 2
69 312
2 2
51 352
1 2
30 125
1 1
40 222
1 2
4. Transformasi pada kolom K25 :
a. DM = 2
b. DM_Hiperglikemia = 3
c. HT_DM = 4
d. Ulkus_DM = 5
e. DM_Neuropati = 6
3.2.4. Penerapan Teknik Mining