Seleksi Data dan Integrasi Data Cleaning Data Transformasi

3.2. Analisa Pengolahan Data

Berikut ini merupakan langkah-langkah dari analisa pengolahan data yang akan dilakukan Gambar 3. 1 Alur Pengolahan Data

3.2.1. Seleksi Data dan Integrasi Data

Pada tahap ini akan dilakukan penyeleksian terhadap data gejala terhadap data yang kurang relevan terhadap penelitian menghilangkan atau menghapus data gejala yang memiliki missing value sangat banyak sehingga sulit untuk dikenali gejala ataupun data labnya. Setelah diseleksi, dilakukan penggabungan seluruh data yang telah diperoleh atau dilakukannya integrasi data. Setelah itu data akan disimpan dalam satu file dengan ekstensi .xlsx atau .csv berdasarkan atribut dari tiap gejala sesuai dengan kriteria atributnya.

3.2.2. Cleaning Data

Pada tahap ini dilakukan pembersihan data atribut uji lab. yang kurang atau tidak relevan terhadap penelitian pengisian missing value , yaitu dengan melakukan pengisian nilai missing value dengan memberikan nilai rata-rata atribut tertentu disetiap daerah kosong dengan mengacu pada atributnya. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

3.2.3. Transformasi

Pada tahap ini akan dilakukan perubahan data menjadi data numerik semua untuk mempermudah penghitungan pada proses mining nanti. Yaitu mengubah nilai pada atribut sex, diagnosa penyakit dan atribut kelas. Perubahan itu dengan melakukan transformasi sebagai berikut ini dan hasilnya terdapat pada lampiran tabel contoh data pada contoh kolom K1 dan K25: 1. Transformasi pada kolom K1 : a. L = 1 b. P = 2 2. Transformasi pada kolom K3 sampai kolom K12 : a. T = 1 b. Y = 2 3. Transformasi pada kolom data kontinu dilakukannya proses diskretisasi dengan EWD. a. Pilih atribut yang akan didiskretisasi, sebagai contoh atribut umur K3 dan gula darah K13, data diambil secara acak. Tabel 3. 2 Contoh EWD K3 K13 83 360 69 312 51 352 30 125 40 222 b. Data tersebut akan dicari nilai n untuk interval dari tiap data pada atributnya. Cari nilai minimal dan maksimal dari tiap atribut  K3 nilai minimal 30, nilai maksimal 83  K13 nilai minimal 125, nilai maksimal 360 c. Hitung besarnya nilai n interval yaitu dengan rumusan EWD yang telah dibahas pada pembahasan PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 2.6.2 poin 1. Nilai n tersebut dapat ditentukan dengan mencari nilai standar deviasi dari tiap atribut. Tabel 3. 3 Menghitung n K3 K3 2 K13 K13 2 83 6889 360 129600 69 4761 312 97344 51 2601 352 123904 30 900 125 15625 40 1600 222 49284 ∑ 273 16751 1371 415757 = √ ∑ − ∑ � � − ................................................3.1 �� = √ − 7 5 − = √ . = √ . = . = �� = √ − 7 5 − = √ . = √ . = . = Setelah nilai n pada K3 dan K13 sudah ditemukan, langkah selanjutnya cari nilai k dengan penerapan rumus EWD. � = − ..................................................3.2 �� = − = = . = �� = − = = . = Selanjutnya, masukkan nilai k kedalam pembagian interval sebanyak k bagian. Tabel 3. 4 Tabel Interval nK3 nK13 k � � 1 � ≤ � 2 � 3 .... d. Setiap nilai atribut akan dicocokkan dengan nilai interval yang telah dibuat di tabel 3.4 di atas. Masukkan data pada varibel x, maka ditemukanlah hasil diskretisasi datanya sebagai berikut : Tabel 3. 5 Hasil Diskretisasi K3 K13 menjadi dK3 dK13 83 360 2 2 69 312 2 2 51 352 1 2 30 125 1 1 40 222 1 2 4. Transformasi pada kolom K25 : a. DM = 2 b. DM_Hiperglikemia = 3 c. HT_DM = 4 d. Ulkus_DM = 5 e. DM_Neuropati = 6

3.2.4. Penerapan Teknik Mining