Analisa Pengolahan Data Klasifikasi diagnosa diabetes mellitus dengan penerapan metode Naive Bayesian Clasifier

3.2. Analisa Pengolahan Data

Berikut ini merupakan langkah-langkah dari analisa pengolahan data yang akan dilakukan Gambar 3. 1 Alur Pengolahan Data

3.2.1. Seleksi Data dan Integrasi Data

Pada tahap ini akan dilakukan penyeleksian terhadap data gejala terhadap data yang kurang relevan terhadap penelitian menghilangkan atau menghapus data gejala yang memiliki missing value sangat banyak sehingga sulit untuk dikenali gejala ataupun data labnya. Setelah diseleksi, dilakukan penggabungan seluruh data yang telah diperoleh atau dilakukannya integrasi data. Setelah itu data akan disimpan dalam satu file dengan ekstensi .xlsx atau .csv berdasarkan atribut dari tiap gejala sesuai dengan kriteria atributnya.

3.2.2. Cleaning

Data Pada tahap ini dilakukan pembersihan data atribut uji lab. yang kurang atau tidak relevan terhadap penelitian pengisian missing value , yaitu dengan melakukan pengisian nilai missing value dengan memberikan nilai rata-rata atribut tertentu disetiap daerah kosong dengan mengacu pada atributnya.

3.2.3. Transformasi

Pada tahap ini akan dilakukan perubahan data menjadi data numerik semua untuk mempermudah penghitungan pada proses mining nanti. Yaitu mengubah nilai pada atribut sex, diagnosa penyakit dan atribut kelas. Perubahan itu dengan melakukan transformasi sebagai berikut ini dan hasilnya terdapat pada lampiran tabel contoh data pada contoh kolom K1 dan K25: 1. Transformasi pada kolom K1 : a. L = 1 b. P = 2 2. Transformasi pada kolom K3 sampai kolom K12 : a. T = 1 b. Y = 2 3. Transformasi pada kolom data kontinu dilakukannya proses diskretisasi dengan EWD. a. Pilih atribut yang akan didiskretisasi, sebagai contoh atribut umur K3 dan gula darah K13, data diambil secara acak. Tabel 3. 2 Contoh EWD K3 K13 83 360 69 312 51 352 30 125 40 222 b. Data tersebut akan dicari nilai n untuk interval dari tiap data pada atributnya. Cari nilai minimal dan maksimal dari tiap atribut  K3 nilai minimal 30, nilai maksimal 83  K13 nilai minimal 125, nilai maksimal 360 c. Hitung besarnya nilai n interval yaitu dengan rumusan EWD yang telah dibahas pada pembahasan 2.6.2 poin 1. Nilai n tersebut dapat ditentukan dengan mencari nilai standar deviasi dari tiap atribut. Tabel 3. 3 Menghitung n K3 K3 2 K13 K13 2 83 6889 360 129600 69 4761 312 97344 51 2601 352 123904 30 900 125 15625 40 1600 222 49284 ∑ 273 16751 1371 415757 = √ ∑ − ∑ � � − ................................................3.1 �� = √ − 7 5 − = √ . = √ . = . = �� = √ − 7 5 − = √ . = √ . = . = Setelah nilai n pada K3 dan K13 sudah ditemukan, langkah selanjutnya cari nilai k dengan penerapan rumus EWD. � = − ..................................................3.2 �� = − = = . = �� = − = = . = Selanjutnya, masukkan nilai k kedalam pembagian interval sebanyak k bagian. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI Tabel 3. 4 Tabel Interval nK3 nK13 k � � 1 � ≤ � 2 � 3 .... d. Setiap nilai atribut akan dicocokkan dengan nilai interval yang telah dibuat di tabel 3.4 di atas. Masukkan data pada varibel x , maka ditemukanlah hasil diskretisasi datanya sebagai berikut : Tabel 3. 5 Hasil Diskretisasi K3 K13 menjadi dK3 dK13 83 360 2 2 69 312 2 2 51 352 1 2 30 125 1 1 40 222 1 2 4. Transformasi pada kolom K25 : a. DM = 2 b. DM_Hiperglikemia = 3 c. HT_DM = 4 d. Ulkus_DM = 5 e. DM_Neuropati = 6

3.2.4. Penerapan Teknik Mining

Pada tahap ini data yang telah ditransformasi dan menjadi data yang sangat relevan data setelah cleaning , data gejala Diabetes Millitus tersebut akan diklasifikasikan ke tipe dari diabetes tersebut dengan algoritma naive bayes . Data-data tersebut akan diolah dengan variabel input dan output, variabel input meliputi atribut gejala sakit dan data lab. dan outputya adalah kelas dari diabetes yang diderita. Gambar 3. 2 Alur Kerja Naive Bayes Berikut ini merupakan pengerjaan metode Naive Bayes pada data Diabetes Milletus : a Setelah melakukan preprosesing pada data, selanjutnya lakukan mining terhadap data. Yang pertama-tama dikerjakan adalah membuat kelas training pada langkah- langkah dibawah ini. b Hitung jumlah kelaslabel. Untuk percontohan pengerjaan gunakan data sbb, yang mana data diambil secara acak dan memakai data berdasarkan hasil transformasi data : Tabel 3. 6 Contoh Tabel Training K1 K2 K3 K14 K15 K25 1 1 2 3 1 2 2 3 2 4 2 2 2 3 2 3 1 2 2 2 2 3 1 2 2 2 1 4 1 3 2 3 1 4 1 3 1 3 1 3 1 3 2 3 1 4 1 3 1 3 2 3 3 4 1 3 1 4 1 4 2 3 2 5 1 4 1 2 2 4 1 4 2 3 1 5 1 5 2 2 2 5 1 5 1 3 2 5 2 5 2 2 2 4 3 5 2 4 2 5 1 5 1 3 1 5 1 6 1 4 1 5 1 6 2 2 1 5 1 6 � � = � | � � � � Probabilitas kelas : � � = = = . , � � = = = . , � � = = = . , � � = = = . , � � = = = . Probabilitas K1 banding K25 � � | = = , , � � | = = , � � | = = , , � � | = = , � � | = = , , � � | = = , � � | = = , , � � | = = , PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI � � | = = , , � � | = = , Probabilitas K2 banding K25 � � | = = , ,� � | = = , � � | = = , , � � | = � � | = � � | = ,� � | = = , � � | = = , , � � | = � � | = � � | = , � � | = = , � � | = = , , � � | = � � | = � � | = ,� � | = = , � � | = = , , � � | = = , � � | = � � | = ,� � | = = , � � | = = , , � � | = = , � � | = Probabilitas K3 banding K25 � � | = ,� � | = = � � | = = ,� � | = � � | = = , ,� � | = = , � � | = = ,� � | = = , � � | = = ,� � | = Probabilitas K14 banding K25 � � | = ,� � | = � � | = . , � � | = = . , � � | = � � | = , � � | = � � | = = . , � � | = . � � | = � � | = ,� � | = � � | = = . , � � | = . � � | = . � � | = ,� � | = � � | = , � � | = . � � | = . � � | = ,� � | = � � | = , � � | = � � | = Probabilitas K15 banding K25 � � | = = , � � | = = , � � | = , � � | = � � | = � � | = = , � � | = � � | = , � � | = � � | = � � | = = , , � � | = � � | = = , , � � | = � � | = � � | = = , , � � | = = , PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI � � | = = , , � � | = � � | = � � | = = , � � | = � � | = = , , � � | = � � | = c Setelah data training selesai diolah, dilakukanlah suatu testing terhadap data. Data testing disini penulis mencoba membuat suatu data baru. Setelah itu lakukan penghitungan probabilitas dari masing- masing kelas dan ditentukan bahwa probabilitas terbesarlah yang menjadi jawaban dari kelas yang dicari. Tabel 3. 7 Contoh Data Tabel Testing K1 K2 K3 K14 K15 K25 1 1 2 1 1 ? Cari probabilitas pada hitungan dengan mencocokkan pada tabel 3.7 � � | = , , � � | = , , � � | = , , � � | = , , � � | = , � � | = , � � | = , � � | = , � � | = , � � | = , � � | = ,� � | = , PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI � � | = , , � � | = , , � � | = , � � | = . , � � | = . � � | = . , � � | = � � | = � � | = , , � � | = � � | = , , � � | = , � � | = Lalu semua hasil dikalikan terhadap hasil probabilitas berdasarkan pengelompokan kelasnya. � = , × , × × . × , = , � = , × × × . × = � = , × × , × . × , = � = , × × , × × , = � = , × × × × = Setelah itu bandingkan keenam nilai tersebut, cari nilai terbesarnya. Dan dapat diketahui nilai probabilitas terbesar terdapat pada P2 dengan nilai probabilitas 0,03516. Maka dapat disimpulkan bahwa data test tersebut termasuk kelas 2 yang artinya pasien yang bersangkutan menderita Diabetes Mellitus saja, tanpa ada penyakit komplikasinya.

3.2.5. Evaluasi Data

Setelah dilakukannya proses modeling, maka akan dilakukan proses menghitung akurasi dari kebenaran data dengan metode confution matrix , yaitu dengan menjumlahkan data yang benar dan membaginya dengan semua data yang benar maupun data salah dan dikalikan dengan 100. Berikut ini contoh dari confution matrix - nya. Tabel 3. 8 Confution Matrix Kelas DM DM_Hiper- glikemia HT_DM Ulkus_DM DM_Neu- ropati DM T F F F F DM_Hiperglike mia F T F F F HT_DM F F T F F Ulkus_DM F F F T F DM_Neuropati F F F T Berdasarkan tabel 3.8 diatas, jumlah akurasi dari tiap percobaan dapat dihitung dengan rumusan berikut : � � = ∑ ∑ + ∑ ∗ ∑ , dapat dicari dengan menjumlahkan semua T yang terdapat pada tabel 3.8. Sementara itu ∑ diperoleh dari semua nilai F pada tabel. Setelah ∑ dihitung, dibagikan dengan ∑ + ∑ dan setelah itu dapat dikalikan dengan 100.

3.3. Desain Pengujian