Generalisasi Data Klasifikasi diagnosa diabetes mellitus dengan penerapan metode Naive Bayesian Clasifier

2.6. Generalisasi Data

Generalisasi data adalah ketika data level rendah low-level data diganti dengan konsep yang lebih tinggi, yaitu dengan melakukan diskretisasi. Teknik diskretisasi dapat digunakan untuk mereduksi sekumpulan nilai yang terdapat pada atribut continuous , dengan membagi range dari atribut ke dalam interval Hartanto Junaedi, 2011. Berikut ini merupakan proses kerja dari diskretisasi : Gambar 2. 2 Proses Diskretisasi Proses diskretisasi secara umum terdiri dari empat tahapan pada gambar di atas, yaitu : 1. Sorting , melakukan sorting nilai atribut continuous yang akan didiskretisasi. 2. Melakukan “ cut-point ”, banyak fungsi evaluasi yang dapat digunakan seperti binning dan pengukuran entropy . 3. Splitting , dilakukannya evaluasi poin ke dua yang ada dan pilih satu yang terbaikdan lakukan split range nilai atribut kontinu ke dalam dua partisi. Diskretisasi berlanjut untuk tiap partisi sampai kondisi berhenti tercapai. 4. Stopping criterion , dilakukan untuk menghentikan proses diskretisasi. Terdapat lima metode untuk melakukan diskretisasi pada data kontinu, yaitu binning , cluster analysis , histogram analysis , entropy-based discretization , dan segmentation by “natural partitioning”. Pada kasus data medis yang menjadi pusat bahasan ini penerapan Naive Bayesian Clasifier , diskretisasi yang akan dilakukan adalah dengan metode histogram analysis sesuai dengan bahasan dari Ying Yang dan Geoffrey I.Web di tahun 2005 tentang diskretisasi umtuk Naive-Bayes-Learning .

2.6.2. Diskretisasi pada

Naive Bayes Clasifier Diskretisasi pada Naive Bayes Clasifer ada beberapa pilihan antara lain dengan menghitung jarak dan frekuensi, ada juga dengan perhitungan entropi dan diskretisasi yang dilakukan setelah adanya tes data. Berikut ini adalah dua diantara banyak metode diskretisasi yang bisa diterapkan pada metode Naive Bayesian Clasifier . 1. Equal Width Discretization Equal Width Discretization EWD pertama kali dikemukanakan oleh Catlett pada tahun 1991 dan dikembangkan oleh Kerber dan Dougherty. Metode ini memungkinkan untuk menentukan interval berdasarkan perhitungan range dari nilai minimum dan maksimum data pada atributnya untuk didiskretisasi. Pada EWD, pengguna metode diminta untuk menentukan besaran jenis kelas bagian pada setiap atribut k sebagai parameter. Cara hitung untuk menentukan hasil diskretisasinya adalah nilai tiap data kontinu yang akan didiskretisasi cari bilangan maksimum dan minimumnya setelah itu bagi dengan nilai interval yang telah ditentukan sebelumnya, dengan rumusan sebagai berikut : � = − ............................................................2.2 Untuk n adalah nilai diskretisasi yang dicari dan min- max adalah data min dan max pada setiap atribut yang akan didiskretisasi. Setelah n ditemukan, dapat PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI menentukan jarak interval untuk membagi datanya ke bentuk yang lebih sederhana. 2. Equal Frequency Discretization Equal Frequency Discretization EFD dikemukanan oleh Catlett di tahun 1991 dan Kerber 1992. Jika EWD menghitung n menggunakan nilai min-max tiap atribut, EFD menggunakan banyaknya baris i pada atribut yang dibagi oleh k , dengan rumusan sebagai berikut : � = ...........................................................................2.3

2.7. Pengelompokan pada Data Mining