2.6. Generalisasi Data
Generalisasi data adalah ketika data level rendah
low-level data
diganti dengan konsep yang lebih tinggi, yaitu dengan melakukan diskretisasi. Teknik diskretisasi dapat digunakan untuk mereduksi
sekumpulan nilai yang terdapat pada atribut
continuous
, dengan membagi
range
dari atribut ke dalam interval Hartanto Junaedi, 2011. Berikut ini merupakan proses kerja dari diskretisasi :
Gambar 2. 2 Proses Diskretisasi
Proses diskretisasi secara umum terdiri dari empat tahapan pada gambar di atas, yaitu :
1.
Sorting
, melakukan
sorting
nilai atribut
continuous
yang akan didiskretisasi.
2. Melakukan “
cut-point
”, banyak fungsi evaluasi yang dapat digunakan seperti
binning
dan pengukuran
entropy
. 3.
Splitting
, dilakukannya evaluasi poin ke dua yang ada dan pilih satu yang terbaikdan lakukan
split range
nilai atribut kontinu ke dalam dua partisi. Diskretisasi berlanjut untuk tiap partisi sampai
kondisi berhenti tercapai. 4.
Stopping criterion
, dilakukan untuk menghentikan proses diskretisasi.
Terdapat lima metode untuk melakukan diskretisasi pada data kontinu, yaitu
binning
,
cluster analysis
,
histogram analysis
,
entropy-based discretization
, dan segmentation by “natural partitioning”. Pada kasus data
medis yang menjadi pusat bahasan ini penerapan
Naive Bayesian Clasifier
, diskretisasi yang akan dilakukan adalah dengan metode
histogram analysis
sesuai dengan bahasan dari Ying Yang dan Geoffrey I.Web di tahun 2005 tentang diskretisasi umtuk
Naive-Bayes-Learning
.
2.6.2. Diskretisasi pada
Naive Bayes Clasifier
Diskretisasi pada
Naive Bayes Clasifer
ada beberapa pilihan antara lain dengan menghitung jarak dan frekuensi, ada juga dengan
perhitungan entropi dan diskretisasi yang dilakukan setelah adanya tes data. Berikut ini adalah dua diantara banyak metode diskretisasi
yang bisa diterapkan pada metode
Naive Bayesian Clasifier
. 1.
Equal Width Discretization Equal Width Discretization
EWD pertama kali dikemukanakan oleh Catlett pada tahun 1991 dan
dikembangkan oleh Kerber dan Dougherty. Metode ini memungkinkan untuk menentukan interval berdasarkan
perhitungan
range
dari nilai minimum dan maksimum data pada atributnya untuk didiskretisasi. Pada EWD,
pengguna metode diminta untuk menentukan besaran jenis kelas bagian pada setiap atribut
k
sebagai parameter. Cara hitung untuk menentukan hasil
diskretisasinya adalah nilai tiap data kontinu yang akan didiskretisasi cari bilangan maksimum dan minimumnya
setelah itu bagi dengan nilai interval yang telah ditentukan sebelumnya, dengan rumusan sebagai berikut :
� =
−
............................................................2.2 Untuk
n
adalah nilai diskretisasi yang dicari dan min- max adalah data min dan max pada setiap atribut yang
akan didiskretisasi. Setelah n ditemukan, dapat PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
menentukan jarak interval untuk membagi datanya ke bentuk yang lebih sederhana.
2.
Equal Frequency Discretization Equal Frequency Discretization
EFD dikemukanan oleh Catlett di tahun 1991 dan Kerber 1992.
Jika EWD menghitung
n
menggunakan nilai
min-max
tiap atribut, EFD menggunakan banyaknya baris
i
pada atribut yang dibagi oleh
k
, dengan rumusan sebagai berikut : � = ...........................................................................2.3
2.7. Pengelompokan pada Data Mining