menentukan jarak interval untuk membagi datanya ke bentuk yang lebih sederhana.
2. Equal Frequency Discretization
Equal Frequency Discretization EFD dikemukanan
oleh Catlett di tahun 1991 dan Kerber 1992. Jika EWD menghitung n menggunakan nilai min-max tiap atribut,
EFD menggunakan banyaknya baris i pada atribut yang dibagi oleh k, dengan rumusan sebagai berikut :
� = ...........................................................................2.3
2.7. Pengelompokan pada Data Mining
1. Klasifikasi
Di dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu
pendapatan tinggi, pendapatan sedang, dan pendapatan rendah Kusrini, 2009.
Klasifikasi akan menggunakan data dengan target classlabel yang berupa nilai diskritkontinu. Menurut Goronescu, proses klasifikasi
didasarkan pada empat elemen penting yang sangat mendasar, yaitu : a
Kelas Variabel dependen dari model, merupakan variabel
kategorikal yang merepresentasikan label pada objek setelah klasifikasinya. Contohnya adalah adanya kelas
penyakit diabetes yang diderita seseorang, kelas gempa bumi dan banyak lainnya.
b Prediktor
Variabel dependen dari model, yang direpresentasikan oleh karakter khas atribut dari data yang akan
diklasifikasikan. Contohnya adalah data gejala dan hasil uji lab.
c Training dataset
Kumpulan dari data yang berisi nilai dari kedua komponen di atas dan digunakan untuk melatih model
dalam mengenali kelas yang sesuai berdasarkan prediktor yang tersedia.
d Testing dataset
Berisi data baru yang nantinya akan diklasifikasikan oleh model yang telah dibangun sebelumnya, sehingga akan
menghasilkan akurasi klasifikasi dan dapat dievaluasi. 2.
Klastering Klustering merupakan pengelompokan record, pengamatan atau
memperhatikan dan membentuk kelas objek yang memiliki kemiripa- kemiripan Kusrini, 2009. Klustering berbeda dengan klasifikasi
karena tidak adanya variabel target dalam pengklusteran. 3.
Deskripsi Terkadang peneliti dan analisa secara sederhana ingin mencoba
mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Sebagai contoh, petugas pengumpulan suara
mungkin tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan
presiden. Deskripsi dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola.
4. Estimasi
Estimasi hampir sama dengan klasifikasi, keculai variabel target estimasi lebih ke arah numerik daripada ke arah kategori. Model
dibangun menggunakan record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi. Selanjutnya, pada peninjauan
berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi Kusrini, 2009.
5. Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang. Beberapa
metode dalam klasifikasi dan estimasi dapat diterapkan pada prediksi Kusrini, 2009.
6. Asosiasi
Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu Kusrini, 2009. Asosiasi lebih kental
dengan suatu analisis kebutuhan.
2.8. Teorema Naive Bayesian