menentukan jarak interval untuk membagi datanya ke bentuk yang lebih sederhana.
2.
Equal Frequency Discretization Equal Frequency Discretization
EFD dikemukanan oleh Catlett di tahun 1991 dan Kerber 1992.
Jika EWD menghitung
n
menggunakan nilai
min-max
tiap atribut, EFD menggunakan banyaknya baris
i
pada atribut yang dibagi oleh
k
, dengan rumusan sebagai berikut : � = ...........................................................................2.3
2.7. Pengelompokan pada Data Mining
1. Klasifikasi
Di dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu
pendapatan tinggi, pendapatan sedang, dan pendapatan rendah Kusrini, 2009.
Klasifikasi akan menggunakan data dengan target
classlabel
yang berupa nilai diskritkontinu. Menurut Goronescu, proses klasifikasi
didasarkan pada empat elemen penting yang sangat mendasar, yaitu : a
Kelas Variabel dependen dari model, merupakan variabel
kategorikal yang merepresentasikan label pada objek setelah klasifikasinya. Contohnya adalah adanya kelas
penyakit diabetes yang diderita seseorang, kelas gempa bumi dan banyak lainnya.
b Prediktor
Variabel dependen dari model, yang direpresentasikan oleh karakter khas atribut dari data yang akan
diklasifikasikan. Contohnya adalah data gejala dan hasil uji lab.
c
Training dataset
Kumpulan dari data yang berisi nilai dari kedua komponen di atas dan digunakan untuk melatih model
dalam mengenali kelas yang sesuai berdasarkan prediktor yang tersedia.
d
Testing dataset
Berisi data baru yang nantinya akan diklasifikasikan oleh model yang telah dibangun sebelumnya, sehingga akan
menghasilkan akurasi klasifikasi dan dapat dievaluasi. 2.
Klastering Klustering merupakan pengelompokan
record
, pengamatan atau memperhatikan dan membentuk kelas objek yang memiliki kemiripa-
kemiripan Kusrini, 2009. Klustering berbeda dengan klasifikasi karena tidak adanya variabel target dalam pengklusteran.
3. Deskripsi
Terkadang peneliti dan analisa secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang
terdapat dalam data. Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan atau fakta bahwa siapa
yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi dari pola dan kecenderungan sering memberikan
kemungkinan penjelasan untuk suatu pola. 4.
Estimasi Estimasi hampir sama dengan klasifikasi, keculai variabel target
estimasi lebih ke arah numerik daripada ke arah kategori. Model dibangun menggunakan
record
lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi. Selanjutnya, pada peninjauan
berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi Kusrini, 2009.
5. Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang. Beberapa
metode dalam klasifikasi dan estimasi dapat diterapkan pada prediksi Kusrini, 2009.
6. Asosiasi
Tugas asosiasi dalam
data mining
adalah menemukan atribut yang muncul dalam satu waktu Kusrini, 2009. Asosiasi lebih kental
dengan suatu analisis kebutuhan.
2.8. Teorema Naive Bayesian