Pengelompokan pada Data Mining

menentukan jarak interval untuk membagi datanya ke bentuk yang lebih sederhana. 2. Equal Frequency Discretization Equal Frequency Discretization EFD dikemukanan oleh Catlett di tahun 1991 dan Kerber 1992. Jika EWD menghitung n menggunakan nilai min-max tiap atribut, EFD menggunakan banyaknya baris i pada atribut yang dibagi oleh k, dengan rumusan sebagai berikut : � = ...........................................................................2.3

2.7. Pengelompokan pada Data Mining

1. Klasifikasi Di dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan rendah Kusrini, 2009. Klasifikasi akan menggunakan data dengan target classlabel yang berupa nilai diskritkontinu. Menurut Goronescu, proses klasifikasi didasarkan pada empat elemen penting yang sangat mendasar, yaitu : a Kelas Variabel dependen dari model, merupakan variabel kategorikal yang merepresentasikan label pada objek setelah klasifikasinya. Contohnya adalah adanya kelas penyakit diabetes yang diderita seseorang, kelas gempa bumi dan banyak lainnya. b Prediktor Variabel dependen dari model, yang direpresentasikan oleh karakter khas atribut dari data yang akan diklasifikasikan. Contohnya adalah data gejala dan hasil uji lab. c Training dataset Kumpulan dari data yang berisi nilai dari kedua komponen di atas dan digunakan untuk melatih model dalam mengenali kelas yang sesuai berdasarkan prediktor yang tersedia. d Testing dataset Berisi data baru yang nantinya akan diklasifikasikan oleh model yang telah dibangun sebelumnya, sehingga akan menghasilkan akurasi klasifikasi dan dapat dievaluasi. 2. Klastering Klustering merupakan pengelompokan record, pengamatan atau memperhatikan dan membentuk kelas objek yang memiliki kemiripa- kemiripan Kusrini, 2009. Klustering berbeda dengan klasifikasi karena tidak adanya variabel target dalam pengklusteran. 3. Deskripsi Terkadang peneliti dan analisa secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola. 4. Estimasi Estimasi hampir sama dengan klasifikasi, keculai variabel target estimasi lebih ke arah numerik daripada ke arah kategori. Model dibangun menggunakan record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi Kusrini, 2009. 5. Prediksi Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang. Beberapa metode dalam klasifikasi dan estimasi dapat diterapkan pada prediksi Kusrini, 2009. 6. Asosiasi Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu Kusrini, 2009. Asosiasi lebih kental dengan suatu analisis kebutuhan.

2.8. Teorema Naive Bayesian