Classification Regression Metode Data mining

Metode ini digunakan untuk memperkirakan nilai atribut atau variabel yang bertipe floating point Hornick, 2006. Perbedaan antara metode classification dengan metode regression adalah bahwa pada metode regression nilai atribut atau variabel target bertipe floating point sedangkan metode classification meskipun bisa bertipe numeric yang biasanya digunakan untuk skoring, tetapi berupa angka yang bulat. Untuk lebih jelasnya mengenai metode regression, perhatikan tabel 2.2 berikut : Tabel 2.2 Contoh Data Harga Rumah Atribut IDRumah LT KM KT Harga Rumah 1 3000 5 3 748.000.000 2 1500 3 2 279.000.000 3 2550 4 4 510.900.000 4 2300 4 3 1.420.500.000 Sample Prediktor Target Dari tabel 2.2 terlihat bahwa atribut target harga rumah bernilai numeric. Misalnya untuk menentukan harga rumah, yang dijadikan sebagai atribut prediktor antar lain luas tanah LT, jumlah kamar tidur KT dan jumlah kamar mandi KM.

2.6.3 Clustering

Metode clustering termasuk kedalam model deskripsi dan jenis pembelajarannya adalah unsupervised learning. Metode clustering atau bisa juga disebut segmentasi, melakukan pengelompokan data menurut kesamaannya atau kedekatanya dan bukan berdasarkan kelas data tertentu seperti pada metode classification . Prinsip clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas atau cluster Larose, 2005. Untuk lebih jelasnya perhatikan gambar 2.2 berikut : Gambar 2.3 Contoh Clustering Penghasilan Umur C C C Dari gambar 2.3 kita misalkan sebagai kumpulan data konsumen sederhana yang mengandung dua atribut yaitu umur dan penghasilan. Berdasarkan dua atribut tersebut kemudian terbagi menjadi tiga kelompok cluster yaitu C1 yang terdiri konsumen usia muda dengan penghasilan rendah. C2 terdiri dari konsumen usia muda dan tua dengan penghasilan tinggi. C3 terdiri dari konsumen usia tua dengan penghasilan relatif rendah.

2.6.4 Association Rules

Metode association rules atau juga dikenal dengan nama market basket analysis , digunakan untuk menemukan aturan assosiatif antara suatu kombinasi item atau barang Tang Jamie, 2005. Metode association rules termasuk kedalam model deskripsi dan jenis pembelajarannya adalah unsupervised learning . Metode ini dapat digunakan untuk mengidentifikasi item- item produk yang mungkin dibeli secara bersamaan dengan produk lain. Metode association rules mempunyai dua tahapan yaitu, menemukan frequent itemset dan membentuk assosiation rules. Metode ini terdiri dari dua item yaitu antecedent dan consequent Hornick, 2006. Antecedent dan consequent bisa di analogikan sebagai aturan “If x Then y”. Dimana x merupakan antecedent atau left hand side dan y adalah consequent atau right hand side . Misalnya jika antecedent A dan consequent B, maka aturannya dapat ditulis sebagai berikut : B  A . Dalam association rules diperlukan variabel ukuran yang dapat ditentukan oleh user untuk mengatur batasan sejauh mana dan sebanyak apa hasil output yang diinginkan. Variabel ukuran tersebut adalah support dan confidence. Support adalah nilai dua atau lebih itemset yang dibeli secara bersamaan dari keseluruhan transaksi. Nilai support menunjukkan frekuensi itemset dalam suatu transaksi. Berikut perhitungan untuk mengetahui nilai support : ndungA saksiMenga JumlahTran A Support  X 100 Jumlah transaksi Confidence adalah ukuran yang didapatkan dari probabilitas adanya itemset A pada suatu transaksi maka juga ada itemset B pada transaksi tersebut. Nilai confidence menunjukkan kuatnya hubungan antar item dalam suatu aturan assosiasi. Berikut perhitungan untuk mengetahui nilai confidence :