Pengertian Data Mining Proses Data Mining

2.3 Teknik – Teknik Data Mining

Dalam data mining terdapat beberapa teknik yang digunakan untuk melakukan analisa terhadap sekumpulan data. Teknik data mining yang akan digunakan dalam melakukan analisa data disesuaikan dengan kebutuhan dan masalah yang ada. Berikut adalah beberapa teknik yang digunakan dalam data mining. 2.3.1 Association Rule Mining Association rule mining merupakan salah satu teknik dalam data mining yang digunakan untuk menemukan sebuah aturan assosiatif antara suatu kombinasi item. Aturan yang digunakan dalam teknik ini adalah menggunakan aturan “ Jika – Maka “. Seperti contohnya yang terjadi dari sebuah transaksi pembelian adalah jika konsumen membeli barang A maka ia akan membeli juga barang B. Beberapa algoritma yang menggunakan teknik association rule mining adalah algoritma apriori yang menggunakan iterasi secara berulang – ulang untuk menentukan frequent itemset dan algoritma FP-Growth yang menggunakan Frequent Pattern Tree dalam menentukan frequent itemset. 2.3.2 Classification Teknik Classification merupakan teknik yang digunakan untuk menemukan sebuah model atau sebuah fungsi yang mendiskripsikan dan membedakan kelas atau konsep data, dengan tujuan menggunakan model tersebut untuk memprediksi kelompok dari object yang belum diketahui labelnya. Model dapat direpresentasikan dalam bentuk classification rules, decision tress, mathematical formulae, atau neural networks. Beberapa method yang digunakan untuk membangun sebuah model classification yaitu naïve Bayesian classification, support vector machines, dan k- nearest-neighbor classification. 2.3.3 Clustering Berbeda dengan teknik classification dan association rule, teknik clustering merupakan teknik yang digunakan untuk melakukan pengelompokan data dan memberikan label pada sekelompok data yang sebelumnya tidak diketahui. Object yang dikelompokkan atau di cluster berdasarkan pada prinsip memaksimalkan kesamaan antar anggota di dalam suatu kelas dan meminimalkan kesamaan antar kelas. Dengan hal tersebut object dalam kelas terbentuk, jadi object di dalam sebuah cluster memiliki kesamaan yang tinggi apabila dibandingkan antara anggota satu dengan anggota yang lain dalam cluster tersebut. Tetapi akan memiliki perbedaan yang tinggi apabila dibandingkan dengan object yang terletak dalam cluster yang berbeda. 2.3.4 Outlier Analysis Dalam sekumpulan data mungkin terdapat object yang tidak sesuai dengan model dari data, itulah yang disebut dengan outlier. Banyak method dari data mining yang membuang outlier yang biasa disebut dengan noise atau exception. Outlier mendeteksi dengan menggunakan tes statistic yang mengasumsikan kemungkinan model dalam data atau menggunakan ukuran jarak dimana object dikendalikan dengan mempertimpangkan outlier dalam cluster yang lain.

2.4 Algoritma Frequent Pattern Growth

Algoritma FP-Growth merupakan salah satu algoritma data mining yang menggunakan teknik association rule. Algoritma FP-Growth sangat efisien dan scalable untuk menentukan frequent pattern baik dalam data besar maupun kecil. Algoritma ini juga lebih cepat daripada algoritma apriori dimana pada algoritma apriori harus dilakukan iterasi secara berulang kali sehingga membutuhkan waktu yang cukup lama untuk menyelesaikan. Algoritma apriori juga tidak dapat menangani data yang besar, sehingga algoritma FP-Growth ini dapat dijadikan sebagai solusi bagi permasalahan yang terjadi pada algoritma apriori yaitu masalah pada candidate set generation and test. Beberapa istilah yang ada dalam algoritma FP-Growth diantaranya dapat dijelaskan dengan pemisalan berikut ini : a. merupakan kumpulan dari item – item yang ada dalam transaksi database b. merupakan transaksi yang ada dalam database dimana merupakan sebuah transaksi yang mengandung item yang berada pada I. c. Support frekuensi kemunculan dari pattern A adalah angka dari transaksi yang mengandung item A di dalam DB. d. A merupakan sebuah frequent pattern jika nilai dari supportA tidak kurang dari minimum support yang telah ditentukan sebelumnya. Dalam algoritma FP-Growth dikenal pula istilah frequent pattern tree FP-tree yaitu sebuah struktur seperti pohon prefix yang digunakan untuk mendesain struktur frequent pattern mining secara efisien. Setiap node pada pohon diisi dengan 1 item dan di setiap anak dari node tersebut merepresentasikan item yang berbeda dengan item yang ada pada induk. Setiap node juga menyimpan informasi pendukung dari isi item di dalam path dari root hingga ke node. Sebuah root dalam pohon diinisialisasikan dengan nilai null. Dengan menggunakan FP-Tree, algoritma FP-growth dapat langsung mengekstrak frequent Itemset. Langkah – langkah yang dijalankan dalam algoritma FP-growth adalah sebagai berikut : a. Menentukan minimum support yang akan digunakan untuk menentukan rule dalam mencari frequent pattern. b. Melakukan scanning pada database untuk mendapatkan frekuensi kemunculan suatu item. c. Melakukan seleksi pembuangan terhadap item yang memiliki count kurang dari minimum support yang telah ditentukan. Untuk item yang memenuhi minimum support disimpan dalam list L, dan lakukan