2.3 Teknik – Teknik Data Mining
Dalam data mining terdapat beberapa teknik yang digunakan untuk melakukan analisa terhadap sekumpulan data. Teknik data mining yang akan digunakan dalam
melakukan analisa data disesuaikan dengan kebutuhan dan masalah yang ada. Berikut adalah beberapa teknik yang digunakan dalam data mining.
2.3.1 Association Rule Mining
Association rule mining merupakan salah satu teknik dalam data mining yang digunakan untuk menemukan sebuah aturan assosiatif antara suatu kombinasi
item. Aturan yang digunakan dalam teknik ini adalah menggunakan aturan “ Jika – Maka “. Seperti contohnya yang terjadi dari sebuah transaksi pembelian adalah jika
konsumen membeli barang A maka ia akan membeli juga barang B. Beberapa algoritma yang menggunakan teknik association rule mining
adalah algoritma apriori yang menggunakan iterasi secara berulang – ulang untuk
menentukan frequent itemset dan algoritma FP-Growth yang menggunakan Frequent Pattern Tree dalam menentukan frequent itemset.
2.3.2 Classification
Teknik Classification merupakan teknik yang digunakan untuk menemukan sebuah model atau sebuah fungsi yang mendiskripsikan dan
membedakan kelas atau konsep data, dengan tujuan menggunakan model tersebut untuk memprediksi kelompok dari object yang belum diketahui labelnya. Model
dapat direpresentasikan dalam bentuk classification rules, decision tress, mathematical formulae, atau neural networks.
Beberapa method yang digunakan untuk membangun sebuah model classification yaitu naïve Bayesian classification, support vector machines, dan k-
nearest-neighbor classification.
2.3.3 Clustering
Berbeda dengan teknik classification dan association rule, teknik clustering merupakan teknik yang digunakan untuk melakukan pengelompokan data dan
memberikan label pada sekelompok data yang sebelumnya tidak diketahui. Object yang dikelompokkan atau di cluster berdasarkan pada prinsip memaksimalkan
kesamaan antar anggota di dalam suatu kelas dan meminimalkan kesamaan antar kelas. Dengan hal tersebut object dalam kelas terbentuk, jadi object di dalam sebuah
cluster memiliki kesamaan yang tinggi apabila dibandingkan antara anggota satu dengan anggota yang lain dalam cluster tersebut. Tetapi akan memiliki perbedaan
yang tinggi apabila dibandingkan dengan object yang terletak dalam cluster yang berbeda.
2.3.4 Outlier Analysis
Dalam sekumpulan data mungkin terdapat object yang tidak sesuai dengan model dari data, itulah yang disebut dengan outlier. Banyak method dari data
mining yang membuang outlier yang biasa disebut dengan noise atau exception. Outlier mendeteksi dengan menggunakan tes statistic yang mengasumsikan
kemungkinan model dalam data atau menggunakan ukuran jarak dimana object dikendalikan dengan mempertimpangkan outlier dalam cluster yang lain.
2.4 Algoritma Frequent Pattern Growth
Algoritma FP-Growth merupakan salah satu algoritma data mining yang menggunakan teknik association rule. Algoritma FP-Growth sangat efisien dan
scalable untuk menentukan frequent pattern baik dalam data besar maupun kecil. Algoritma ini juga lebih cepat daripada algoritma apriori dimana pada algoritma
apriori harus dilakukan iterasi secara berulang kali sehingga membutuhkan waktu yang cukup lama untuk menyelesaikan. Algoritma apriori juga tidak dapat
menangani data yang besar, sehingga algoritma FP-Growth ini dapat dijadikan sebagai solusi bagi permasalahan yang terjadi pada algoritma apriori yaitu
masalah pada candidate set generation and test.
Beberapa istilah yang ada dalam algoritma FP-Growth diantaranya dapat dijelaskan dengan pemisalan berikut ini :
a. merupakan kumpulan dari item
– item yang ada dalam transaksi database
b. merupakan transaksi yang ada dalam
database dimana merupakan sebuah transaksi
yang mengandung item yang berada pada I. c. Support frekuensi kemunculan dari pattern A adalah angka
dari transaksi yang mengandung item A di dalam DB. d. A merupakan sebuah frequent pattern jika nilai dari supportA
tidak kurang dari minimum support yang telah ditentukan sebelumnya.
Dalam algoritma FP-Growth dikenal pula istilah frequent pattern tree FP-tree yaitu sebuah struktur seperti pohon prefix yang digunakan untuk
mendesain struktur frequent pattern mining secara efisien. Setiap node pada pohon diisi dengan 1 item dan di setiap anak dari node tersebut merepresentasikan
item yang berbeda dengan item yang ada pada induk. Setiap node juga menyimpan informasi pendukung dari isi item di dalam path dari root hingga ke
node. Sebuah root dalam pohon diinisialisasikan dengan nilai null. Dengan menggunakan FP-Tree, algoritma FP-growth dapat langsung mengekstrak
frequent Itemset. Langkah
– langkah yang dijalankan dalam algoritma FP-growth adalah sebagai berikut :
a. Menentukan minimum support yang akan digunakan untuk menentukan rule dalam mencari frequent pattern.
b. Melakukan scanning pada database untuk mendapatkan frekuensi kemunculan suatu item.
c. Melakukan seleksi pembuangan terhadap item yang memiliki count
kurang dari minimum support yang telah ditentukan. Untuk item yang memenuhi minimum support disimpan dalam list L, dan lakukan