PEMBANGKITAN ITEMSET UNTUK ATURAN ASOSIA

PEMBANGKITAN ITEMSET UNTUK ATURAN
ASOSIASI DENGAN ALGORITMA APRIORI
DATA MINING
Andreas Chandra
STMIK AMIKOM Yogyakarta
andreaschaandra@yahoo.com
1. Pendahuluan

adalah rasio kepercayaan kepada persentase kasus yang mengandung B [4].

1.1 Latar Belakang Penelitian
Peningkatan penggunaan teknologi informasi dan kebutuhan untuk mendapatkan
informasi yang berguna dari basis data. Saat ini banyak perusahaan yang memanfaatkan teknologi untuk dimanfaatkan sebagai strategi bisnis salah satunya data mining. Data mining adalah serangkaian proses menggali nilai tambah berupa informasi yang selama ini tidak diketahui dari
basis data. Algoritma yang biasa digunakan untuk mengetahui produk yang berhubungan adalah
algoritma apriori. Biasanya algoritma ini dipakai untuk dataset transaksi untuk mengetahui
produk mana yang memiliki hubungan yang berkaitan.
Permasalahan yang terjadi ketika pengguna menggunakan data mining tantangan
terbesar adalah dataset yang jumlahnya sangat banyak. Dalam kasus ini contohnya dataset supermarket. Maka tiap harinya banyak sekali transaksi yang terjadi perharinya. Ditambah lagi supermarket tersebut memiliki banyak cabang. Dataset yang besar maka membutuhkan proses yang
panjang, proses panjang inilah yang membutuhkan waktu dan biaya yang sangat lama.

Formula untuk support dan confidence adalah:

Support,s(X → Y) =

(1)

Dimana X dan Y adalah itemset,
adalah total dari gabungan itemset X dan Y yang ada
di dataset, dan N adalah total transaksi dari dataset [1].
Confidence,c(X → Y) =

(2)

Dimana X dan Y adalah itemset,
di dataset, dan

adalah total dari gabungan itemset X dan Y yang ada

adalah total transaksi yang ada di dataset [1].

Data yang digunakan adalah data yang didapat dari https://wiki.csc.calpoly.edu/datasets/
attachment/wiki/apriori/apriori.zip yang memiliki ratusan item sehingga peneliti menguji dataset

ini dengan bertahap. Peneliti menggunakan 5000 data set dimana dibagi menjadi 5 kelompok,
Saat ini ada banyak metode yang digunakan untuk membangkitan itemset dalam 1000 , 2000, 3000, 4000,5000 record. Tujuannya adalah membandingan dengan kuantitas record
yang berbeda beda dapat mengetahui sejauh mana pengaruh dari jumlah record dalam dataset
algoritma apirori. Salah satunya yang sering digunakan adalah dengan metode brute-force dan tersebut.
FK-I x FI. Metode brute-force adalah metode dimana semua item dibangkitan untuk dijadikan itemset. Sedangkan FK-I x FI memangkas item item yang kurang dari minimum support yang telah 3.1. Algoritma Apriori
diatur. Maka dari itu penelitian ini adalah untuk membandingkan metode mana yang lebih baik Algoritma apriori melakukan pembangkitan dan metodologi tes untuk menemukan itemset yang
untuk dijadikan metode pembangkitan itemset.
sering muncul, menghasilkan gabungan itemset yang lebih banyak dan secara berturut-turut yang
sering muncul. Setiap ukuran yang berbeda dari kandidat itemset membutuhkan pemindaian dari
1.2 Rumusan Masalah
dataset untuk menentukan apakah frekuensi kemunculannya memenuhi batas minimum [5].
Berdasarkan uraian latar belakang diatas, maka dapat disimpulkan bahwa rumuSet data transaksi yang berisi k item berpotensi untuk membangkitkan sebanyak 2 k – 1 [1].
san masalah pada penelitian tersebut adalah membandingkan metode pemangkitan mana yang
Dengan cara brute-force, pencarian itemset frekuen ditentukan dengan menghitung support count
lebih cepat.
untuk setiap kandidat itemset dalam struktur kisi [1] pada gambar 1.

1.3 Tujuan Penelitian

3.2 Metode Brute-Force


Tujuan dari penelitian ini adalah untuk mengetahui metode mana yang lebih baik
untuk mendapatkan itemset agar lebih efisien dalam pengolahan data.

Metode brute-force mengamati setiap k-itemset sebagai kandidat berpotensi dan kemudian menerapkan langkah pemangkasan kandidat untuk membuang kandidat yang tidak diperlukan.

2. Metodologi Penelitian

Jumlah kandidat itemset yang dibangkitkan pada level k sama dengan
tal item dalam dataset [1].
Tabel 1. Hasil pengolahan data dengan metode brutei-force.

Metode yang digunakan dalam penelitian ini adalah sebagai berikut:

, di mana d adalah to-

Data
Waktu s

.


.

.

.

.

3.3 Metode FK-I x FI
Metode alternative untuk pembangkitan kandidat adalah dengan memperpanjang setiap (K-1)itemset yang frekuen dengan item frekuen yang lain [1]. Pembangkitan metode ini mengharuskan penyaringan seberapa banyak itemset yang muncul pada dataset, apabila itemset memenuhi
batas yang ditetapkan, maka itemset dapat dibangkitkan dengan itemset yang lain. Dalam metode
ini penulis menentukan minsup ≥ 50.
Table 2. Hasil pengolahan data dengan metode FK-I x FI
Data
Waktu s

.

.


.

.

.

4. Kesimpulan
Gambar 1. Metodologi Penelitian
1. Metode Pengumpulan Data
Dalam melakukan pengumpulan data , penulis menggunakan data yang sudah ada
di internet. Dataset ini dibuat untuk ujicoba untuk aturan asosiasi agar mudah diolah.
2. Metode Perancangan Aplikasi
Dalam membuat Aplikasi, penulis merancang agar aplikasi ini sesuai proses pengolahan data untuk aturan asosiasi dengan algoritma apriori.
3. Metode Analisis Hasil

Dalam penelitian ini penulis menggunakan algoritma apriori dengan membandingkan 2 metode
untuk pembangkitan itemset. Dataset yang digunakan dalam paper ini adalah apriori yang diambill dari calpoly.edu (https://wiki.csc.calpoly.edu/datasets/attachment/wiki/apriori/apriori.zip).
Table 3. Perbandingan antar kedua metode
Data


Bruteforce s
.
.
.
.
.

Fk-I x FI s
.
.
.
.
.

Waktu Pe ghe ata
. %
. %
. %
. %

. %

Dalam melakukan analisis hasil, peneliti menggunakan data sederhana dan menguji cobanya secara manual.

3. Hasil dan Pembahasan
Salah satu teknik yang dibuat dalam data mining adalah bagaimana menelusuri data yang sudah
ada untuk membangun data untuk membangun sebuah model, kemudian menggunakan model
tersebut agar dapat mengenali pola data yang lain yang tidak berada dalam basis data yang tersimpan. Kebutuhan untuk prediksi juga dapat memanfaatkan teknik ini. Dalam data mining,
pengelompokan data juga bisa dilakukan. Tujuannya adalah agar kita dapat mengetahui pola universal data-data yang ada [1].

Analisis asosiasi atau association rule mining adalah teknik data mining untuk menemukan
aturan asosiatif antara suatu kombinasi item [2].

Gambar 2. Grafik perbandingan

Jika terdapat sebuah himpunan transaksi T, maka tujuan dari association rule mining adalah un- 5. Daftar Pustaka
tuk menemukan semua aturan yang mempunyai support ≥ minsup dan confidence ≥ minconf.
Pendekatan brute-force untuk association rule mining menggunakan pendekatan dengan menghi- [1] Prasetyo, E., 2012. DATA MINING – Konsep dan Aplikasi Menggunakan MATLAB. Yogyakarta: Penerbit ANDI.
tung support dan confidence dari semua kemungkinan rule [3].
Menurut Zhao, aturan asosiasi adalah aturan yang menyajikan aturan asosiatif atau korelasi antar [2] Kusrini. Luthfi, E.T., 1009. Algoritma Data Mining. Yogyakarta: Penerbit ANDI.

itemsets. Bentuk aturan asosiasi adalah A → B, dimana A dan B adalah dua itemset lepas, [3] Hermawati, F.A., 2013. DATA MINING. Yogyakarta: Penerbit ANDI.
mengacu pada masing-masing item sebagai lhs(left-hand side) dan rhs(right-hand side) dari [4] Zhao, M., 2012. R and Data Mining: Examples and Case Studies. Elsevier. (sumber: http://
aturan. tiga langkah yang paling banyak digunakan untuk memilih aturan menarik adalah sup- www.rdatamining.com/docs/r-and-data-mining-examples-and-case-studies).
port, confidence dan lift. support adalah persentase kasus dalam data yang berisi A dan B, confi- [5] Witten, I.H. Frank, E. Hall, M.A., DATA MINING: practical machine learning tools and
dence adalah persentase kasus yang mengandung A yang juga mengandung B, dan lift
techniques. 3rd ed. USA: Morgan Kaufmann Publishers