Association Rule Mining LANDASAN TEORI

3. Klasterisasi clustering Mempartisi data-set menjadi beberapa sub-set atau kelompok sedemikian rupa sehingga elemen-elemen dari suatu kelompok tertentu memiliki set property yang dishare bersama dengan tingkat similaritas yang tinggi dalam satu kelompok dan tingkat similaritas kelompok yang rendah. Contoh aplikasinya adalah : document clustering, dengan tujuan untuk mendapatkan kelompok dokumen yang mempunyai kesamaan berdasarkan kata-kata penting yang muncul dalam dokumen. 4. Kaidah Asosiasi association rules Mendeteksi kumpulan atribut-atribut yang muncul bersamaan co-occur dalam frekuensi yang sering, dan membentuk sejumlah kaidah dari kumpulan-kumpulan tersebut. Contoh aplikasinya adalah pada supermarket shelf management, dengan tujuan untuk mengenali item-item yang dibeli bersama-sama oleh cukup banyak pelanggan. 5. Pencarian Pola sekuensial sequence mining Mencari sejumlah event yang secara umum terjadi bersama-sama. Sebagai contoh dalam suatu set urutan DNA, ACGTC diikuti oleh GTCA setelah suatu celah selebar 9 dengan probabilitas sebesar 30 .

2.2 Association Rule Mining

Assotiation rule mining atau aturan asosiasi sering dinamakan market basket analysis, karena awalnya berasal dari studi tentang database transaksi pelanggan uantuk menentukan kebiasaan suatu produk dibeli bersama produk apa Santosa,2007. Sebagai contoh studi transaksi di supermarket, seseorang yang membeli susu bayi juga membeli sabun mandi. Disini berarti susu bayi bersama dengan sabun mandi. Dalam menentukan suatu association rule, terdapat suatu interestingness measure ukuran ketertarikan yang didapatkan dari hasil pengelolaan data dengan perhitungan tertentu. Terdapat dua ukuran Han Kamber 2006. yaitu: 1. Support nilai penunjangpendukung: suatu ukuran yang menunjukkan seberapa besar tingkat kemunculan suatu itemitemset dari keseluruhan transaksi. Ukuran ini menentukan apakah suatu itemset layak untuk dicari confidence pada tahapan selanjutnya. 2. Confidence nilai kepastiankeyakinan: suatu ukuran yang menunjukkan hubungan antara 2 item secara conditional. Keduan ukuran tersebut akan digunakan dalam menentukan interesting association rules, yaitu untuk dibandingkan dengan batasan threshold yang ditentukan oleh user. Batasan tersebut umumnya terdiri dari minimum support dan minimum confidence, yang digunakan pada proses pencarian association rules. Menurut Hermawati 2009, tujuan dari association rules mining adalah untuk menentukan semua aturan yang mempunyai support = min_support dan confidence = min_confidence. Sebuah association rule dengan confidence sama atau lebih besar dari minimum confidence dapat dikatakan sebagai valid association rule Agrawal Srikant, 1994. Proses pencarian association rules terbagi menjadi dua tahap yaitu analisis frequent itemset dan pembentukan association rules Han Kamber 2006. 1. Analisis Frequent Item Tahapan ini mencari kombinasi item yang memenuhi syarat minimum dari nilai support dalam database. Nilai support sebuah item diperoleh dengan rumus 2.1 atau 2.2, yaitu: � � = Jumlah Transaksi yang Mengandung A Total Transaksi � 100 2.1 Sedangkan nilai support dari 2 item diperoleh dengan rumus sebagai berikut: � � , = Jumlah Transaksi yang Mengandung A dan B Total Transaksi � 100 2.2 2. Pembentukan Asosiation Rules Setelah semua pola frekuensi tinggi ditemukan, kemudian dicari aturan asosiasi yang memenuhi syarat minimum untuk confidence dengan menghitung confidence aturan asositif A→B. Nilai confidence dari aturan A→B diperoleh dari rumus 2.3, � → = Jumlah Transaksi yang Mengandung A dan B Jumlah Transaksi yang Mengandung A � 100 2.3 2.2.1. Algoritma FP-growth Algoritma FP-Growth mempresentasikan transaksi dengan menggunakan struktur data FP-Tree Han, et al. 2000. FP-growth adalah salah satu alternatif algoritma yang dapat digunakan untuk menentukan himpunan data yang sering muncul frequent itemset dalam sebuah kumpulan data Samuel, 2008. FP-Tree merupakan struktur penyimpanan data yang dibentuk oleh sebuah akar yang diberi label null Han Kamber 2006. Pada FP-Tree, item dipetakan ke item lainnya pada setiap lintasan. Pada setiap itemset yang dipetakan mungkin saja terdapat item yang sama, sehingga pada FP-Tree ini memungkinkan untuk saling menimpa. FP-Tree akan semakin efektif apabila semakin banyak pula item yang sama pada setiap itemset Samuel, 2008. 2.2.2. Pencarian association rules dengan algoritma FP-growth Proses pencarian association rules terbagi menjadi dua tahap yaitu analisis pola frekuensi tinggi dan pembentukan aturan assosiasi Han Kamber 2006. 1. Analisis frequent itemset, atau analisis pola frekuensi tinggi untuk mencari kombinasi item yang memenuhi syarat minimum dari nilai support itemset, dimana nilai support menunjukkan perhitungan frekuensi kemunculan pada suatu data. Proses pencarian frequent itemset pada sistem ini menggunakan algoritma FP-Growth yang melalui tiga tahapan. a. Pencarian frequent item Melakukan pencarian item yang paling sering muncul dengan cara menghitung nilai support pada setiap item, apabila terdapat item yang tidak frequent atau kemunculan sedikit maka item akan dibuang. Nilai support dapat diperoleh dengan rumus 2.1 b. Pembangunan FP-Tree Pembangunan FP-tree diawali dengan pembangunan tree pada setiap itemset. Pembangunan tree diawali dengan prefix atau awalan yang sama dari setiap itemset. Apabila terdapat itemset yang memiliki prefix berbeda, maka itemset berikutnya dibangun pada lintasan berbeda Tan, et al. 2005. Sebagai contoh dapat dilihat pada Gambar 2.3, Gambar 2.4 dan Gambar 2.5. Gambar 2.3 Transaction data set Tan, et al. 2005 FP-tree yang dapat dibangun dari itemset yang ada adalah sebagai berikut : Gambar 2.4 Setelah membaca TID 1 Tan, et al. 2005 Gambar 2.5 Setelah membaca TID 2 Tan, et al. 2005 Setiap item pada setiap lintasan diberi nilai awal 1 sebagai support count, apabila itemset berikutnya memiliki prefix yang sama maka akan ditambahkan nilai support count pada item yang sama. Walaupun b ada pada lintasan pertama, namun karena berbeda prefix, maka penambahan support count tidak bisa dilakukan. Proses terus dilanjutkan sampai semua itemset selesai dibaca seperti pada Gambar 2.5. Gambar 2.6 Setelah membaca TID 10 Tan, et al. 2005 c. Pencarian frequent itemset Frequent itemset didapat melalui tiga tahapan Tan, et al. 2005. 1. Pembangkitan conditional FP-tree, yaitu yang hanya mengandung akhiran suffix item yang sama pada setiap itemset seperti pada Gambar 2.6 dan Gambar 2.7. Gambar 2.7 Tree yang mengandung suffix e Tan, et al. 2005 Gambar 2.8 Tree yang mengandung suffix d Tan, et al. 2005 2. Mengecek kembali nilai support dari suffix item lebih besar atau tidak dari minimum support yang telah diinput oleh pengguna sebelumnya. Apabila memenuhi, maka item tersebut termasuk frequent itemset. Nilai support setiap itemnya pada tahap ini dihitung dengan rumus 2.1. 3. Apabila terdapat item yang frequent, maka akan dilanjutkan dengan metode divide and conquer untuk memecahkan subproblem yang lebih kecil, yaitu untuk menemukan frequent itemset yang berakhir dengan dua item dari frequent item yang didapat sebelumnya. Kemudian membangun kembali tree yang diakhiri dengan dua item kombinasinya, dimana nilai support pada itemset hanya mengandung nilai yang diakhiri dari frequent item. Begitu pula selanjutnya sampai prefix dari kombinasi. Perhitungan nilai support untuk kombinasi item dengan rumus 2.2 2. Pembentukan association rules atau aturan assosiasi untuk mencari aturan assositif A→B yang memenuhi syarat minimum nilai confidence. Pencarian nilai confidence dapat dihitung dengan rumus 2.3 Dimana A adalah antecendent item setelah jika dan B adalah consequent item setelah maka. Untuk antecendent dapat terdiri lebih dari satu unsur, akan tetapi consequent hanya terdiri dari satu unsur. Ini digunakan untuk mengetahui keterhubungan anatr item dalam suatu itemset. Sebagai contoh, pada penelitian ini akan mencari seberapa keterhubungannya jalur masuk, asal pendidikan, fakultas, dan IPK terhadap masa studi seorang mahasiswa. Rules yang telah didapat dilakukan pencocokan untuk memberikan saran kepada pengguna, dengan kata lain rules yang didapat akan diterjemahkan kedalam informasi yang dapat dimengerti oleh pengguna, yaitu berupa informasi kategori apa saja yang paling banyak muncul dan memiliki keterhubungan pada data lulusan mahasiswa perguruan tinggi serta saranarahan yang dapat dilakukan oleh perguruan tinggi maupun fakultas.

2.3 Penelitian Terdahulu