4. Algoritma Penambangan Aturan Asosiasi Langka 4.1 Apriori Inverse

tinggi ” Koh Pears, 2010. Untuk mengatasi masalah ini digunakan pendekatan yang disebut apriori inverse untuk menemukan aturan langka dengan kandidat himpunan item yang berada di bawah nilai maxsup maximum support akan tetapi berada di atas tingkat absolut support value. Algoritma ini menggunakan fisher test untuk menyaring item langka yang terjadi bersamaan secara murni berdasar kebetulan, sehingga tidak masuk dalam tahap untuk menghasilkan aturan. Pendekatan apriori inverse memanfaatkan metode yang lebih ketat seperti fisher test untuk menentukan co-occurrence dari item langka. Penggunaan fisher test dianggap menarik dari sudut pandang konseptual karena untuk proses perhitungannya dibutuhkan subjektivitas pertimbangan untuk setiap item. Ditambah dengan fakta bahwa kualitas aturan yang dihasilkan terbukti unggul namun memiliki waktu eksekusi yang lebih baik daripada algoritma yang lainnya. Apriori Inverse adalah pilihan yang logis menghasilkan aturan langka dari basis data yang besar.

II. 4. Algoritma Penambangan Aturan Asosiasi Langka

Aturan langka dalam sebuah basis data sulit untuk ditemukan, oleh karena itu banyak peneliti yang mencoba mengamati dan mencoba menemukan berbagai macam pendekatan untuk menemukan aturan langka tersebut. Pendekatan yang digunakan untuk melakukan penambangan aturan langka dalam basis data sangatlah beraneka ragam, dimana setiap pendekatan memiliki keunggulan dan kelemahan masing-masing. Penambangan aturan asosiasi langka memiliki beberapa pendekatan diantaranya:

II. 4.1 Apriori Inverse

Misal I = { } merupakan semesta dari item dan D adalah himpunan transaksi, di mana setiap transaksi T berisi satu set item yang memenuhi aturan T I. Gambar 2.3. Algoritma Apriori Inverse Sumber : Koh Pears 2010 Rule asosiasi adalah implikasi berbentuk A B dimana A I, B I dan dengan ketentuan A disebut sebagai anteseden dari aturan yang terbentuk, dan B sebagai konsekuen. Aturan A B berlaku dalam transaksi D dengan confidence c jika c dari transaksi di D yang mengandung X juga mengandung Y. Aturan A B memiliki support s dalam transaksi D, jika s transaksi di D berisi AB. Dalam konteks penambangan aturan asosiasi langka, semua aturan R seperti A B harus memenuhi dua syarat di bawah ini: CR ≥ CLower dimana CLower adalah lower bound confidence threshold atau biasa disebut sebagai minimum confidence yang didefinisikan nilainya oleh pengguna yang melakukan penambangan data. Minimum confidence menandakan ambang batas threshold dari sebuah aturan asosiasi untuk menentukan aturan asosiasi yang kuat strong association rule. SR ≤ SUpper dimana SUpper adalah upper bound support threshold atau biasa disebut maximum support threshold yang digunakan sebagai batas atas support dari himpunan item yang ada dalam kandidat aturan. Maximum support digunakan untuk membatasi nilai support dari aturan yang ada sehingga hanya aturan tertentu saja yang bisa dijadikan atau diputuskan sebagai aturan asosiasi dari sebuah dataset. Selain yang dijelaskan diatas, dalam algoritma Apriori Inverse juga menerapkan penggunaan support constraint lain, yang disebut MinAbsSup yang didefinisikan sebagai jumlah minimum kemunculan dari itemset A, B agar bisa dipertimbangkan dalam prose pembentukan aturan. Batasan constraint ini berasal dari fisher test untuk signifikansi co-occurrence dari setiap item. Karena kita berhadapan dengan kandidat himpunan item yang memiliki nilai support rendah, kemungkinan bahwa suatu itemset muncul akibat suatu ketidaksengajaan lebih tinggi dibandingkan kandidat himpunan item dengan nilai support yang lebih tinggi. Himpunan item yang terjadi dalam dataset yang disebabkan karena ketidaksengajaan harus dipangkas atau dibersihkan selama proses pembentukan kandidat himpunan item. Karena pembentukan kandidat itemset jangka panjang tidak dapat meningkatkan nilai support dari item tersebut, maka semua ekstensi nilai support diperbolehkan kecuali yang termasuk di bawah nilai minimum absolut support. Itemset yang masuk dalam pengecualian ini akan dipangkas atau dihapus dari candidate itemset, dan tidak digunakan untuk memperluas himpunan item pada putaran berikutnya. Berikut adalah proses perhitungan MinAbsSup dihitung menggunakan fungsi fisher test. Pertama hitung probabilitas dari dua transaksi A dan B dapat terjadi bersamaan secara kebetulan dalam satu waktu tertentu c atau dikenal dengan istilah probability of chance collision. Kita bisa menghitung probabilitas ini menggunakan PCC dalam 2.4. Probabilitas bahwa A dan B akan terjadi bersama-sama persis sebanyak c kali adalah: ........................................................... 2.4 Dimana : C = prediksi jumlah minimum kemunculan itemset a dan b dalam transaksi di dataset agar tidak dianggap sebagai kemunculan yang bersifat kebetulan, dengan aturan 0 ≤ c ≤ a. N = jumlah keseluruhan transaksi dalam dataset, sedangkan a dan b adalah jumlah kemunculan masing – masing items yang akan digabungkan menjadi sebuah itemset baru. Persamaan ini adalah perhitungan biasa untuk probabilitas yang sesuai untuk sebuah table dengan kontingensi 2 × 2. ............ 2.5 Dimana : N = jumlah keseluruhan transaksi dalam dataset. a dan b = jumlah kemunculan masing – masing item yang akan digabungkan menjadi sebuah itemset baru. p = memiliki nilai tetap yaitu 0,001, m dan i = merupakan prediksi jumlah minimum kemunculan itemset a dan b dalam transaksi di dataset agar tidak dianggap sebagai kemunculan yang bersifat kebetulan, dengan aturan 0 ≤ m ≤ a. Minimum absolute support dihitung berdasarkan nilai pcc dari setiap itemset yang akan digabungkan menjadi large itemset. Perluasan untuk setiap item menggunakan cara yang sama dalam algoritma Apriori. Sebagai contoh, 3-itemset {1, 3, 4} dan {1, 3, 6} dapat diperluas untuk membentuk 4-itemset {1, 3, 4, 6}, tetapi {1, 3, 4} dan {1, 2, 5} tidak akan menghasilkan 4-itemset karena tidak ada kesamaan prefik pada item kedua.

II. 4.2 Algoritma Apriori Inverse With Clustring APIC