Algoritma K-Medoids Tinjauan Studi

i. p:2 menggambarkan bahwa ada pattern c-f-a-m-p sebanyak 2 j. p:1 menggambarkan bahwa ada pattern c-b-p sebanyak 1 Berikut Conditional Pattern Base bila dimulai dari Head Item yang ada: Tabel 2.1.5 Conditional Pattern Base Head Item Condition pattern base f c:4 a cf:3 b cfa:1, cf:1, c:1 m cfa:2, cfab:1 P cfam:2, cb:1 5. Menentukan Frequent Item-set Pada condition pattern base, dari awal p-item, setiap item dari condition pattern base di scan. Pattern yang tidak memenuhi Minimum Support, dihapus dari daftar pattern. Pattern-pattern yang tersisa kemudian diurutkan untuk memudahkan pembuatan rules. Pada saat yang sama, jumlah item yang sesuai dihitung dan kondisi FP-Tree dihasilkan. Dan kemudian FP-Tree terhubung dengan Head- item, dan akhirnya menghasilkan frequent item-set. Tabel 2.1.6 Frequent Item-set Head Item condition pattern base condition FP-Tree Frequency Item p cfam:2, cb:1 c:3 cp:3 m cfa:2, cfab:1 c:3, f:3, a:3, cf:3, ca:3, fa:3, fa:3 cm:3, fm:3, am:3, cfm:3, cam:3, fam:3, cfam:3 b cfa:1, cf:1, c:1 c:3 cb:3 a cf:3 cf:3 ca:3, fa:3, cfa:3 f c:4 c:4 cf:4 c I I I

2.1.6 Algoritma K-Medoids

Untuk melakukan clustering dengan metode partisi dapat menggunakan K-Means dan K-Medoids. K-Means merupakan suatu algoritma pengclusteran yang cukup sederhana yang mempartisi dataset kedalam beberapa cluster k. Algoritmanya cukup mudah untuk diimplementasi dan dijalankan, relatif cepat, mudah disesuaikan dan banyak digunakan [18]. Kelemahan-kelemahan dari algoritma K-Means [20] yaitu: 1. Ketika jumlah data yang tidak begitu banyak, pengelompokan awal akan menentukan cluster secara signifikan. 2. Jumlah cluster K harus ditentukan terlebih dahulu. 3. Cluster yang asli tidak diketahui, dengan menggunakan data yang sama, jika dimasukkan dalam urutan yang berbeda dapat menghasilkan cluster yang berbeda jika jumlah data sedikit. 4. Kelemahan dari aritmatika mean tidak kuat untuk outlier, sangat jauh data dari centroid memungkinkan mempengaruhi centroid yang asli. Algortima K-Medoids, juga dikenal sebagai partitioning around Medoids, adalah varian dari metode K-Means. Hal ini didasarkan pada penggunaan Medoids bukan dari pengamatan mean yang dimiliki oleh setiap cluster, dengan tujuan mengurangi sensitivitas dari partisi yang dihasilkan sehubungan dengan nilai-nilai ekstrim yang ada dalam dataset [16]. Algoritma K-Medoids hadir untuk mengatasi kelemahan Algoritma K-Means yang sensitif terhadap outlier karena suatu objek dengan suatu nilai yang besar mungkin secara substansial menyimpang dari distribusi data [21]. Menurut Han dan Kamber, algoritma K-Medoids adalah sebagai berikut [21]. 1. Secara acak pilih k objek pada sekumpulan n objek sebagai medoid. 2. Ulangi: 3. Tempatkan objek non-medoid ke dalam cluster yang paling dekat dengan medoid. 4. Secara acak pilih Orandom : sebuah objek non-medoid. 5. Hitung total cost, S, dari pertukaran medoid oj dengan Orandom . 6. Jika S 0 maka tukar oj dengan Orandom untuk membentuk sekumpulan k objek baru sebagai medoid. 7. Hingga tidak ada perubahan. Contoh kasus: Tabel 2.1.7 Data Objek X 1 2 6 X 2 3 4 X 3 3 8 X 4 4 7 X 5 6 2 X 6 6 4 X 7 7 3 X 8 7 4 X 9 8 5 X 10 7 6 Langkah-1: 1. Inisialisasi K sebagai Medoid. Misal: c 1 = 3,4 and c 2 = 7,4 2. Hitung jarak terdekat setiap objek dengan Medoid. Contoh perhitungan: c 1 = 3,4 and X 1 = 2,6 Cost distance = 3-2 + 4-6 = 1 + 2 = 3 Tabel 2.1.8 Distance c 1 = 3,4 dengan Data Objek i c 1 Data Objects X i Cost distance 1 3 4 2 6 3 3 3 4 3 8 4 4 3 4 4 7 4 5 3 4 6 2 5 6 3 4 6 4 3 7 3 4 7 3 5 9 3 4 8 5 6 10 3 4 7 6 6 Tabel 2.1.9 Distance c 2 = 7,4 dengan Data Objek i c 2 Data Objects X i Cost distance 1 7 4 2 6 7 3 7 4 3 8 8 4 7 4 4 7 6 5 7 4 6 2 3 6 7 4 6 4 1 7 7 4 7 3 1 9 7 4 8 5 2 10 7 4 7 6 2 Maka, cluster yang dihasilkan dari langkah-1: Cluster 1 = {3,42,63,84,7} Cluster 2 = {7,46,26,47,38,57,6} Dikarenakan poin 2,6, 3,8 dan 4,7 lebih dekat ke c1 maka mereka membentuk satu cluster sementara poin yang tersisa membentuk cluster lain. 3. Hitung total jarak dari langkah-1. Untuk menghitung total jarak dengan rumus: , = | − | Keterangan: x = data objek c = medoid d = dimensi dari objek Maka, total jarak dari langkah-1: Total cost = {cost 3,4,2,6 + cost 3,4,3,8 + cost 3,4,4,7} + {cost 7,4,6,2 + cost 7,4,6,4 + cost 7,4,7,3 + cost 7,4,8,5 + cost 7,4,7,6} = 3+4+4 + 3+1+1+2 = 20 Langkah-2: 1. Tentukan non Medoids O Misal: O= 7,3 Jadi sekarang Medoids adalah c1 3,4 dan O7,3 2. Hitung total jarak seperti langkah-1. Tabel 2.1.10 Distance c 1 = 3,4 dengan Data Objek i c 1 Data Objects X i Cost distance 1 3 4 2 6 3 3 3 4 3 8 4 4 3 4 4 7 4 5 3 4 6 2 5 6 3 4 6 4 3 7 3 4 7 4 4 9 3 4 8 5 6 10 3 4 7 6 4 Tabel 2.1.11 Distance O= 7,3 dengan Data Objek i O ’ Data Objects X i Cost distance 1 7 3 2 6 8 3 7 3 3 8 9 4 7 3 4 7 7 5 7 3 6 2 2 6 7 3 6 4 2 8 7 3 7 4 1 9 7 3 8 5 3 10 7 3 7 6 3 total cost = 3 + 4 + 4 + 2 + 2 + 1 + 3 + 3 = 22 3. Hitung jarak pertukaran medoid dari c 2 ke O′ S = current total cost – past total cost = 22 – 20 = 2 0. Dikarenakan S 0 maka pertukaran Medoid selesai dan cluster yang dihasilkan kembali pada langkah-1, yaitu: Cluster 1 = {3,42,63,84,7} Cluster 2 = {7,46,26,47,38,57,6}

2.1.7 Evaluasi Support, Confidence, Lift Ratio