Jenis Pembelajaran Data mining Algoritma Apriori

Sample Prediktor Target Misalnya sebuah bank ingin memprediksi kredit macet nasabah. Maka pihak bank dapat menggunakan data kredit nasabah selama periode waktu tertentu kemudian data tersebut dipilih mana yang dijadikan atribut prediktor dan mana yang menjadi atribut target. Seperti terlihat dalam tabel 2.1 dimana ada atribut prediktor gaji, status dan jaminan yang digunakan untuk memprediksi atribut target L=Lancar atau TL=Tidak Lancar. Berdasarkan data tersebut, nantinya pihak bank dapat memperkirakan calon nasabah mana yang beresiko menjadi kredit macet dan mana yang tidak. Model classification dapat berupa aturan “jika-maka”, berupa decission tree, formula matematis atau neural network Tang Jamie, 2005.

2.6.2 Regression

Metode regression termasuk kedalam model prediksi dan jenis pembelajarannya adalah supervised learning. Sama seperti pada metode classification, metode regression juga menggunakan atribut prediktor dan atribut target. Metode ini digunakan untuk memperkirakan nilai atribut atau variabel yang bertipe floating point Hornick, 2006. Perbedaan antara metode classification dengan metode regression adalah bahwa pada metode regression nilai atribut atau variabel target bertipe floating point sedangkan metode classification meskipun bisa bertipe numeric yang biasanya digunakan untuk skoring, tetapi berupa angka yang bulat. Untuk lebih jelasnya mengenai metode regression, perhatikan tabel 2.2 berikut : Tabel 2.2 Contoh Data Harga Rumah Atribut IDRumah LT KM KT Harga Rumah 1 3000 5 3 748.000.000 2 1500 3 2 279.000.000 3 2550 4 4 510.900.000 4 2300 4 3 1.420.500.000 Sample Prediktor Target Dari tabel 2.2 terlihat bahwa atribut target harga rumah bernilai numeric. Misalnya untuk menentukan harga rumah, yang dijadikan sebagai atribut prediktor antar lain luas tanah LT, jumlah kamar tidur KT dan jumlah kamar mandi KM.

2.6.3 Clustering

Metode clustering termasuk kedalam model deskripsi dan jenis pembelajarannya adalah unsupervised learning. Metode clustering atau bisa juga disebut segmentasi, melakukan pengelompokan data menurut kesamaannya atau kedekatanya dan bukan berdasarkan kelas data tertentu seperti pada metode classification . Prinsip clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas atau cluster Larose, 2005. Untuk lebih jelasnya perhatikan gambar 2.2 berikut : Gambar 2.3 Contoh Clustering Penghasilan Umur C C C Dari gambar 2.3 kita misalkan sebagai kumpulan data konsumen sederhana yang mengandung dua atribut yaitu umur dan penghasilan. Berdasarkan dua atribut tersebut kemudian terbagi menjadi tiga kelompok cluster yaitu C1 yang terdiri konsumen usia muda dengan penghasilan rendah. C2 terdiri dari konsumen usia muda dan tua dengan penghasilan tinggi. C3 terdiri dari konsumen usia tua dengan penghasilan relatif rendah.

2.6.4 Association Rules

Metode association rules atau juga dikenal dengan nama market basket analysis , digunakan untuk menemukan aturan assosiatif antara suatu kombinasi item atau barang Tang Jamie, 2005. Metode association rules termasuk kedalam model deskripsi dan jenis pembelajarannya adalah unsupervised learning . Metode ini dapat digunakan untuk mengidentifikasi item- item produk yang mungkin dibeli secara bersamaan dengan produk lain. Metode association rules mempunyai dua tahapan yaitu, menemukan frequent itemset dan membentuk assosiation rules. Metode ini terdiri dari dua item yaitu antecedent dan consequent Hornick, 2006. Antecedent dan consequent bisa di analogikan sebagai aturan “If x Then y”. Dimana x merupakan antecedent atau left hand side dan y adalah consequent atau right hand side . Misalnya jika antecedent A dan consequent B, maka aturannya dapat ditulis sebagai berikut : B  A . Dalam association rules diperlukan variabel ukuran yang dapat ditentukan oleh user untuk mengatur batasan sejauh mana dan sebanyak apa hasil output yang diinginkan. Variabel ukuran tersebut adalah support dan confidence. Support adalah nilai dua atau lebih itemset yang dibeli secara bersamaan dari keseluruhan transaksi. Nilai support menunjukkan frekuensi itemset dalam suatu transaksi. Berikut perhitungan untuk mengetahui nilai support : ndungA saksiMenga JumlahTran A Support  X 100 Jumlah transaksi Confidence adalah ukuran yang didapatkan dari probabilitas adanya itemset A pada suatu transaksi maka juga ada itemset B pada transaksi tersebut. Nilai confidence menunjukkan kuatnya hubungan antar item dalam suatu aturan assosiasi. Berikut perhitungan untuk mengetahui nilai confidence : engandungA TransaksiM danB engandungA TransaksiM A P Confidence    B :  X 100 Misalnya ada aturan, susu  roti [support 20 , confidence 50], maka informasi yang bisa diperoleh adalah bahwa sebanyak 20 konsumen membeli susu dan roti secara bersamaan serta konsumen yang membeli susu mempunyai kemungkinan 50 untuk juga membeli roti. Selanjutnya informasi yang diperoleh tersebut dapat di tindak lanjuti dengan mengatur strategi pemasaran yang strategis, semisal mengatur penempatan barang yang baru atau menentukan produk mana yang harus diletakkan berdekatan.

2.7 Algoritma Apriori

Prinsip assosiation rules atau market basket analysis adalah menemukan frequent itemset dan membentuk aturan assosiasi berdasarkan frequent itemset Tang Jamie, 2005. Algoritma apriori digunakan untuk mencari frequent itemset. Pengertian frequent itemset disini adalah himpunan item-item yang memenuhi minimum support. Selanjutnya frequent itemset digunakan untuk membangun aturan assosiasi. Untuk membentuk kandidat itemset digunakan dua tahap yaitu : Join Step : Ck dibangun dengan menggabungkan Lk-1 dengan dirinya. Prune Step : Setiap k-1-itemset yang bukan frequent tidak boleh menjadi suatu subset dari suatu frequent k-itemset. Berikut adalah pseudocode dari algoritma apriori : Ck : Kandidat itemset dari ukuran k Lk : Frequent itemset dari ukuran k L1 = {frequent itemset}; for k=1;Lk=0;k++ do begin Ck+1 = {kandidat dibangun dari Lk}; for each transaksi t dalam database do naikkan hitungan dari seluruh kandidat dalam Ck+1 yang dimuat dalam t; Lk+1 = {kandidat dalam Ck+1 dengan minimum support}; end return Uk Lk; Untuk lebih jelasnya, perhatikan gambar 2.3 mengenai contoh ilustrasi algoritma apriori. Database D TID Item s 100 A, C, D 200 B, C, E 300 A, B, C, E 400 B, E Item set Support A 2 B 3 C 3 D 1 E 3 Item set Support A 2 B 3 C 3 E 3 Item set {A,B} {A,C} {A,E} {B,C} {B,E} {C,E} Item set Support {A,B} 1 {A,C} 2 {A,E} 1 {B,C} 2 {B,E} 3 {C,E} 2 Item set Support {A,C} 2 {B,C} 2 {B,E} 3 {C,E} 2 Item set Support {B,C,E} 2 Item set {B,C,E} Scan D L 1 Scan D C 2 C 2 L 2 C 3 C 3 L 3 C 1 Gambar 2.4 Contoh Algoritma Apriori Nilai minimum support yang ditentukan pada gambar 2.3 adalah 2 atau 50. Flowchart contoh tersebut terlihat pada gambar 2.3 dan penjelasan tentang contoh ilustrasi algoritma apriori adalah sebagai berikut : 1. Dari database D kemudian dibentuk C1 kandidat 1-itemset, apabila itemset pada C1 tidak memenuhi minimum support maka akan dieliminasi dari L1. 2. Selanjutnya dibangun C2 kandidat 2-itemset dengan melakukan cross itemset yang ada pada L1 join step. Apabila itemset pada C2 tidak memenuhi minimum support maka akan dieliminasi dari L2. 3. Kemudian dibangun C3 kandidat 3-itemset dengan melakukan cross itemset yang ada pada L2 join step. Jika diperhatikan selain itemset {B,C,E} sebenarnya masih ada itemset {A,C,B} dan {A,C,E} yang bisa didapatkan dari kombinasi itemset L2. Tetapi kedua itemset tersebut dipangkas prune step karena itemset {C,B} dan {A,E} dieliminasi dari L2. Item set Support {B,C,E} 2 Start Database D C1 If Itemset = 2 Tidak If Itemset = 2 L1 C2 L2 Tidak C3 If Itemset = 2 L3 Ya Tidak Ya Ya End Gambar 2.5 Flowchart Ilustrasi Algoritma Apriori Proses perhitungan tersebut akan terus berulang sampai tidak ada lagi kandidat baru yang dihasilkan. Dalam contoh 2.3 proses berakhir pada iterasi ketiga, karena tidak ada kandidat baru yang bisa dihasilkan pada iterasi keempat.

2.8 Database Management System DBMS

Untuk mengelola database diperlukan suatu perangkat lunak yang disebut DBMS database management system. DBMS merupakan suatu system perangkat lunak yang memungkinkan user pengguna untuk membuat memelihara, mengontrol, dan mengakses database secara praktis dan efisien Janner Simarmata Imam Prayudi, 2006

2.8.1 Software DBMS

Beberapa software atau perangkat lunak DBMS yang sering digunakan dalam aplikasi program antara lain : a. BD – http:www.-306.ibm.comsoftwaredatadb2 b. Microsoft SQL Server – http:www.microsoft.comsql c. Oracle – http:wwworacle.com d. Sybase – http:www.sybase.com e. Interbase – http:www.borlad.cominterbase f. Teradata – http:www.teradata.com g. Firebird – http:www.firebirdsql.org h. MySQL – http:www.mysql.com i. PostgreSQL – http:www.postgresql.org

2.8.2 Keuntungan DBMS

DBMS memungkinkan perusahaan maupun individu untuk Janner Simarmata Imam Prayudi, 2006 :

1. Mengurangi Pengulangan Data

Apabila dibandingkan dengan file –file komputer yang disimpan terpisah disetiap aplikasi komputer, DBMS menguragi jumlah total file dengan menghapus data yang terdupikasi di berbagai file, data terduplikasi selebihnya dapat ditempatkan dalam satu file.

2. Mencapai Independensi Data

Spesifikasi data disimpan dalam skema pada tiap program aplikasi. Perubahan dapat dibuat pada struktur data tanpa mempengaruhi program yang mengakses data.

3. Mengintegrasikan data beberapa file

Saat file dibentuk sehingga menyediakan kaitan logis, maka organisasi fisik bukan merupakan kendala. Organisasi logis, pandangan pengguna, dan program aplikasi tidak harus tercermin pada media penyimpanan fisik.

4. Mengambil data dan informasi dengan cepat

Hubungan – hubungan logis, manipulasi data, serta bahasa query memungkinkan pengguna mengambil data dalam hitungan detik atau menit.

5. Memungkinkan keamanan

DBMS mainframe maupun komputer mikro dapat menyertakan beberapa lapis keamanan seperti kata sandi password, direktori pemakai, dan bahasa sandi encryption sehingga data yang dikelola akan lebih aman.