Sample Prediktor Target
Misalnya sebuah bank ingin memprediksi kredit macet nasabah. Maka pihak bank dapat menggunakan data kredit
nasabah selama periode waktu tertentu kemudian data tersebut dipilih mana yang dijadikan atribut prediktor dan
mana yang menjadi atribut target. Seperti terlihat dalam tabel 2.1 dimana ada atribut
prediktor gaji, status dan jaminan yang digunakan untuk memprediksi atribut target L=Lancar atau TL=Tidak Lancar.
Berdasarkan data tersebut, nantinya pihak bank dapat memperkirakan calon nasabah mana yang beresiko menjadi
kredit macet dan mana yang tidak. Model classification dapat berupa aturan “jika-maka”, berupa decission tree, formula
matematis atau neural network Tang Jamie, 2005.
2.6.2 Regression
Metode regression termasuk kedalam model prediksi dan jenis pembelajarannya adalah supervised learning. Sama seperti
pada metode classification, metode regression juga menggunakan atribut prediktor dan atribut target.
Metode ini digunakan untuk memperkirakan nilai atribut atau variabel yang bertipe floating point Hornick, 2006.
Perbedaan antara metode classification dengan metode regression adalah bahwa pada metode regression nilai atribut atau variabel
target bertipe floating point sedangkan metode classification meskipun bisa bertipe numeric yang biasanya digunakan untuk
skoring, tetapi berupa angka yang bulat. Untuk lebih jelasnya mengenai metode regression, perhatikan tabel 2.2 berikut :
Tabel 2.2 Contoh Data Harga Rumah
Atribut
IDRumah LT
KM KT
Harga Rumah
1 3000
5 3
748.000.000 2
1500 3
2 279.000.000
3 2550
4 4
510.900.000 4
2300 4
3 1.420.500.000
Sample Prediktor
Target
Dari tabel 2.2 terlihat bahwa atribut target harga rumah bernilai numeric. Misalnya untuk menentukan harga
rumah, yang dijadikan sebagai atribut prediktor antar lain luas tanah LT, jumlah kamar tidur KT dan jumlah kamar
mandi KM.
2.6.3 Clustering
Metode clustering termasuk kedalam model deskripsi dan jenis pembelajarannya adalah unsupervised learning. Metode
clustering atau bisa juga disebut segmentasi, melakukan pengelompokan data menurut kesamaannya atau kedekatanya
dan bukan berdasarkan kelas data tertentu seperti pada metode classification
. Prinsip clustering adalah memaksimalkan kesamaan antar
anggota satu kelas dan meminimumkan kesamaan antar kelas atau cluster Larose, 2005. Untuk lebih jelasnya perhatikan
gambar 2.2 berikut
:
Gambar 2.3 Contoh Clustering
Penghasilan
Umur
C C
C
Dari gambar 2.3 kita misalkan sebagai kumpulan data konsumen sederhana yang mengandung dua atribut yaitu
umur dan penghasilan. Berdasarkan dua atribut tersebut kemudian terbagi menjadi tiga kelompok cluster yaitu C1
yang terdiri konsumen usia muda dengan penghasilan rendah. C2
terdiri dari konsumen usia muda dan tua dengan penghasilan tinggi. C3 terdiri dari konsumen usia tua dengan
penghasilan relatif rendah.
2.6.4 Association Rules
Metode association rules atau juga dikenal dengan nama market basket analysis
, digunakan untuk menemukan aturan assosiatif antara suatu kombinasi item atau barang Tang
Jamie, 2005. Metode association rules termasuk kedalam model deskripsi dan jenis pembelajarannya adalah unsupervised
learning .
Metode ini dapat digunakan untuk mengidentifikasi item- item
produk yang mungkin dibeli secara bersamaan dengan produk lain. Metode association rules mempunyai dua tahapan
yaitu, menemukan frequent itemset dan membentuk assosiation rules.
Metode ini terdiri dari dua item yaitu antecedent dan consequent
Hornick, 2006. Antecedent dan consequent bisa di
analogikan sebagai aturan “If x Then y”. Dimana x merupakan antecedent
atau left hand side dan y adalah consequent atau right hand side
. Misalnya jika antecedent A dan consequent B, maka aturannya dapat ditulis sebagai berikut :
B
A
. Dalam association rules diperlukan variabel ukuran yang
dapat ditentukan oleh user untuk mengatur batasan sejauh mana dan sebanyak apa hasil output yang diinginkan. Variabel
ukuran tersebut adalah support dan confidence. Support
adalah nilai dua atau lebih itemset yang dibeli secara bersamaan dari keseluruhan transaksi. Nilai support
menunjukkan frekuensi itemset dalam suatu transaksi. Berikut perhitungan untuk mengetahui nilai support :
ndungA saksiMenga
JumlahTran A
Support
X 100 Jumlah transaksi
Confidence adalah ukuran yang didapatkan dari
probabilitas adanya itemset A pada suatu transaksi maka juga ada itemset B pada transaksi tersebut. Nilai confidence
menunjukkan kuatnya hubungan antar item dalam suatu aturan assosiasi. Berikut perhitungan untuk mengetahui nilai
confidence :
engandungA TransaksiM
danB engandungA
TransaksiM A
P Confidence
B
:
X 100
Misalnya ada aturan, susu roti [support 20 , confidence 50], maka informasi yang bisa diperoleh adalah bahwa
sebanyak 20 konsumen membeli susu dan roti secara bersamaan serta konsumen yang membeli susu mempunyai
kemungkinan 50 untuk juga membeli roti. Selanjutnya informasi yang diperoleh tersebut dapat di tindak lanjuti
dengan mengatur strategi pemasaran yang strategis, semisal mengatur penempatan barang yang baru atau menentukan
produk mana yang harus diletakkan berdekatan.
2.7 Algoritma Apriori
Prinsip assosiation rules atau market basket analysis adalah menemukan frequent itemset dan membentuk aturan assosiasi
berdasarkan frequent itemset Tang Jamie, 2005. Algoritma apriori digunakan untuk mencari frequent itemset. Pengertian frequent itemset
disini adalah himpunan item-item yang memenuhi minimum support. Selanjutnya frequent itemset digunakan untuk membangun aturan
assosiasi. Untuk membentuk kandidat itemset digunakan dua tahap yaitu
:
Join Step : Ck dibangun dengan menggabungkan Lk-1 dengan
dirinya. Prune Step
: Setiap k-1-itemset yang bukan frequent tidak boleh menjadi suatu subset dari suatu frequent k-itemset.
Berikut adalah pseudocode dari algoritma apriori :
Ck : Kandidat itemset dari ukuran k
Lk : Frequent itemset dari ukuran k
L1 = {frequent itemset};
for k=1;Lk=0;k++ do begin Ck+1 = {kandidat dibangun dari Lk};
for each transaksi t dalam database do naikkan hitungan dari seluruh
kandidat dalam Ck+1 yang dimuat dalam t;
Lk+1 = {kandidat dalam Ck+1 dengan minimum support}; end
return
Uk Lk;
Untuk lebih jelasnya, perhatikan gambar 2.3 mengenai contoh
ilustrasi algoritma apriori.
Database D
TID Item
s 100
A, C, D 200
B, C, E 300
A, B, C, E 400
B, E Item
set Support
A 2
B 3
C 3
D 1
E 3
Item set
Support A
2 B
3 C
3 E
3 Item
set {A,B}
{A,C} {A,E}
{B,C} {B,E}
{C,E} Item
set Support
{A,B} 1
{A,C} 2
{A,E} 1
{B,C} 2
{B,E} 3
{C,E} 2
Item set
Support {A,C}
2 {B,C}
2 {B,E}
3 {C,E}
2 Item
set Support
{B,C,E} 2
Item set
{B,C,E}
Scan D
L
1
Scan D C
2
C
2
L
2
C
3
C
3
L
3
C
1
Gambar 2.4 Contoh Algoritma Apriori
Nilai minimum support yang ditentukan pada gambar 2.3 adalah 2 atau 50. Flowchart contoh tersebut terlihat pada gambar 2.3 dan
penjelasan tentang contoh ilustrasi algoritma apriori adalah sebagai berikut :
1. Dari database D kemudian dibentuk C1 kandidat 1-itemset, apabila itemset pada C1 tidak memenuhi minimum support maka
akan dieliminasi dari L1. 2. Selanjutnya dibangun C2 kandidat 2-itemset dengan melakukan
cross itemset yang ada pada L1 join step. Apabila itemset pada C2
tidak memenuhi minimum support maka akan dieliminasi dari L2. 3. Kemudian dibangun C3 kandidat 3-itemset dengan melakukan
cross itemset yang ada pada L2 join step. Jika diperhatikan selain
itemset {B,C,E} sebenarnya masih ada itemset {A,C,B} dan {A,C,E}
yang bisa didapatkan dari kombinasi itemset L2. Tetapi kedua itemset
tersebut dipangkas prune step karena itemset {C,B} dan {A,E} dieliminasi dari L2.
Item set
Support {B,C,E}
2
Start Database D
C1
If Itemset = 2
Tidak
If Itemset = 2
L1 C2
L2
Tidak C3
If Itemset = 2
L3
Ya Tidak
Ya
Ya End
Gambar 2.5 Flowchart Ilustrasi Algoritma Apriori
Proses perhitungan tersebut akan terus berulang sampai tidak ada lagi kandidat baru yang dihasilkan. Dalam contoh 2.3 proses
berakhir pada iterasi ketiga, karena tidak ada kandidat baru yang bisa dihasilkan pada iterasi keempat.
2.8 Database Management System DBMS
Untuk mengelola database diperlukan suatu perangkat lunak yang disebut DBMS database management system. DBMS merupakan
suatu system perangkat lunak yang memungkinkan user pengguna
untuk membuat memelihara, mengontrol, dan mengakses database secara praktis dan efisien Janner Simarmata Imam Prayudi, 2006
2.8.1 Software DBMS
Beberapa software atau perangkat lunak DBMS yang sering digunakan dalam aplikasi program antara lain :
a. BD –
http:www.-306.ibm.comsoftwaredatadb2 b. Microsoft SQL Server
– http:www.microsoft.comsql
c. Oracle –
http:wwworacle.com d. Sybase
– http:www.sybase.com
e. Interbase –
http:www.borlad.cominterbase f. Teradata
– http:www.teradata.com
g. Firebird –
http:www.firebirdsql.org h. MySQL
– http:www.mysql.com
i. PostgreSQL –
http:www.postgresql.org
2.8.2 Keuntungan DBMS
DBMS memungkinkan perusahaan maupun individu untuk Janner Simarmata Imam Prayudi, 2006 :
1. Mengurangi Pengulangan Data
Apabila dibandingkan dengan file –file komputer yang
disimpan terpisah disetiap aplikasi komputer, DBMS menguragi jumlah total file dengan menghapus data yang
terdupikasi di berbagai file, data terduplikasi selebihnya dapat ditempatkan dalam satu file.
2. Mencapai Independensi Data
Spesifikasi data disimpan dalam skema pada tiap program aplikasi. Perubahan dapat dibuat pada struktur data tanpa
mempengaruhi program yang mengakses data.
3. Mengintegrasikan data beberapa file
Saat file dibentuk sehingga menyediakan kaitan logis, maka organisasi fisik bukan merupakan kendala. Organisasi logis,
pandangan pengguna, dan program aplikasi tidak harus tercermin pada media penyimpanan fisik.
4. Mengambil data dan informasi dengan cepat
Hubungan – hubungan logis, manipulasi data, serta bahasa
query memungkinkan pengguna mengambil data dalam
hitungan detik atau menit.
5. Memungkinkan keamanan
DBMS mainframe
maupun komputer
mikro dapat
menyertakan beberapa lapis keamanan seperti kata sandi password, direktori pemakai, dan bahasa sandi encryption
sehingga data yang dikelola akan lebih aman.