15
nominal, sedangkan regresi digunakan untuk memprediksi nilai-nilai yang kontinyu. Untuk selanjutnya penggunaan istilah prediction untuk memprediksi
kelas yang berlabel disebut classification, dan penggunaan istilah prediksi untuk memprediksi nilai-nilai yang kontinu sebagai prediction Zaki Meira, 2014.
a Model Klasifikasi
Data input untuk klasifikasi adalah koleksi dari record. Setiap record dikenal sebagai instance atau contoh, yang ditentukan oleh sebuah tuple
x,y, dimana x adalah himpunan atribut dan y adalah atribut tertentu, yang dinyatakan sebagai label kelas juga dikenal sebagai kategori atau atribut
target. Klasifikasi adalah tugas pembelajaran sebuah fungsi target f yang memetakan setiap himpunan atribut x ke salah satu label kelas y yang telah
didefinisikan sebelumnya. Fungsi target juga dikenal secara informal sebagai model klasifikasi.
b Pemodelan Deskriptif
Model klasifikasi dapat bertindak sebagai alat penjelas untuk membedakan objek-objek dari kelas-kelas yang berbeda. Sebagai contoh untuk para ahli
Biologi, model deskriptif yang meringkas data.
2.4. Teori Graf
Secara informal, suatu graf adalah himpunan benda-benda yang disebut verteks atau node yang terhubung oleh sisi atau edge atau arc. Graf digunakan
untuk merepresentasikan objek-objek diskrit dan hubungan antara objek-objek tersebut. Representasi visual dari graf adalah dengan menyatakan objek sebagai
Universitas Sumatera Utara
16
noktah, bulatan, atau titik, sedangkan hubungan antara objek dinyatakan dengan garis Didit Budi Nugroho, 2008.
Secara formal, Graf G didefinisikan sebagai pasangan himpunan V,E, yang dalam hal ini:
o V = himpunan tidak-kosong dari simpul-simpul vertices atau node = { v
1
, v
2
, ... , v
n
} o
E = himpunan sisi edges atau arcs yang menghubungkan sepasang simpul = {e
1
, e
2
, ... , e
n
} atau dapat ditulis singkat notasi G = V, E.
Definisi diatas menyatakan bahwa V tidak boleh kosong, sedangkan E boleh kosong. Jadi, sebuah graf dimungkinkan tidak mempunyai sisi satu buah
pun, tetapi simpulnya harus ada, minimal satu. Graf yang hanya mempunyai satu buah simpul tanpa sebuah sisi pun dinamakan graf trivial. Sedangkan garis yang
hanya berhubungan dengan satu simpul disebut loop Didit Budi Nugroho, 2008.
2.5. Struktur Pohon
Pohon tree merupakan salah satu bentuk khusus dari struktur suatu graf. Misalkan A merupakan sebuah himpunan berhingga simpul vertex pada suatu
graf G yang terhubung. Untuk setiap pasangan simpul di A dapat ditentukan suatu lintasan yang menghubungkan pasangan simpul tersebut. Suatu graf terhubung
yang setiap pasangan simpulnya hanya dapat dihubungkan oleh suatu lintasan tertentu, maka graf tersebut dinamakan pohon tree. Dengan kata lain, pohon
merupakan graf tak-berarah yang terhubung dan tidak memiliki sirkuit. Berikut adalah beberapa sifat pohon Adiwijaya, 2014 :
Universitas Sumatera Utara
17
a Misalkan G merupakan suatu graf dengan n buah simpul dan tepat n – 1
buah sisi. Jika G tidak mempunyai sirkuit maka G merupakan pohon. b
Suatu pohon dengan n buah simpul mempunyai n – 1 buah sisi. c
Setiap pasang simpul di dalam suatu pohon terhubung dengan lintasan tunggal.
d Misalkan G adalah graf sederhana dengan jumlah simpul n, jika G tidak
mengandung sirkuit maka penambahan satu sisi pada graf hanya akan membuat satu sirkuit.
2.5.1 Pohon Berakar
Pada suatu pohon, yang sisi-sisinya diberi arah sehingga menyerupai graf berarah, maka simpul yang terhubung dengan semua simpul pada pohon tersebut
dinamakan akar. Suatu pohon yang satu buah simpulnya diperlakukan sebagai akar maka pohon tersebut dinamakan pohon berakar rooted tree. Simpul yang
berlaku sebagai akar mempunyai derajat masuk sama dengan nol. Sementara itu, simpul yang lain pada pohon itu memiliki derajat masuk sama dengan satu. Pada
suatu pohon berakar, Simpul yang memiliki derajat keluar sama dengan nol dinamakan daun. Pada Gambar 1 dibawah, a merupakan akar, c, d, f, g, h, i, dan j
merupakan daun Adiwijaya, 2014.
Pohon Berakar Pohon Berakar setelah tanda
panah pada sisi dibuang Gambar 1. Pohon Berakar
Universitas Sumatera Utara
18
2.5.2 Terminologi Pohon Berakar
Gambar 2. Terminologi Pohon Berakar a.
Anak child atau children dan Orangtua parent b, c, dan d adalah anak-anak simpul a, a adalah orangtua dari anak-anak itu
b. Lintasan path. Lintasan dari a ke h adalah a, b, e, h. dengan pnjang
lintasannya adalah 3. f adalah saudara kandung e, tetapi, g bukan saudara kandung e, karena orangtua mereka berbeda.
c.
Subtree
Gambar 3. Subtree Pohon Berakar d.
Derajat degree Derajat sebuah simpul adalah jumlah anak pada simpul tersebut.
Contohnya : o
Simpul yang berderajat 0 adalah simpul c, f, h, I, j, l, dan m. o
Simpul yang berderajat 1 adalah simpul d dan g.
Universitas Sumatera Utara
19
o Simpul yang berderajat 2 adalah simpul b dan k.
o Simpul yang berderajat 3 adalah simpul a dan e.
Jadi, derajat yang dimaksudkan di sini adalah derajat-keluar. Derajat maksimum dari semua simpul merupakan derajat pohon itu
sendiri. Pohon di atas berderajat 3 e.
Daun leaf Simpul yang berderajat nol atau tidak mempunyai anak disebut daun.
Simpul h, i, j, f, c, l, dan m adalah daun. f.
Simpul Dalam internal nodes Simpul yang mempunyai anak disebut simpul dalam. Simpul b, d, e, g,
dan k adalah simpul dalam. g.
Aras level atau Tingkat
Gambar 4. Level dalam Pohon Berakar h.
Tinggi height atau Kedalaman depth Aras maksimum dari suatu pohon disebut tinggi atau kedalaman pohon
tersebut. Pohon di atas mempunyai tinggi 4. Pohon berakar yang urutan anak-anaknya penting diperhatikan maka
pohon yang demikian dinamakan pohon terurut ordered tree. Sedangkan, pohon
berakar yang setiap simpul cabangnya mempunyai paling banyak n buah anak
Universitas Sumatera Utara
20
disebut pohon n-ary. Jika n = 2, pohonnya disebut pohon biner binary tree Adiwijaya, 2014.
2.5.3 Pohon Keputusan Decision Tree
Pohon keputusan adalah model prediksi menggunakan struktur pohon atau struktur berhirarki. Decision tree merupakan metode klasifikasi yang paling
popular digunakan. Selain karena pembangunannya relatif cepat, hasil dari model yang dibangun mudah untuk dipahami. Pada decision tree terdapat 3 jenis node
Munir, 2009, yaitu : a.
Root Node, merupakan node paling atas, pada node ini tidak ada input dan bisa tidak mempunyai output atau mempunyai output lebih dari satu.
b. Internal Node , merupakan node percabangan, pada node ini hanya
terdapat satu input dan mempunyai output minimal dua. c.
Leaf node atau terminal node , merupakan node akhir, pada node ini hanya terdapat satu input dan tidak mempunyai output.
Gambar 5. Struktur Decision Tree
Universitas Sumatera Utara
21
2.6. Probabilitas
Bila suatu percobaan mempunyai NS hasil percobaan yang berbeda dan masing-masing mempunyai kemungkinan yang sama untuk terjadi, dan bila tepat
nA diantara hasil percobaan itu menyusun kejadian A, maka peluang kejadian A adalah
Menurut Walpole dan Myers 1986 kaidah-kaidah probabilitas ada beberapa macam, antara lain :
1. Kaidah penjumlahan
a. Kaidah penjumlahan dua kejadian yang saling terpisah.
b. Kaidah penjumlahan dua kejadian yang tidak saling bebas.
c. Kaidah penjumlahan n buah kejadian yang saling terpisah.
Bila
1
,
2
, ⋯ ,
kejadian-kejadian yang saling terpisah, maka
d. Bila A dan ′ adalah dua kejadian yang satu merupakan komplemen
lainnya maka
2. Kaidah peluang bersyarat
Peluang bersyarat B, bila A diketahui dilambangkan dengan | .
didefinisikan sebagai
Universitas Sumatera Utara
22
3. Kaidah Penggandaan
a. Kaidah penggandaan khusus
Bila kejadian A dan B saling bebas maka
b. Jika kejadian-kejadian
1
,
2
,
3
, ⋯ ,
saling bebas, maka
4. Kaidah Bayes
Jika kejadian-kejadian
1
,
2
, ⋯ ,
merupakan partisi dari ruang sampel S dengan
≠ 0 untuk = 1, 2, ⋯ , maka untuk sembarang kejadian A yang bersifat
≠ 0 maka untuk � = 1, 2, ⋯ ,
∑ ∑
2.7. Algoritma CART