Studi Algoritma CART dengan Induksi Fuzzy dalam Mengklasifikasikan Data

(1)

Lampiran 1. Tabulasi Silang Variabel Independen dan Dependen

Variabel-variabel Independen

Sensor

0 1

Jumlah Jumlah

Esterogen 1

Progesteron 1

Pnode 1

Tsize 1 Usia 2 6 7 Usia 3 14 15

Tsize 2

Usia 1 0 1 Usia 2 13 17 Usia 3 35 44 Tsize 3 Usia 2 1 3

Usia 3 5 7 Pnode 2 Tsize 2 Usia 3 0 2 Tsize 3 Usia 2 0 1

Progesteron 2

Pnode 1

Tsize 1 Usia 3 9 0 Tsize 2 Usia 2 2 4 Usia 3 9 4 Tsize 3 Usia 3 1 0 Pnode 3 Tsize 1 Usia 2 0 1

Progesteron

3 Pnode 1

Tsize 1 Usia 2 2 0 Usia 3 8 1 Tsize 2 Usia 2 2 4 Usia 3 5 3 Tsize 3 Usia 3 1 1

Esterogen 2 Progesteron 1 Pnode 1 Tsize 1

Usia 1 0 1 Usia 2 3 4 Usia 3 4 4 Tsize 2 Usia 2 1 3 Usia 3 12 8 Tsize 3 Usia 2 1 2 Usia 3 0 3 Pnode 2 Tsize 2 Usia 3 0 1 Pnode 3 Tsize 2 Usia 3 0 1 Tsize 3 Usia 3 0 1

Progesteron 2

Pnode 1

Tsize 1 Usia 2 3 1 Usia 3 4 6 Tsize 2 Usia 2 0 1 Usia 3 11 7 Tsize 3 Usia 3 1 1 Pnode 3 Tsize 3 Usia 3 1 0


(2)

Progesteron

3 Pnode 1

Tsize 1 Usia 2 2 1 Usia 3 4 1 Tsize 2 Usia 2 5 4 Usia 3 17 8 Tsize 3 Usia 3 1 1

Esterogen 3

Progesteron

1 Pnode 1

Tsize 1 Usia 2 1 0 Usia 3 3 0 Tsize 2 Usia 3 12 17 Tsize 3 Usia 2 1 1

Usia 3 3 0

Progesteron

2 Pnode 1

Tsize 1 Usia 2 0 2 Usia 3 5 6 Tsize 2 Usia 2 2 1 Usia 3 15 12 Tsize 3 Usia 2 1 0

Progesteron

3 Pnode 1

Tsize 1 Usia 2 3 2 Usia 3 21 6

Tsize 2

Usia 1 0 1 Usia 2 8 4 Usia 3 40 17 Tsize 3 Usia 2 2 1


(3)

(4)

(5)

(6)

(7)

(8)

DAFTAR PUSTAKA

Adiwijaya. 2014. Matematika Diskrit Sekolah Tinggi Teknologi Telkom. Bandung: Sekolah Tinggi Teknologi Telkom.

Alavi, N., Nozari, V. & Mazloumzadeh, S. M., 2010. Irrigation water quality evalution using adaptive network-based fuzzy inference system. Paddy Water Environ, Volume 8, pp. 259-266.

Alidoosti, a., Yazdani, M. & Basiri, M. H., 2012. Risk assessment of critical asset using fuzzy inference system. Risk Management, Volume 14, No. 1, pp. 77-91.

Bandar, Z., Fowdar, J., Crockett, K., 2002, Inducing Fuzzy Decision Trees in Non-Deterministic Domains using CHAID. Manchester : Department of Computing and Mathematics, Manchester Metropolitan University.

Budi Nugroho, Didit. 2008. Pengantar Teori Graf. Fakultas Sains dan Matematika, Universitas Kristen Satya Wacana. Salatiga : Universitas Kristen Satya Wacana.

Breiman, L., J.H. Friedman, R.A. Olshen, and C.J. Stone, Classification And Regression Trees, Chapman & Hall, New York, 1993.

Chandrakar, V. K. & Kothari, A. G., 2008. Fuzzy Logic Based Unified Power flow Controllers for improving transient stability. International Journal of power and Energy Systems, Volume 28, p. 2.

Cyhe, K.H., Chin, T.W., dan Peng, G.C.. 2004. Credit Scoring Using Data Mining Techniques. Singapore Management Review.


(9)

http://www.thefreelibrary.com/Credit+scoring+using+data+mining+ techni ques.a0119370565. Tanggal akses : 17 Februari 2016.

Damayanti, Laila Kurnia. 2011. Aplikasi Algoritma Cart untuk Mengklasifika-sikan Data Nasabah Asuransi Jiwa Bersama Bumiputera 1912 Surakarta. Surakarta : Universitas Sebelas Maret. Skripsi Matematika.

Godil, S. S. & Shamim, M. S., 2011. Fuzzy Logic : A"Simple" solution for complexities in neurosciences?. Surgical Neurology International, Volume 2:24.

Han, J., & Kamber, M. 2006. Data Mining Concepts and Techniques. Second Edition. San Fransisco: Morgan Kauffman.

Kusrini & Luthfi, E., T. 2009. Algoritma Data Mining. Yogyakarta: Andi.

Kusumadewi, Sri. 2002. Analisis & Desain Sistem Fuzzy Menggunakan Toolbox Matlab. Yogyakarta: Graha Ilmu.

Kusumadewi, Sri dan Hari Purnomo. 2010. Aplikasi Logika Fuzzy untuk Pendukung Keputusan. Yogyakarta: Graha Ilmu.

Lewis, R.J, An Introduction to Classification And Regression Tree (CART) Analysis, Annual Meeting of the Society for Academic Emergency Medicine in San Fransisco, California, Department of Emergency Medicine, California, 2000. https://www.researchgate.net/publication/

240719582_An_Introduction_to_Classification_and_Regression_Tree_CA RT_Analysis.html. Tanggal Akses : 03 Maret 2016.

Muhajir, Muhammad. 2014. Metode Fuzzy CHAID (Chi-Squared Automatic Interaction Detection) Pada Segmentasi Pasar: Studi Kasus : Analisis


(10)

Kredit Macet Di BMT El Bummi 372 Yogyakarta. Tesis. FMIPA, Jurusan Statistika, Universitas Islam Indonesia.

Munir, Rinaldi. 2009. Matematika Diskrit (edisi ketiga). Bandung : Penerbit Informatika.

Riyadhi, Slamet., Abdul Syukur. Uji Coba Metode Mamdani untuk Deteksi Penyakit Diabetes di RSUD Dr. H. Soemarno Sosroatmojo Kuala Kapuas.

http://research.pps.dinus.ac.id/jurnal. Tanggal akses : 11 Februari 2016. Sudradjat. 2008. Dasar-dasar Fuzzy Logic. Bandung : Jurusan Matematika

Universitas Padjajaran.

Supardi. 2013. Aplikasi Statistika dalam Penelitian Edisi Revisi. Jakarta: Change Publication.

Tan, PN., M. Steinbach, V. Kumar. 2005. Introduction to Data Mining. Michigan: Michigan State University Publication.

Walpole, R.E dan R.H Myers. 1986. Ilmu Peluang dan Statistika Untuk Insinyur dan Ilmuwan. Terjemahan R.K Sembiring. Bandung: Penerbit ITB.

Wibowo, Ari. 2013. Prediksi Nasabah Potensial Menggunakan Metode Klasifikasi Pohon Biner. Program Studi Teknik Informatika Politeknik Negeri Batam.

http://id.scribd.com/doc/181684943/A152-Prediksi-Nasabah-Pote

nsial-menggunakan-Metode-Klasifikasi-Pohon-Biner-docx#scribd. Tanggal ak-ses : 07 Januari 2016.

Zadeh, L.A.. 1978. Fuzzy sets as a basis for a theory of possibility. Fuzzy sets and systems. www.eecs.berkeley.edu/~zadeh/papers/Fuzzy%20sets%20as%2


(11)

0a%20basis%20for%20a%20theory%20of%20possibility-1978.pdf. Tanggal akses : 17 Januari 2016.

Zaki, Mohammed J. And Meira, Wagner. 2014. Data Mining and Analysis: Fundamental Concepts and Algorithms. Cambridge: Cambridge University Press. http://assets.cambridge.org/97805217/66333/frontmatter /9780521766333_frontmatter.pdf. Tanggal akses : 03 Maret 2016.

Zhang, Caipo., Jinjie Song, Zhilong Wu (2009). Fuzzy Integral Be Applied to the Diagnosis of Gestational Diabetes Mellitus. Sixth International Conference on Fuzzy Systems and Knowledge Discovery. http://ieeexplo re.ieee.org/xpl/mostRecentIssue.jsp?punumber=5358480. Tanggal akses : 11 Februari 2016.


(12)

BAB III

HASIL DAN PEMBAHASAN

3.1. Fuzzy CART

Algoritma CART termasuk dalam anggota analisis klasifikasi yang disebut decision trees karena proses analisis dari CART digambarkan dalam bentuk atau struktur yang menyerupai sebuah pohon, lebih tepatnya pohon klasifikasi yang berbentuk biner (Damayanti, 2011). Algoritma CART dapat mengklasifikasikan data dari semua jenis skala data, baik nominal, ordinal, interval maupun rasio. Algoritma ini menghasilkan output berupa data yang telah terkelompok berdasarkan kesamaan kelas klasifikasi yang tegas (crisp).

Pada himpunan tegas (crisp), nilai keanggotaan yang berbeda sedikit dapat terpisah pada dua kelas klasifikasi. Pengelompokkan variabel dalam analisis klasifikasi sangat tegas, sedikit perbedaan data dapat menyebabkan perbedaan kelas klasifikasi. Misalnya untuk kelas usia dengan rentang 35 – 55 tahun disebut setengah baya, maka 34 tahun dikatakan muda, pendekatan crips ini tidak adil untuk menetapkan hal-hal yang bersifat kontinu (Kusumadewi, 2004).

Logika fuzzy didasarkan pada logika Boolean yang umum digunakan dalam komputasi. Secara ringkas, teorema fuzzy memungkinkan komputer berpikir tidak hanya dalam skala hitam-putih (0 dan 1, mati atau hidup) tetapi juga dalam skala abu-abu. Dalam logika fuzzy suatu preposisi dapat direpresentasikan dalam derajat kebenaran (truthfulness) atau kesalahan (falsehood) tertentu (Chandrakar & Kothari, 2008).


(13)

Bandar (2002) memperkenalkan bahwa fuzzy dapat diinduksikan ke dalam analisis decision tree. Algoritma induksi fuzzy dapat digunakan untuk melunakkan (soften) batasan keputusan yang tajam (sharp) pada algoritma pohon keputusan (decision tree) tradisional.

Fuzzy dapat memperhalus batasan data, khususnya pada data kategorik. Sesuai dengan komponen utama himpunan fuzzy yang memiliki dua atribut (Kusumadewi, 2004); yang pertama linguistik, yaitu penamaan suatu grup yang mewakili suatu keadaan atau kondisi tertentu dengan menggunakan bahasa alami, contohnya : muda, parobaya, tua. Yang kedua numerik, yaitu suatu nilai angka yang menunjukkan ukuran dari suatu variabel, contohnya : 3, 4, 17. Oleh karena itu fuzzy hanya dapat digunakan pada data berskala ordinal.

Salah satu jenis Fuzzy Inference System adalah yang dikembangkan oleh Mamdani, yang mampu meningkatkan formulasi awal Zadeh dengan cara yang memungkinkan untuk diterapkan pada sistem kontrol fuzzy. Sistem fuzzy ini juga dikenal sebagai logika fuzzy controller. Seperti sebelumnya, fuzzification memungkinkan FIS metode Mamdani untuk menangani nilai input yang tegas, pemetaan dari nilai tegas untuk himpunan fuzzy didefinisikan dalam semesta pembicaraan. Sistem inferensi menetapkan pemetaan antara himpunan fuzzy dalam domain input dan himpunan fuzzy dalam domain output. Defuzzifikasi mengubah output fuzzy berdasarkan aturan fuzzy menjadi output non-fuzzy (Bandar, 2002).

Penelitian ini memperkenalkan Fuzzy CART atau bisa disingkat menjadi FCART. Berdasarkan studi literatur seperti yang telah dipaparkan dalam BAB


(14)

sebelumnya, dapat diambil pemahaman bahwa FCART hanya dapat diaplikasikan pada data dengan skala ordinal, karena terkait konsep pemikiran dan penilaian manusia dalam batas-batas variabel linguistiknya.

Dalam teknik penggabungan algoritma CART dengan Fuzzy, Fuzzy diinduksikan setelah data melewati seluruh proses klasifikasi pada CART, output algoritma CART tersebut dijadikan rules pada Fuzzy Inference System metode Mamdani. Kemudian melakukan proses inferensi hingga selesai.

Sesuai dengan penelitian yang dilakukan Bandar (2002), langkah-langkah induksi Fuzzy pada algoritma pohon keputusan yang diperkenalkan adalah sebagai berikut :

1. Memisahkan dataset menjadi learning dan testing data;

2. Melakukan Proses analisis CART. Dalam proses ini terdiri atas tiga tahapan yaitu pemecahan node, pelabelan kelas, dan pemangkasan pohon klasifikasi sehingga menghasilkan pohon optimal;

3. Pembentukan aturan (rule) Fuzzy dari Pohon Keputusan CART sebagai Pengetahuan Dasar;

4. Menentukan fungsi keanggotaan (membership function);

5. Penerapan Fuzzy Inference System dengan metode Mamdani. Metode ini terdiri dari empat tahapan utama yaitu pembentukan himpunan fuzzy, aplikasi fungsi implikasi, komposisi aturan dengan metode max, dan defuzzifikasi.


(15)

Ketika menghitung akurasi persentase untuk dataset di mana variabel target merupakan diskrit, jumlah klasifikasi yang benar dari setiap hasil akan menentukan ukuran keseluruhan kinerja algoritma FCART.

3.2. Uji coba pada Database

Database yang digunakan untuk uji coba pada penelitian ini adalah sebuah database contoh. Database dibagi menjadi dua bagian secara acak, yaitu data learning dan data testing dengan proporsi 80% data learning dan 20% sisanya data testing. Data training digunakan untuk membentuk model klasifikasi, kemudian data testing digunakan untuk menguji akurasi prediksi model terhadap data baru.

Dilakukan analisis data terhadap 686 pasien kanker payudara yang dilakukan oleh German Breast Cancer Study Group. Terdapat enam variabel, yaitu usia pasien (tahun), tsize atau ukuran tumor (mm), pnodes atau banyaknya node positif, kandungan progesteron (ng/dL), kandungan esterogen (pg/dL), dan indikator sensor (0:tersensor, 1:tidak tersensor). Data tersebut terkategorikan dengan dalam variabel seperti pada tabel 2.

Data learning berjumlah 549 dari 686 baris data yang dipilih secara acak, dan sisanya 137 pada data testing. Data learning selanjutnya akan digunakan untuk membuat model klasifikasi dengan algoritma CART sesuai dengan kategorinya.

Tabel 2. Variabel Kategorik Pasien Kanker

Variabel Dependen Kategori

Sensor

1 Tersensor 0


(16)

Variabel Independen Usia

1 ≤ 25 Tahun (Muda) 1 2 25 - 45 Tahun (Parobaya) 2

3 > 45 Tahun (Tua) 3

Ukuran Tumor

1 ≤ 20 mm (Kecil) 1

2 20 – 50 mm (Sedang) 2

3 > 50 mm (Besar) 3

Node Positif

1 < 20 (Sedikit) 1

2 20 - 25 (Normal) 2

3 > 25 (Banyak) 3

Progesteron

1 < 30 ng/dL (Sedikit) 1 2 30 - 95 ng/dL (Normal) 2 3 > 95 ng/dL (Banyak) 3 Esterogen

1 < 25 pg/dL (Sedikit) 1 2 25 - 75 pg/dL (Normal) 2 3 > 75 pg/dL (Banyak) 3 a. Proses Pemecahan Node

Untuk mempermudah penghitungan, data ditabulasikan silang seperti yang terdapat pada lampiran 1. Pemilahan variabel berdasarkan kriteria goodness of split. Suatu split s akan digunakan untuk memecah node t menjadi dua buah node tR dan node tL jika s memaksimalkan nilai ∆i(s,t) = maxs ∆i(s,t). Root

node biasa disebut dengan node 0. Untuk variabel yang lebih dari 2, akan dikombinasikan kategorinya untuk menemukan splitter terbaik. Berikutnya pemilihan split untuk node 1 dan node 2.


(17)

Tabel 3. Kombinasi Kategori Usia Pertama

Usia T=0 TT=1 Jumlah

1 0 3 3

2 dan 3 302 244 546

Jumlah 302 247 549

Impurity Index-nya dihitung sebagai berikut :

{ }

{ }

{ }

Selanjutnya dihitung ∆i(s,t) node tersebut :

Untuk variabel usia yang kedua, kombinasi kategorinya sebagai berikut : Tabel 4. Kombinasi Kategori Usia Kedua

Usia T=0 TT=1 Jumlah

1 dan 2 59 67 126

3 243 180 423

Jumlah 302 247 549

Dengan cara perhitungan yang sama diperoleh sebagai berikut :

{ }

{ }


(18)

Untuk variabel tsize yang pertama, kombinasi kategorinya sebagai berikut : Tabel 5. Kombinasi Kategori Tsize Pertama

Tsize T=0 TT=1 Jumlah

1 92 58 150

2 dan 3 210 189 399

Jumlah 302 247 549

{ }

{ }

{ }

Penghitungan ini dilakukan pada semua variabel dan kombinasi kategorinya, sehingga didapatkan seluruh nilai seperti dalam tabel berikut :

Tabel 6. Decrease Impurity Variabel Data Pasien Kanker No. Variabel Kategori i(t) ∆i(s,t)

(1) (2) (3) (4) (5)

1 Usia 0.4950 0.0033

1 0.0000

2 dan 3 0.4944

2 Usia 0.4950 0.0040

1 dan 2 0.4980


(19)

(1) (2) (3) (4) (5)

3 Tsize 0.4950 0.0030

1 0.4743

2 dan 3 0.4986

4 Tsize 0.4950 0.0016

1 dan 2 0.4931

3 0.4962

5 Pnode 0.4950 0.0053

1 0.4936

2 dan 3 0.2188

6 Pnode 0.4950 0.0013

1 dan 2 0.4945

3 0.3750

7 Progesteron 0.4950 0.0193

1 0.4941

2 dan 3 0.4593

8 Progesteron 0.4950 0.0165

1 dan 2 0.4996

3 0.4355

9 Esterogen 0.4950 0.0042

1 0.5000

2 dan 3 0.4842

10 Esterogen 0.4950 0.0052

1 dan 2 0.4997

3 0.4713

Dari tabel di atas diperoleh nilai = 0,0193, yaitu pada variabel progesteron, sehingga variabel ini terpilih sebagai pemilah terbaik pertama yang membagi node 0 menjadi dua. Node 1 adalah variabel progesteron dengan kategori 1 dan node 2 adalah kategori progesteron dengan kategori 2 dan 3, seperti yang terlihat pada diagram pada gambar 8.

Proses serupa diulangi pada node 1 dan node 2 yang telah terbentuk, juga dilakukan pada node-node berikutnya, hingga tersisa satu objek saja pada node terakhir atau semua objek yang berada dalam sebuah node merupakan anggota kelas yang sudah homogen.


(20)

Node 0

T = 302

TT = 247

Progesteron

1 2 dan 3

Node 1 Node 2

T = 115

T

= 187

TT

= 143

TT

= 104 Gambar 11. Pemecahan Root Node b. Pelabelan Kelas

Pemberian label kelas pada node-node yang telah terbentuk berdasarkan rumus apabila �� maka . Sebagai contoh, pelabelan node 1 dan node 2 sebagai berikut.

��

��

Sehingga node 1 diberi label kelas tidak tersensor, karena peluang kelas tidak tersensor lebih besar dari peluang kelas tersensor, dan node 2 diberi label kelas yang tersensor. Proses pelabelan kelas ini berlaku pada semua node terutama terminal node. Seperti yang terlihat pada diagram berikut.


(21)

Node 0

T = 302

TT = 247

Progesteron

1 2 dan 3

Node 1 Node 2

T = 115 T = 187

TT = 143 TT = 104

Gambar 12. Proses Pelabelan Node c. Penghentian Pemecahan

Proses pemecahan yang berulang-ulang akan berhenti dan menghasilkan pohon maksimal. Proses splitting node akan berhenti jika semua variabel telah digunakan. Proses ini juga bisa terhenti jika data dalam kelas telah homogen, atau atau . Contohnya pada pemecahan node 1 dapat terlihat pada tabel 7.

Dari tabel 7, pnode adalah variabel pemilah node 1 menjadi dua node, yaitu node 3 dengan kategori pnode 1 dan node 4 dengan kategori pnode selain 1. Namun karena , maka proses pemecahan node 4 dihentikan, sedangkan node 3 tetap dapat dilanjutkan.

Tabel 7. Proses Penghentian Pemecahan Node

No. Variabel Kategori P(0|t) P(1|t) i(t) ∆i(s,t)

(1) (2) (3) (4) (5) (6) (7)

1 Usia 0.4457 0.5543 0.4941 0.0031

1 0.0000 1.0000 0.0000

2.3 0.4492 0.5508 0.4948

2 Usia 0.4457 0.5543 0.4941 0.0013

1.2 0.4030 0.5970 0.4812

3 0.4607 0.5393 0.4969

3 Tsize 0.4457 0.5543 0.4941 0.0019


(22)

(1) (2) (3) (4) (5) (6) (7)

4 Tsize 0.4457 0.5543 0.4941 0.0011

1.2 0.4541 0.5459 0.4958

3 0.3793 0.6207 0.4709

5 Pnode 0.4457 0.5543 0.4941 0.0095

1 0.4563 0.5437 0.4962

2.3 0.0000 1.0000 0.0000

6 Pnode 0.4457 0.5543 0.4941 0.0031

1.2 0.4492 0.5508 0.4948

3 0.0000 1.0000 0.0000

7 Esterogen 0.4457 0.5543 0.4941 0.0007

1 0.4327 0.5673 0.4910

2.3 0.4713 0.5287 0.4983

8 Esterogen 0.4457 0.5543 0.4941 0.0022

1.2 0.4318 0.5682 0.4907

3 0.5263 0.4737 0.4986

Proses ini terus dilakukan hingga terbentuk pohon maksimal (Tmax) seperti

terlihat pada lampiran 2 dan lampiran 3. d. Pemangkasan Pohon

Setelah pohon maksimal (Tmax) terbentuk, maka dilakukan proses

pemangkasan pohon klasifikasi. Jika diperoleh dua child node dan parent node yang memenuhi persamaan � � � , maka child node �dan �

dipangkas. Sebagai contoh, berikut proses pemangkasan node 13.

Node 13

T = 95

TT = 117

Tsize

1 dan 2 3

Node 23 Node 24 T = 88 T = 7 TT = 102 TT = 15


(23)

� � �

��

��

��

Sehingga diperoleh :

� � �


(24)

Karena � � � maka kedua child node dari node 13 (node 23 dan node 24) dipangkas.

Proses pemangkasan ini dilakukan pada setiap subtree dari pohon Tmax

hingga tidak ada lagi node yang bisa dipangkas. Pohon optimal terbentuk setelah proses pemangkasan diakhiri, seperti gambar berikut.

Node 0

T = 302

TT = 247

Progesteron

1 2 dan 3

Node 1 Node 2

T = 115 T = 187

TT = 143 TT = 104

Usia

1 dan 2 3

Node 5 Node 6

T = 32 T = 155

TT = 27 TT = 77

Gambar 14. Pohon Klasifikasi CART

Dari diagram di atas dapat disimpulkan bahwa yang mempengaruhi tersensor atau tidaknya adalah variabel kadar progesteron dan variabel usia pasien.

e. Rules untuk Induksi Fuzzy

Dari output pohon klasifikasi CART, terbentuk 3 (tiga) kelas klasifikasi yang berbeda. Tahap selanjutnya, bentuk aturan-aturan fuzzy “IF...THEN...” yang telah dipilih berdasarkan aturan-aturan klasifikasi hasil algoritma CART dalam penelitian ini. Aturan-aturan tersebut diberikan sebagai berikut :


(25)

2)If (Usia is MUDA) and (Progesteron is NORMAL) then (Sensor is TERSENSOR)

3)If (Usia is PAROBAYA) and (Progesteron is NORMAL) then (Sensor is TERSENSOR)

4)If (Usia is MUDA) and (Progesteron is BANYAK) then (Sensor is TERSENSOR)

5)If (Usia is PAROBAYA) and (Progesteron is BANYAK) then (Sensor is TERSENSOR)

6)If (Usia is TUA) and (Progesteron is NORMAL) then (Sensor is TERSENSOR)

7)If (Usia is TUA) and (Progesteron is BANYAK) then (Sensor is TERSENSOR)

Operator yang digunakan pada sistem adalah operator standard Zadeh “AND”. Proses defuzzifikasi menggunakan Metode Centroid. Selanjutnya,

aturan-aturan “IF...THEN...” di atas digunakan sebagai input pada tahap inferensi fuzzy.

f. Fungsi Keanggotaan Variabel Fuzzy

Metode penalaran yang digunakan adalah Metode Penalaran Mamdani yang juga dikenal sebagai Metode Max-Min. Langkah selanjutnya setelah didapatkan aturan (rule) fuzzy yaitu merancang suatu sistem fuzzy berdasarkan klasifikasi pohon. Dari sistem fuzzy yang dibentuk terdiri dari dua variabel input dan satu variabel output, dimana variabel-variabel input sistem fuzzy yang akan digunakan pada penelitian ini dapat dilihat pada tabel berikut.


(26)

Tabel 8. Variabel dalam Induksi Fuzzy Pasien Kanker Nama Variabel Semesta Pembicaraan Himpunan

Fuzzy Domain

Sensor [0,1] Tersensor [0,0.75]

Tidak

Tersensor [0.25,1]

Progesteron [0,+∞] Sedikit [0,62]

Normal [20,104]

Banyak [62,980]

Usia [0,+∞] Muda [0,35]

Parobaya [22,48]

Tua [35,80]

Parameter-parameter tersebut diinput kedalam fungsi keanggotaan yang telah definisikan dan untuk hasilnya dapat dilihat pada fungsi berikut.

a. Variabel Usia

{ { {


(27)

b. Variabel Progesteron { { {

Gambar 16. Fungsi Keanggotaan Variabel Progesteron c. Variabel Sensor

{ {


(28)

Gambar 17. Fungsi Keanggotaan Variabel Sensor g. Aplikasi Fungsi Implikasi

Pada proses aplikasi fungsi implikasi, nilai-nilai dimasukkan pada fungsi implikasi, seperti berikut. Untuk data testing dengan usia 39 tahun dan kandungan progesteron 79 ng/dL. Maka nilai dari fungsi keanggotaannya :


(29)

Aplikasi fungsi implikasi sesuai dengan 7 (tujuh) aturan yang telah dibentuk sebelumnya, yaitu :

[R1] If (Progesteron is SEDIKIT) then (Sensor is TIDAK TERSENSOR)

[ ]

[R2] If (Usia is MUDA) and (Progesteron is NORMAL) then (Sensor is TERSENSOR)

[ ] [ ]

[R3] If (Usia is PAROBAYA) and (Progesteron is NORMAL) then (Sensor is TERSENSOR)

[ ] [ ]

[R4] If (Usia is MUDA) and (Progesteron is BANYAK) then (Sensor is TERSENSOR)

[ ] [ ]

[R5] If (Usia is PAROBAYA) and (Progesteron is BANYAK) then (Sensor is TERSENSOR)

[ ] [ ]

[R6] If (Usia is TUA) and (Progesteron is NORMAL) then (Sensor is TERSENSOR)

[ ] [ ]

[R7] If (Usia is TUA) and (Progesteron is BANYAK) then (Sensor is TERSENSOR)

[ ] [ ]


(30)

Dari ketujuh aturan di atas, yang memiliki nilai adalah R3, R5, R6 dan R7. Aplikasi fungsi implikasi dari aturan tersebut dapat dilihat juga pada diagram berikut.

Gambar 19. Aplikasi Fungsi Implikasi

Untuk melakukan komposisi semua output fuzzy dilakukan dengan menggunakan metode max, yaitu mengambil tingkat keanggotaan maksimum dari tiap konsekuen aplikasi fungsi implikasi dan menggabungkan semua


(31)

kesimpulan masing-masing aturan, sehingga diperoleh daerah solusi fuzzy seperti berikut :

[ ] [ ]

[ ]

[ ]

[ ] [ ]

Gambar 20. Daerah Solusi Fuzzy

Titik potong aturan adalah ketika , maka dapat ditentukan nilai z sebagai berikut :

Sehingga diperoleh fungsi keanggotaan daerah solusi sebagai berikut :

{


(32)

h. Defuzzifikasi

Pada tahap ini penegasan dilakukan untuk mengubah himpunan fuzzy menjadi bilangan real. Input proses penegasan adalah suatu himpunan fuzzy, sedangkan output yang dihasilkan merupakan bilangan pada domain himpunan fuzzy tersebut. Defuzzifikasi dilakukan dengan metode centroid, seperti contoh berikut :

∫ ∫

∫ ∫ ∫ ∫ ∫ ∫

∫ ∫

Proses implikasi, komposisi dan defuzifikasi ini dilakukan pada setiap data testing, sehingga diperoleh nilai yang mendekati crips, untuk kemudian dilakukan pembulatan ke nilai crips terdekat, yaitu nol dan satu pada database yang digunakan.

i. Uji Akurasi Klasifikasi

Langkah terakhir adalah melakukan uji akurasi prediksi klasifikasi. Cara menguji akurasi klasifikasi yaitu dengan memasukkan nilai-nilai dari variabel input data testing ke dalam model FCART, lalu menghitung jumlah prediksi output yang sesuai dengan output nyata (observasi). Langkah tersebut dapat dilakukan dengan menggunakan data testing. Seperti berikut :


(33)

Tabel 9. Prediksi Indikator Sensor berdasarkan FCART

No. Usia Progesteron Observasi Prediksi FCART

1 56 61 Tidak Tersensor Tersensor

2 59 181 Tersensor Tersensor

3 71 0 Tidak Tersensor Tidak Tersensor

4 39 79 Tidak Tersensor Tersensor

5 6 57 59 184 8 Tersensor Tidak Tersensor Tersensor Tidak Tersensor

7 36 6 Tersensor Tidak Tersensor

8 62 0 Tidak Tersensor Tidak Tersensor

9 45 160 Tersensor Tersensor

10 65 6 Tersensor Tidak Tersensor

Tabel di atas memperlihatkan 10 dari 137 data testing. Seluruh data testing diprediksi indikator sensornya sesuai dengan aturan FCART.

Tabel 10. Akurasi Klasifikasi FCART

Observasi Prediksi

Tersensor Tidak Tersensor

Tersensor 42 43

Tidak Tersensor 14 38

Akurasi

Akurasi = 58,39% 3.3. Pembahasan

Pada uji coba data yang telah dilakukan, selanjutnya dapat dilakukan perbandingan akurasi antara algoritma CART dan algoritma FCART, yaitu dengan melihat perbandingan tingkat akurasi kedua algoritma.

Untuk menguji akurasi pohon klasifikasi CART yang telah terbentuk sebelumnya, dapat dilakukan uji akurasi yang sama dengan menggunakan data testing. Seluruh data testing diprediksi indikator sensornya sesuai dengan


(34)

klasifikasi CART. Kemudian dihitung tingkat akurasinya dengan tabulasi silang (confusion matrix 2x2) seperti berikut.

Tabel 9. Akurasi Klasifikasi CART

Observasi Prediksi

Tersensor Tidak Tersensor

Tersensor 44 41

Tidak Tersensor 19 33

Akurasi

Akurasi = 56,20%

Algoritma FCART yang telah diperkenalkan dalam penelitian ini mampu meningkatkan kinerja pohon keputusan (decision tree) dengan induksi Fuzzy menggunakan algoritma CART. Penelitian ini juga telah memperlihatkan logika fuzzy untuk melunakkan batas keputusan tajam yang jelas dalam pohon keputusan. Hasil yang diperoleh dari Algoritma FCART menunjukkan adanya peningkatan akurasi kinerja dibandingkan dengan algoritma CART dengan data tegas. Untuk database di mana variabel sasaran merupakan diskrit, peningkatan yang dicapai dengan metode Mamdani adalah hasil dari batas keputusan tajam yang digambarkan sebagai serangkaian daerah fuzzy.

Dari penelitian yang telah dilakukan dengan cara studi literatur dan melakukan uji coba pada database contoh, maka dapat diperoleh beberapa hasil, yaitu :

1) Fuzzy dapat diinduksikan ke dalam algoritma CART;

2) Algoritma CART dan FCART keduanya dapat digunakan untuk mengklasifikasikan data dengan baik;


(35)

3) FCART hanya dapat digunakan untuk data dengan skala ordinal, atau data interval dan rasio yang telah dikategorikan menjadi data ordinal;

4) Algoritma FCART memiliki tingkat akurasi yang lebih tinggi dibandingkan dengan Algoritma CART;

5) Algoritma CART dan algoritma FCART sebaiknya digunakan pada data dengan jumlah yang besar, sehingga keakuratan klasifikasi dapat terlihat secara signifikan.


(36)

BAB IV

PENUTUP

5.1. Kesimpulan

Berdasarkan pembahasan dan hasil penelitian diperoleh kesimpulan bahwa Algoritma CART dengan induksi Fuzzy memiliki tingkat akurasi yang lebih baik daripada Algoritma CART tanpa induksi Fuzzy. Algoritma Fuzzy CART (FCART) dapat digunakan untuk memaksimalkan hasil klasifikasi.

5.2. Saran

Saran yang bisa diberikan peneliti setelah melakukan penelitian pada Algoritma CART dan Algoritma FCART adalah sebagai berikut :

- Untuk mengklasifikasikan data dengan skala interval dan rasio dapat digunakan Algoritma FCART untuk mengurangi ketajaman perbedaan antar kelas klasifikasi;

- Untuk melakukan pengujian kembali pada keakuratan Algoritma FCART dapat digunakan metode-metode lainnya, seperti salah satunya MRE (Magnitude Relative Error) dan MPE (Mean Percentage Error); - Untuk penelitian selanjutnya tentang Algoritma CART, dapat

dikembangkan pada Probabilistic Fuzzy pada CART seperti yang telah diujikan pada Algoritma Decision Tree lainnya;


(37)

BAB II

LANDASAN TEORI

2.1. Data

Data adalah bentuk jamak dari datum. Data merupakan keterangan-keterangan tentang suatu hal, dapat berupa sesuatu yang diketahui atau dianggap. Jadi, data dapat diartikan sebagai sesuatu yang diketahui atau yang dianggap atau anggapan. Data juga merupakan sejumlah informasi yang dapat memberikan gambaran tentang suatu keadaan, atau masalah baik yang berbentuk angka-angka maupun yang berbentuk kategori atau keterangan (Supardi, 2013).

Sesuai dengan macam atau jenis variabel, maka data atau hasil pencatatannya juga mempunyai jenis sebanyak variabel. Data dapat dibagi dalam kelompok tertentu berdasarkan kriteria yang menyertainya, misalnya menurut susunan, sifat, waktu pengumpulan, sumber pengambilan dan skala pengukurannya (Supardi, 2013).

a. Pembagian Data Menurut Susunannya 1) Data Acak atau Data Tunggal

Data acak atau data tunggal adalah data yang belum tersusun atau dikelompokkan kedalam kelas-kelas interval.

2) Data Berkelompok

Data berkelompok adalah data yang sudah tersusun atau dikelompokkan kedalam kelas-kelas interval. Data berkelompok disusun dalam bentuk distribusi frekuensi atau tabel frekuensi.


(38)

b. Pembagian Data Menurut Sifatnya 1) Data Kualitatif

Data kualitatif adalah data yang tidak berbentuk bilangan. Data kualitatif berbentuk pernyataan verbal, simbol, atau gambar.

Contoh data kualitatif adalah data gender, data golongan darah, data tempat tinggal atau data jenis pekerjaan. Agar dapat dilakukan proses pada data kualitatif atau non metric, data tersebut harus diubah ke dalam bentuk angka, proses ini dinamakan kategorisasi. Data kualitatif dibedakan menjadi dua jenis, yaitu data nominal dan data ordinal.

2) Data Kuantitatif

Data kuantitatif adalah data yang berbentuk bilangan, atau data kualitatif yang diangkakan.

Data kuantitatif dapat disebut sebagai data berupa angka dalam arti sebenarnya. Jadi, berbagai jenis operasi matematika dapat dilakukan pada data kuantitatif. Data kuantitatif merupakan data yang didapat dengan jalan mengukur sehingga bisa mempunyai nilai desimal. Contoh data kuantitatif adalah tinggi badan, usia, penjualan barang, dan sebagainya. Sebagai contoh, tinggi badan seseorang bisa bernilai 165 cm atau 165.5 cm. Seperti pada jenis data kualitatif, jenis data kuantitatif juga terbagi menjadi dua, yaitu data interval dan data rasio.

c. Pembagian Data Menurut Waktu Pengumpulannya 1) Data Berkala (Time Series)


(39)

Data berkala adalah data yang terkumpul dari waktu ke waktu untuk memberikan gambaran perkembangan suatu kegiatan.

2) Data Cross Section

Data cross section adalah data yang terkumpul pada suatu waktu tertentu untuk memberikan gambaran perkembangan keadaan atau kegiatan pada waktu itu.

d. Pembagian Data Menurut Sumber Pengambilannya 1) Data Primer

Data primer adalah data yang diperoleh atau dikumpulkan oleh orang yang melakukan penelitian atau yang bersangkutan yang melakukannya. Data primer disebut juga data asli atau data baru.

2) Data Sekunder

Data sekunder adalah data yang diperoleh atau dikumpulkan dari sumber-sumber yang telah ada. Data itu biasanya diperoleh dari perpustakaan atau dari laporan-laporan/dokumen peneliti yang terdahulu. Data sekunder disebut juga data tersedia.

e. Pembagian Data Menurut Skala Pengukurannya 1) Data Nominal

Data nominal adalah data yang diberikan pada objek atau kategori yang tidak menggambarkan kedudukan objek atau kategori tersebut terhadap objek atau kategori lainnya, tetapi hanya sekedar label atau kode saja. Data ini hanya mengelompokkan objek/kategori kedalam kelompok tertentu. Data nominal memiliki ciri hanya dapat dibedakan antara data satu dengan


(40)

lainnya dan tidak bisa diurutkan/dibandingkan. Data ini memiliki ciri yaitu kategori data bersifat saling lepas dan kategori data tidak disusun secara logis.

2) Data Ordinal

Data ordinal adalah data yang penomoran objek atau kategori disusun menurut besarnya, yaitu dari tingkat terendah ke tingkat tertinggi atau sebaliknya dengan jarak/rentang yang tidak harus sama. Data ini memiliki ciri seperti ciri data nominal ditambah satu ciri lagi, yaitu kategori data dapat disusun/diurutkan berdasarkan urutan logis dan sesuai dengan besarnya karakteristik yang dimiliki.

3) Data Interval

Data interval adalah data dengan objek/kategori yang dapat dibedakan antara data satu dengan lainnya, dapat diurutkan berdasarkan suatu atribut dan memiliki jarak yang memberikan informasi tentang interval antara tiap objek/kategori sama. Besarnya interval dapat ditambah atau dikurangi. Data ini memiliki ciri sama dengan data ordinal ditambah satu ciri lagi, yaitu urutan kategori data mempunyai jarak yang sama.

4) Data Rasio

Data rasio adalah data yang memiliki sifat-sifat data nominal, data ordinal, dan data interval, dilengkapi dengan kepemilikan nilai atau titik nol absolut/mutlak dengan makna empirik. Data rasio dapat dibagi atau dikali.


(41)

2.2. Data Mining

Menurut Han & Kamber (2006), data mining adalah kegiatan yang meliputi pengumpulan dan pemakaian data historis yang menemukan keteraturan, pola dan hubungan dalam set data berukuran besar. Maksud dari pengertian ini yaitu proses pencarian informasi yang tidak diketahui sebelumnya dari sekumpulan data besar. Karakteristik Data mining sebagai berikut (Kusrini & Luthfi, 2009) :

a) Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data tertentu yang tidak diketahui sebelumnya.

b) Data mining biasa menggunakan data yang sangat besar. Biasanya data yang besar digunakan untuk membuat hasil lebih dipercaya.

c) Data mining berguna untuk membuat keputusan yang kritis, terutama dalam strategi.

Secara umum ada dua jenis metode pada data mining (Kusrini & Luthfi, 2009), yaitu:

a) Metode Prediktive

Proses untuk menemukan pola dari data yang menggunakan beberapa variabel untuk memprediksi variabel lain yang tidak diketahui jenis atau nilainya. Teknik yang termasuk dalam predikative mining antara lain klasifikasi, regresi, dan deviasi.


(42)

Proses untuk menemukan suatu karakteristik penting dari data dalam suatu basis data. Teknik data mining yang termasuk dalam descriptive mining adalah clustering, association, dan secuential mining.

2.3. Klasifikasi Data

Klasifikasi data adalah suatu proses yang menemukan properti-properti yang sama pada sebuah himpunan obyek di dalam sebuah basis data, dan mengklasifikasikannya ke dalam kelas-kelas yang berbeda menurut model klasifikasi yang ditetapkan. Tujuan dari klasifikasi adalah untuk menemukan model dari training set yang membedakan atribut ke dalam kategori atau kelas yang sesuai, model tersebut kemudian digunakan untuk mengklasifikasikan atribut yang kelasnya belum diketahui sebelumnya (Zaki & Meira, 2014).

Klasifikasi dan prediksi adalah dua bentuk analisis data yang bisa digunakan untuk mengekstrak model dari data yang berisi kelas-kelas atau untuk memprediksi trend data yang akan datang. Klasifikasi memprediksi data dalam bentuk kategori, sedangkan prediksi memodelkan fungsi-fungsi dari nilai yang kontinyu. Misalnya model klasifikasi bisa dibuat untuk mengelompokkan aplikasi peminjaman pada bank apakah berisiko atau aman, sedangkan model prediksi bisa dibuat untuk memprediksi pengeluaran untuk membeli peralatan komputer dari pelanggan potensial berdasarkan pendapatan dan lokasi tinggalnya. Prediksi bisa dipandang sebagai pembentukan dan penggunaan model untuk menguji kelas dari sampel yang tidak berlabel, atau menguji nilai atau rentang nilai dari suatu atribut. Dalam pendangan ini, klasifikasi dan regresi adalah dua jenis masalah prediksi, dimana klasifikasi 10 digunakan untuk memprediksi nilai-nilai diskrit atau


(43)

nominal, sedangkan regresi digunakan untuk memprediksi nilai-nilai yang kontinyu. Untuk selanjutnya penggunaan istilah prediction untuk memprediksi kelas yang berlabel disebut classification, dan penggunaan istilah prediksi untuk memprediksi nilai-nilai yang kontinu sebagai prediction (Zaki & Meira, 2014).

a) Model Klasifikasi

Data input untuk klasifikasi adalah koleksi dari record. Setiap record dikenal sebagai instance atau contoh, yang ditentukan oleh sebuah tuple (x,y), dimana x adalah himpunan atribut dan y adalah atribut tertentu, yang dinyatakan sebagai label kelas (juga dikenal sebagai kategori atau atribut target). Klasifikasi adalah tugas pembelajaran sebuah fungsi target f yang memetakan setiap himpunan atribut x ke salah satu label kelas y yang telah didefinisikan sebelumnya. Fungsi target juga dikenal secara informal sebagai model klasifikasi.

b) Pemodelan Deskriptif

Model klasifikasi dapat bertindak sebagai alat penjelas untuk membedakan objek-objek dari kelas-kelas yang berbeda. Sebagai contoh untuk para ahli Biologi, model deskriptif yang meringkas data.

2.4. Teori Graf

Secara informal, suatu graf adalah himpunan benda-benda yang disebut verteks (atau node) yang terhubung oleh sisi (atau edge atau arc). Graf digunakan untuk merepresentasikan objek-objek diskrit dan hubungan antara objek-objek tersebut. Representasi visual dari graf adalah dengan menyatakan objek sebagai


(44)

noktah, bulatan, atau titik, sedangkan hubungan antara objek dinyatakan dengan garis (Didit Budi Nugroho, 2008).

Secara formal, Graf G didefinisikan sebagai pasangan himpunan (V,E), yang dalam hal ini:

o V = himpunan tidak-kosong dari simpul-simpul (vertices atau node) = { v1 , v2 , ... , vn }

o E = himpunan sisi (edges atau arcs) yang menghubungkan sepasang simpul = {e1 , e2 , ... , en}

atau dapat ditulis singkat notasi G = (V, E).

Definisi diatas menyatakan bahwa V tidak boleh kosong, sedangkan E boleh kosong. Jadi, sebuah graf dimungkinkan tidak mempunyai sisi satu buah pun, tetapi simpulnya harus ada, minimal satu. Graf yang hanya mempunyai satu buah simpul tanpa sebuah sisi pun dinamakan graf trivial. Sedangkan garis yang hanya berhubungan dengan satu simpul disebut loop (Didit Budi Nugroho, 2008). 2.5. Struktur Pohon

Pohon (tree) merupakan salah satu bentuk khusus dari struktur suatu graf. Misalkan A merupakan sebuah himpunan berhingga simpul (vertex) pada suatu graf G yang terhubung. Untuk setiap pasangan simpul di A dapat ditentukan suatu lintasan yang menghubungkan pasangan simpul tersebut. Suatu graf terhubung yang setiap pasangan simpulnya hanya dapat dihubungkan oleh suatu lintasan tertentu, maka graf tersebut dinamakan pohon (tree). Dengan kata lain, pohon merupakan graf tak-berarah yang terhubung dan tidak memiliki sirkuit. Berikut adalah beberapa sifat pohon (Adiwijaya, 2014) :


(45)

a) Misalkan G merupakan suatu graf dengan n buah simpul dan tepat n – 1 buah sisi. Jika G tidak mempunyai sirkuit maka G merupakan pohon. b) Suatu pohon dengan n buah simpul mempunyai n – 1 buah sisi.

c) Setiap pasang simpul di dalam suatu pohon terhubung dengan lintasan tunggal.

d) Misalkan G adalah graf sederhana dengan jumlah simpul n, jika G tidak mengandung sirkuit maka penambahan satu sisi pada graf hanya akan membuat satu sirkuit.

2.5.1 Pohon Berakar

Pada suatu pohon, yang sisi-sisinya diberi arah sehingga menyerupai graf berarah, maka simpul yang terhubung dengan semua simpul pada pohon tersebut dinamakan akar. Suatu pohon yang satu buah simpulnya diperlakukan sebagai akar maka pohon tersebut dinamakan pohon berakar (rooted tree). Simpul yang berlaku sebagai akar mempunyai derajat masuk sama dengan nol. Sementara itu, simpul yang lain pada pohon itu memiliki derajat masuk sama dengan satu. Pada suatu pohon berakar, Simpul yang memiliki derajat keluar sama dengan nol dinamakan daun. Pada Gambar 1 dibawah, a merupakan akar, c, d, f, g, h, i, dan j merupakan daun (Adiwijaya, 2014).

Pohon Berakar Pohon Berakar setelah tanda panah pada sisi dibuang


(46)

2.5.2 Terminologi Pohon Berakar

Gambar 2. Terminologi Pohon Berakar

a. Anak (child atau children) dan Orangtua (parent) b, c, dan d adalah anak-anak simpul a, a adalah orangtua dari anak-anak itu

b. Lintasan (path). Lintasan dari a ke h adalah a, b, e, h. dengan pnjang lintasannya adalah 3. f adalah saudara kandung e, tetapi, g bukan saudara kandung e, karena orangtua mereka berbeda.

c. Subtree

Gambar 3. Subtree Pohon Berakar d. Derajat (degree)

Derajat sebuah simpul adalah jumlah anak pada simpul tersebut. Contohnya :

o Simpul yang berderajat 0 adalah simpul c, f, h, I, j, l, dan m. o Simpul yang berderajat 1 adalah simpul d dan g.


(47)

o Simpul yang berderajat 2 adalah simpul b dan k. o Simpul yang berderajat 3 adalah simpul a dan e.

Jadi, derajat yang dimaksudkan di sini adalah derajat-keluar.

Derajat maksimum dari semua simpul merupakan derajat pohon itu sendiri. Pohon di atas berderajat 3

e. Daun (leaf)

Simpul yang berderajat nol (atau tidak mempunyai anak) disebut daun. Simpul h, i, j, f, c, l, dan m adalah daun.

f. Simpul Dalam (internal nodes)

Simpul yang mempunyai anak disebut simpul dalam. Simpul b, d, e, g, dan k adalah simpul dalam.

g. Aras (level) atau Tingkat

Gambar 4. Level dalam Pohon Berakar h. Tinggi (height) atau Kedalaman (depth)

Aras maksimum dari suatu pohon disebut tinggi atau kedalaman pohon tersebut. Pohon di atas mempunyai tinggi 4.

Pohon berakar yang urutan anak-anaknya penting (diperhatikan) maka pohon yang demikian dinamakan pohon terurut (ordered tree). Sedangkan, pohon


(48)

disebut pohon n-ary. Jika n = 2, pohonnya disebut pohon biner (binary tree) (Adiwijaya, 2014).

2.5.3 Pohon Keputusan (Decision Tree)

Pohon keputusan adalah model prediksi menggunakan struktur pohon atau struktur berhirarki. Decision tree merupakan metode klasifikasi yang paling popular digunakan. Selain karena pembangunannya relatif cepat, hasil dari model yang dibangun mudah untuk dipahami. Pada decision tree terdapat 3 jenis node (Munir, 2009), yaitu :

a. Root Node, merupakan node paling atas, pada node ini tidak ada input dan bisa tidak mempunyai output atau mempunyai output lebih dari satu. b. Internal Node , merupakan node percabangan, pada node ini hanya

terdapat satu input dan mempunyai output minimal dua.

c. Leaf node atau terminal node , merupakan node akhir, pada node ini hanya terdapat satu input dan tidak mempunyai output.


(49)

2.6. Probabilitas

Bila suatu percobaan mempunyai N(S) hasil percobaan yang berbeda dan masing-masing mempunyai kemungkinan yang sama untuk terjadi, dan bila tepat n(A) diantara hasil percobaan itu menyusun kejadian A, maka peluang kejadian A adalah

Menurut Walpole dan Myers (1986) kaidah-kaidah probabilitas ada beberapa macam, antara lain :

1. Kaidah penjumlahan

a. Kaidah penjumlahan dua kejadian yang saling terpisah.

b. Kaidah penjumlahan dua kejadian yang tidak saling bebas.

c. Kaidah penjumlahan n buah kejadian yang saling terpisah. Bila 1, 2, ⋯ , kejadian-kejadian yang saling terpisah, maka

d. Bila A dan ′ adalah dua kejadian yang satu merupakan komplemen lainnya maka

2. Kaidah peluang bersyarat

Peluang bersyarat B, bila A diketahui dilambangkan dengan ( | ). didefinisikan sebagai


(50)

3. Kaidah Penggandaan

a. Kaidah penggandaan khusus

Bila kejadian A dan B saling bebas maka

b. Jika kejadian-kejadian 1, 2, 3, ⋯ , saling bebas, maka

4. Kaidah Bayes

Jika kejadian-kejadian 1, 2, ⋯ , merupakan partisi dari ruang sampel

S dengan ( ) ≠ 0 untuk = 1, 2, ⋯ , maka untuk sembarang kejadian A yang bersifat ( ) ≠ 0 maka untuk � = 1, 2, ⋯ ,

2.7. Algoritma CART

Algoritma CART termasuk dalam anggota analisis klasifikasi yang disebut decision trees karena proses analisis dari CART digambarkan dalam bentuk atau struktur yang menyerupai sebuah pohon, lebih tepatnya pohon klasifikasi yang berbentuk biner. Biner di sini berarti bahwa setiap pemecahan parent node menghasilkan 2 child nodes. Proses pemecahan node didasarkan pada Indeks Gini (indeks keragaman), yaitu sebuah formula yang menghitung probablitas bahwa sebuah objek adalah anggota kelas j yang berada dalam node t (Damayanti, 2011).


(51)

2.7.1. Partisi Berulang Biner (Binary Recursive Partitioning)

Teknik atau proses kerja dari CART dalam membuat sebuah pohon klasifikasi dikenal dengan istilah Binary Recursive Partitioning. Proses disebut binary karena setiap parent node akan selalu mengalami pemecahan ke dalam tepat dua child node. Sedangkan recursive berarti bahwa proses pemecahan tersebut akan diulang kembali pada setiap child nodes hasil pemecahan terdahulu, sehingga child nodes tersebut sekarang menjadi parent nodes. Proses pemecahan ini akan terus dilakukan sampai tidak ada kesempatan lagi untuk melakukan pemecahan berikutnya. Dan istilah partitioning mengartikan bahwa learning sample yang dimiliki dipecah ke dalam bagian-bagian atau partisi-partisi yang lebih kecil (Damayanti, 2011).

Kriteria pemecahan didasarkan pada nilai-nilai dari variabel independen yang dimiliki. Misalkan dimiliki variabel dependen yang bertipe kategorik dan variabel-variabel independen 1, 2, ⋯ , � . Proses binary recursive partitioning

bisa diilustrasikan sebagai proses pembagian dari ruang berdimensi � dari variabel-variabel independen ke dalam partisi-partisi yang berbentuk persegi panjang dan tidak saling bertumpang tindih. Idenya adalah membagi ruang berdimensi � dari variabel-variabel independen tadi ke dalam beberapa partisi yang mana masing-masing partisi berisi objek-objek yang homogen atau seragam. Homogen di sini maksudnya adalah objek-objek tersebut merupakan anggota satu kelas yang sama. Walaupun pada kenyataannya keadaan seperti ini tidaklah mutlak diperoleh. Proses splitting akan berlanjut sampai didapatkan pohon


(52)

klasifikasi yang paling besar atau maksimal (proses splitting tidak bisa dilakukan lagi) (Damayanti, 2011).

2.7.2. Langkah Kerja CART

Menurut Lewis (2000) pada dasarnya dalam membuat sebuah pohon klasifikasi, CART bekerja dalam empat langkah utama. Langkah pertama adalah tree building process yaitu proses pembentukan dan pembuatan pohon klasifikasi. Terdiri dari proses splitting nodes yaitu proses pemecahan parent nodes menjadi dua buah child node melalui aturan pemecahan tertentu dan dilakukan secara berulang-ulang serta proses pelabelan kelas yaitu proses mengidentifikasi node-node yang terbentuk pada suatu kelas tertentu melalui aturan pengidentifikasian. Langkah kedua adalah proses penghentian pembuatan atau pembentukan pohon klasifikasi (stopping the trees building process). Pada tahap ini pohon terakhir atau maximal tree (��� ) telah terbentuk. Langkah ketiga adalah pruning yaitu proses pemangkasan atau pemotongan ��� menjadi pohon yang lebih kecil (T). Sehingga proses tersebut menghasilkan optimal tree atau pohon klasifikasi yang optimal.

a. Proses Pemecahan Node

Proses pemecahan pada masing-masing parent node didasarkan pada goodness of split criterion (kriteria pemecahan terbaik). Kriteria pemecahan terbaik ini dibentuk berdasarkan fungsi impurity (fungsi keragaman). Fungsi impurity adalah sebuah fungsi � yang didefinisikan dengan ⋯ dengan ∑ , dimana


(53)

Impurity measure (ukuran impurity) dari beberapa node t sebagai berikut (Breiman, et al., 1993) :

� ⋯

maka Gini Diversity Index (Indeks Keragaman Gini) adalah :

Dalam sebuah node t, andaikan terdapat n kelas (1, 2 ⋯ , ). Untuk n = 1 dan i adalah kelas-kelas lainnya maka (2.1) dapat dituliskan sebagai berikut :

[ ⋯ ]

Karena ∑ , sehingga (2.2) menjadi

[ ⋯ ] ∑

[ ⋯ ]

[ ⋯ ]

Begitu pula untuk n = 2 dan i adalah kelas-kelas lainnya maka (2.1) dapat dituliskan :


(54)

Untuk j = 3 dan i adalah kelas-kelas lainnya maka (2.1) dapat dituliskan :

Sehingga untuk n kelas secara umum, didapatkan :

∑ ∑ ∑ ∑ ∑ ∑ ∑

Sehingga berdasarkan (2.1) Gini Diversity Index dapat dituliskan sebagai berikut (Breiman, et al., 1993) :

Jika sebuah split s dalam node t dibagi ke dalam dengan proporsi banyaknya objek yang masuk dalam adalah , dan dengan proporsi banyaknya objek yang masuk dalam � adalah � , maka didefinisikan decrease impurity (pengurangan keragaman) :

Nilai digunakan sebagai uji goodness of split criterion (kriteria uji pemecahan terbaik). Suatu split s akan digunakan untuk memecah node t menjadi dua buah node yaitu node � dan � jika s


(55)

��

Hal ini berarti splitting (pemecahan) dilakukan untuk membuat dua buah node baru yang keragamannya lebih kecil (homogen) apabila dibandingkan dengan node awalnya (parent node). Misalkan sebuah pohon klasifikasi telah terbentuk dan memiliki sekumpulan atau himpunan terminal nodes �̃ , didefinisikan impurity node I(t), dengan

Didefinisikan pula tree impurity (�) , dengan

� ∑

̃ ∑ ̃

sehingga didapatkan hasil sebagai berikut

b. Pelabelan Kelas

Pelabelan kelas adalah proses pengidentifikasian tiap nodes pada suatu kelas tertentu. Pelabelan kelas tidak hanya diberlakukan untuk terminal nodes saja, non-terminal nodes bahkan root node mengalami proses ini. Hal ini dikarenakan setiap non-terminal nodes memiliki kesempatan untuk menjadi terminal nodes. Sehingga proses pelabelan kelas akan terus dilakukan selama proses splitting masih berlanjut (Breiman, et al., 1993).

Misalkan sebuah pohon klasifikasi telah terbentuk dan memiliki terminal nodes �̃. Class assignment rule mengidentifikasikan sebuah kelas


(56)

pelabelan kelas sebagai berikut ; apabila �� maka

(Breiman et al, 1993). c. Proses Penghentian Pemecahan

Menurut Lewis (2000), proses splitting atau pembuatan pohon klasifikasi akan berhenti apabila sudah tidak dimungkinkan lagi dilakukan proses pemecahan. Proses pemecahan akan berhenti apabila hanya tersisa satu objek saja yang ada dalam node terakhir atau semua objek yang berada di dalam sebuah node merupakan anggota kelas yang sama (homogen). Kemudian bernilai 0 atau 1. � , dan resubstitution estimate �(�) untuk nilai misclassification sama dengan 0. Node-node terakhir atau yang tidak mengalami pemecahan lagi sebagai akibat dari kondisi di atas akan menjadi terminal nodes dan diidentifikasikan pada suatu kelas tertentu sesuai dengan class assignment rule yang telah dijelaskan sebelum ini. Pohon klasifikasi yang terbentuk sebagai hasil dari proses ini dinamakan “maximal tree” (��� ).

d. Proses Pemangkasan Pohon

Resubstitution estimate �( ) adalah probabilitas terjadinya misclassification yang dialami beberapa objek-objek tersebut pada node t tertentu. Proses splitting pada node t menyatakan �( ) yang kecil pada kedua node baru yang terbentuk. Hal ini dibuktikan melalui proposisi berikut (Breiman, et al, 1993); untuk setiap pemecahan node t menjadi � dan � berlaku � � � .


(57)

Pohon klasifikasi yang terbentuk dapat berukuran besar dan kompleks dalam mengambarkan struktur data. Sehingga perlu dilakukan suatu pemangkasan, yaitu suatu penilaian ukuran sebuah pohon tanpa mengorbankan kebaikan ketepatan melalui pengurangan simpul pohon sehingga dicapai penghematan gambaran. Pemangkasan dilakukan dengan memangkas bagian pohon yang kurang penting sehingga didapat pohon optimal (Breiman, et al., 1993).

Proses pemangkasan pohon klasifikasi dimulai dengan mengambil � yang merupakan right child node dan yang merupakan left child node dari ��� yang dihasilkan dari parent node t. Jika diperoleh dua child node dan parent node yang memenuhi persamaan � � � maka hild node � dan � dipangkas. Dimana � dan

�� . Hasilnya adalah pohon �1 yang memenuhi kriteria �(�1) =

�(��� ). Proses tersebut diulang sampai tidak ada lagi pemangkasan yang mungkin terjadi.

2.8. Logika Fuzzy

Logika fuzzy adalah multi-nilai logika yang diperkenalkan oleh Zadeh untuk berurusan dengan ide-ide jelas dan tegas. Ini telah digambarkan sebagai perpanjangan dengan logika Aristotelian dan Boolean konvensional karena berhubungan dengan "derajat kebenaran" agak dari nilai absolut dari "0 dan 1" atau "benar/salah". Logika fuzzy tidak seperti perangkat lunak komputer yang hanya memahami fungsi biner atau nilai konkret seperti 1.5, 2.8, dan lain-lain, melainkan mirip dengan pemikiran manusia dan interpretasi dan memberikan


(58)

makna pada ungkapan seperti "sering", "kecil" dan "tinggi". Logika fuzzy memperhitungkan bahwa dunia nyata yang kompleks dan ada ketidakpastian, semuanya tidak dapat memiliki nilai absolut dan mengikuti fungsi linear (Godil & Shamim, 2011)

Pada himpunan tegas setiap elemen dalam semestanya selalu ditentukan secara tegas apakah elemen itu merupakan anggota himpunan tersebut atau tidak. Tetapi dalam kenyataanya tidak semua himpunan terdefinisi secara tegas. Oleh karena itu perlu didefinisikan suatu himpunan Fuzzy yang bisa menyatakan kejadian tersebut. Himpunan Fuzzy memiliki dua atribut (Kusumadewi, 2002), yaitu :

a. Linguistik, yaitu penamaan suatu kelompok yang mewakili suatu keadaan atau kondisi tertentu dengan menggunakan bahasa alami, seperti: lambat, sedang, cepat.

b. Numeris, yaitu suatu nilai (angka) yang menunjukkan ukuran dari suatu variabel, seperti: 40, 50, 60, dan sebagainya.

Penerapan logika fuzzy dapat meningkatkan kinerja sistem kendali dengan menekan munculnya fungsi-fungsi liar pada keluaran yang disebabkan oleh fluktasi pada variabel masukan. Pendekatan logika fuzzy secara garis besar diimplementasikan dalam tiga tahapan yaitu :

1. Tahapan pengaburan (fuzzification) yakni pemetaan dari masukan tegas ke himpunan kabur.


(59)

3. Tahap penegasan (defuzzification), yakni transformasi keluaran dari nilai kabur ke nilai tegas.

2.8.1. Fungsi Keanggotaan

Fungsi keanggotaan (member function) adalah suatu kurva yang menunjukkan pemetaan titik-titik input data ke dalam nilai keanggotaannya (sering juga disebut dengan derajat keanggotaan) yang memiliki interval 0 sampai 1. Salah satu cara yang dapat digunakan untuk mendapatkan nilai keanggotaan adalah menggunakan pendekatan fungsi (Kusumadewi & Purnomo, 2010). Ada beberapa fungsi yang bisa digunakan. Di antaranya, yaitu:

a. Representasi Linear.

Pada representasi linear, pemetaan input ke derajat keanggotannya digambarkan sebagai suatu garis lurus. Bentuk ini paling sederhana dan menjadi pilihan yang baik untuk mendekati suatu konsep yang kurang jelas. Ada dua keadaan himpunan linear, yaitu :

 Representasi Linear Naik

Gambar 6. Representasi Linear Naik Fungsi keanggotaan sebagai berikut :

[ ] {


(60)

 Representasi Linear Turun

Gambar 7. Representasi Linear Turun Fungsi keanggotaan sebagai berikut :

[ ] {

b. Representasi Kurva Segitiga. Kurva Segitiga pada dasarnya merupakan gabungan antara dua garis (linear).

Gambar 8. Representasi Kurva Segitiga Dengan fungsi keanggotaan sebagai berikut :

[ ] {

� � �


(61)

c. Representasi Kurva Trapesium. Kurva Trapesium pada dasarnya seperti bentuk segitiga, hanya saja ada beberapa titik yang memiliki nilai keanggotaan 1.

Gambar 9. Representasi Kurva Trapesium Dengan fungsi keanggotaan sebagai berikut :

[ ] {

� � �

d. Representasi Kurva Bahu

Representasi fungsi keanggotaan fuzzy dengan menggunakan kurva bahu pada dasarnya adalah gabungan dari kurva segitiga dan kurva trapesium. Daerah yang terletak di tengah-tengah suatu variabel yang direpresentasikan dalam bentuk segitiga, pada sisi kanan dan kirinya akan naik dan turun. Tetapi terkadang pada salah sisi dari variabel fuzzy yang ditinjau ini terdapat nilai yang konstan.


(62)

Gambar 10. Representasi Kurva Bahu 2.8.2. Operator Dasar Fuzzy

Ada beberapa operasi yang didefinisikan secara khusus untuk mengkombinasi dan memodifikasi himpunan Fuzzy. Nilai keanggotaan sebagai hasil dari operasi dua himpunan sering dikenal dengan nama fire strength atau α– predikat. Ada tiga operator dasar yang diciptakan oleh Zadeh (Kusumadewi & Purnomo, 2010), yaitu:

a. Operator AND

Operator ini berhubungan dengan operasi interseksi pada himpunan. α– predikat sebagai hasil operasi dengan operator AND diperoleh dengan mengambil nilai keanggotaan terkecil antar elemen pada himpunan-himpunan yang bersangkutan.

[ ] [ ]

b. Operator NOT

Operasi komplemen pada himpunan Fuzzy adalah sebagai hasil operasi dengan operator NOT diperoleh dengan mengurangkan nilai keanggotaan elemen pada himpunan yang bersangkutan.


(63)

[ ]

c. Operator OR

Operator ini berhubungan dengan operasi union pada himpunan. α– predikat sebagai hasil operasi dengan operator OR diperoleh dengan mengambil nilai keanggotaan terbesar antar elemen pada himpunanhimpunan yang bersangkutan.

[ ] [ ]

2.8.3. Fungsi Implikasi

Tiap – tiap aturan (proposisi) pada basis pengetahuan Fuzzy akan berhubungan dengan suatu relasi Fuzzy. Bentuk umum dari aturan yang digunakan dalam fungsi implikasi adalah:

IF x is A THEN y is B

Proposisi yang mengikuti IF disebut sebagai anteseden, sedangkan proposisi yang mengikuti THEN disebut sebagai konsekuen. Secara umum, ada dua fungsi implikasi yang dapat digunakan, yaitu :

a. Min. Pengambilan keputusan dengan fungsi min, yaitu dengan cara mencari nilai minimum berdasarkan aturan ke-i dan dapat dinyatakan dengan :

b. Dot. Fungsi ini akan menskala output himpunan Fuzzy. 2.8. Fuzzy Inference System

Fuzzy Inferense System (FIS) atau Fuzzy Inference Engine adalah sistem yang dapat melakukan penalaran dengan prinsip serupa seperti manusia


(64)

melakukan penalaran dengan nalurinya (Alavi, et al., 2010). Langkah pertama dari FIS adalah menetapkan nilai keanggotaan untuk data input dan output (Alidoosti, et al., 2012).

Menurut Kusumadewi & Hartati (2010), sistem inferensi fuzzy merupakan suatu kerangka komputasi yang didasarkan pada teori himpunan fuzzy, aturan fuzzy yang berbentuk IF-THEN, dan penalaran fuzzy.

IF (x1 is A1) (x2 is A2) (x is A1) THEN y is B dengan adalah operator (misal : OR dan AND)

Sistem inferensi fuzzy didasarkan pada konsep penalaran monoton. Pada metode penalaran secara monoton, nilai crisp pada daerah konsekuen dapat diperoleh secara langsung berdasarkan fire strength pada antesedennya. Salah satu syarat yang harus dipenuhi pada metode penalaran ini adalah himpunan fuzzy pada konsekuennya harus bersifat monoton (baik monoton naik maupun monoton turun). Salah satu inferensi fuzzy adalah Fuzzy Logic Controller.

Fuzzy Logic Controller (FLC) adalah pengendali yang mengendalikan sebuah sistem atau proses dengan menggunakan logika fuzzy sebagai cara pengambilan keputusan. Secara garis besar, terdapat empat komponen utama penyusun FLC, yaitu fuzzification, basis aturan (rule base), modul pengambil keputusan (inference engine), dan modul defuzzifikasi.

2.9.1. Komposisi Aturan

Apabila sistem terdiri dari beberapa aturan, maka inferensi diperoleh dari kumpulan dan kolerasi antar aturan. Ada 3 metode yang digunakan dalam melakukan inferensi sistem fuzzy (Kusumadewi, 2002), yaitu :


(65)

a) Metode Max (Maximum). Pada metode ini, solusi himpunan fuzzy diperoleh dengan cara mengambil nilai maksimum aturan, kemudian menggunakannya untuk memodifikasi daerah fuzzy, dan mengaplikasikannya ke output dengan menggunakan operator OR (union). Jika semua proposisi telah dievaluasi, maka output akan berisi suatu himpunan fuzzy yang merefleksikan kontribusi dari tiap-tiap proposisi. Secara umum dapat dituliskan :

[ ] �� [ ] [ ]

dengan :

[ ] = nilai keanggotaan solusi fuzzy sampai aturan ke – i. [ ] = nilai keanggotaan konsekuen fuzzy aturan ke – i.

b) Metode Additive (Sum). Pada metode ini, solusi himpunan fuzzy diperoleh dengan cara melakukan boundedsum terhadap semua output daerah fuzzy. Secara umum dapat dituliskan :

[ ] � [ ] [ ]

dengan :

[ ] = nilai keanggotaan solusi fuzzy sampai aturan ke – i. [ ] = nilai keanggotaan konsekuen fuzzy aturan ke – i.

c) Metode OR (Probor). Pada metode ini, solusi himpunan fuzzy diperoleh dengan cara melakukan product terhadap semua output daerah fuzzy. Secara umum dituliskan :

[ ] [ ] [ ] [ ] [ ]


(66)

[ ] = nilai keanggotaan solusi fuzzy sampai aturan ke – i. [ ] = nilai keanggotaan konsekuen fuzzy aturan ke – i.

2.9.2. Metode Mamdani

Salah satu metode FLC yang dapat digunakan untuk pengambilan keputusan adalah metode Mamdani. Metode Mamdani sering juga dikenal dengan nama metode Max-Min. metode ini diperkenalkan oleh Ebrahim Mamdani pada tahun 1975 (Kusumadewi, 2002). Untuk medapatkan output diperlukan beberapa tahapan, antara lain:

a) Pembentukan himpunan fuzzy. Pada metode Mamdani, baik variabel input maupun variabel output dibagi menjadi satu atau lebih himpunan fuzzy. b) Aplikasi fungsi implikasi (aturan). Fungsi implikasi yang digunakan

adalah min.

c) Komposisi aturan. Metode yang digunakan dalam melakukan inferensi sistem fuzzy pada Mamdani adalah max.

2.9.3. Defuzzifikasi

Ada beberapa metode defuzzifikasi pada komposisi aturan Mamdani (Kusumadewi, 2002), antara lain:

a) Metode Centroid (Composite Moment). Pada metode centroid solusi crisp diperoleh dengan cara mengambil titik pusat daerah fuzzy. Secara umum dapat dituliskan:

∫ atau


(67)

b) Metode Bisektor. Pada metode bisektor solusi crisp diperoleh dengan cara mengambil nilai pada domain yang memiliki nilai keanggotaan separo dari jumlah total nilai keanggotaan pada daerah fuzzy. Dapat dituliskan :

zp sedemikian hingga ∫

c) Metode Mean of Maximum (MOM). Pada metode mean of maximum solusi crisp diperoleh dengan cara mengambil nilai rata-rata domain yang memiliki nilai keanggotaan maksimum.

d) Metode Largest of Maximum (LOM). Pada metode largest of maximumsolusi crisp diperoleh dengan cara mengambil nilai terbesar dari domain yang memiliki nilai keanggotaan maksimum.

e) Metode Smallest of Maximum (SOM). Pada metode smallest of maximumsolusi crisp diperoleh dengan cara mengambil nilai terkecil dari domain yang memiliki nilai keanggotaan maksimum.

2.10. Akurasi Klasifikasi

Keakuratan hasil klasifikasi dapat diukur dengan menggunakan confusion matrix. Confusion matrix adalah media yang berguna untuk menganalisis seberapa baik classifier dapat mengenali tupel dari kelas yang berbeda (Tan, Steinbach, & Kumar, 2005). Misalkan terdapat dua kelas, maka akan diistilahkan menjadi tupel positif dan tupel negatif. True positive mengacu pada tupel positif yang diberi label dengan tepat oleh classifier, sementara true negative adalah tupel negatif yang diberi label dengan tepat oleh classifier. False positive adalah tupel negatif yang diberi label dengan tidak tepat. Demikian pula, false negative adalah tupel


(68)

positif yang diberi label dengan tidak tepat. Istilah-istilah ini berguna ketika menganalisis kemampuan classifier dan diringkas dalam tabel berikut.

Tabel 1. Confusion Matrix

Observasi Prediksi

J1 J2

J1 truepositive falsepositive

J2 falsenegative truenegative

Misalkan terdapat confusion matrix 2×2 seperti pada tabel di atas, maka rumus yang akan digunakan untuk menghitung akurasi adalah sebagai berikut :

� �

� �

Rumus di atas dapat juga didefenisikan seperti pada rumus berikut :


(69)

1.1. Latar Belakang

Data mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basis data. Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basis data. Data mining juga merupakan proses semi otomatik yang memuat teknik statistika dan matematika di dalamnya. Teknik-teknik data mining yang populer ada tiga, yaitu association rules, classification dan clustering.

Klasifikasi (classification) merupakan pengelompokan secara sistematis pada suatu objek atau benda ke dalam golongan atau pola-pola tertentu berdasarkan kesamaan ciri. Teknik klasifikasi adalah pendekatan sistematis untuk membangun model klasifikasi dari basis data yang telah diinput. Contoh tekniknya adalah decision tree classification, rule-based classification, neural networks, support vector machines, dan naive Bayess classification. Metode klasifikasi dibedakan menjadi dua yaitu metode klasifikasi parametrik dan nonparametrik. Metode klasifikasi parametrik yang sering digunakan antara lain analisis regresi logistik, analisis diskriminan, dan analisis regresi probit. Metode klasifikasi parametrik umumnya terikat pada asumsi tertentu misalnya kenormalan data yang harus dipenuhi. Sedangkan metode klasifikasi nonparametrik tidak bergantung pada asumsi tertentu sehingga memberikan fleksibilitas yang lebih besar dalam menganalisis data tetapi tetap mempunyai tingkat akurasi yang tinggi


(70)

dan mudah dalam penggunaannya. Dalam proses klasifikasi, metode klasifikasi nonparametrik menggunakan setiap data sebagai dasar penunjukan kelas.

Pada perkembangan terbaru, teknik-teknik yang terdapat di dalam data mining mulai banyak digunakan. Khususnya teknik decision tree telah menjadi teknik yang populer karena pohon yang dihasilkan mudah diinterpretasikan dan divisualisasikan (Chye, 2004). Namun, permasalahan dalam mengklasifikasikan data adalah terjadinya salah klasifikasi, misalnya dalam pengelompokkan data berdasarkan karakteristiknya, terkandung unsur ketidakpastian data terkait dengan pemikiran dan persepsi manusia untuk membaginya.

Ide himpunan fuzzy (fuzzy set) di awali dari matematika dan teori sistem dari L.A Zadeh, pada tahun 1965. Himpunan fuzzy didasarkan pada gagasan untuk memperluas jangkauan fungsi karakteristik sehingga fungsi tersebut akan mencakup bilangan real pada interval [0,1]. Nilai keanggotaannya menunjukkan bahwa suatu item tidak hanya bernilai benar atau salah. Nilai 0 menunjukkan salah, nilai 1 menunjukkan benar, dan masih ada nilai-nilai yang terletak antara benar dan salah (Sudradjat, 2008). Metode logika fuzzy mempunyai tiga tahapan proses yaitu fuzzifikasi, inferensi dan defuzzifikasi. Dalam teori logika fuzzy sebuah nilai bisa bernilai benar dan salah secara bersamaan tapi berapa besar kebenaran dan kesalahan suatu nilai tergantung dari berapa besar bobot keanggotaan yang dimilikinya

Pada tahun 1992, Sanaa Elyassami telah melakukan penelitian dengan menginduksikan Fuzzy pada Iterative Dichotomiser 3 (ID3), hasil penelitiannya


(71)

menunjukkan bahwa penggunaan fuzzy pada algoritma tersebut mampu meningkatkan akurasi klasifikasi. Jay Fowdar, Zuhair Bandar, Keeley Crockett dari Departement of Computing and Mathematics Manchester Metropolitan University melakukan penelitian yang berjudul Inducing Fuzzy Decision Trees in Non-Deterministic Domains using CHAID (2002), penelitian ini memperkenalkan bahwa fuzzy dapat diinduksikan ke dalam analisis decision tree. Algoritma induksi fuzzy dapat digunakan untuk melunakkan (soften) batasan keputusan yang tajam (sharp) pada algoritma pohon keputusan (decision tree) tradisional. Muhammad Muhajir (2014) juga telah melakukan penelitian menggunakan fuzzy CHAID, yang memperlihatkan bahwa CHAID yang telah diinduksikan dengan fuzzy memiliki tingkat akurasi yang lebih baik daripada CHAID itu sendiri.

Ada beberapa algoritma decision tree yang termasuk dalam metode klasifikasi nonparametrik selain ID3 dan CHAID, yaitu CART, QUEST, CRUISE dan GUIDE yang dapat digunakan untuk membangun model pohon. Semua algoritma tersebut menghasilkan model pohon yang berbeda untuk basis data yang sama. CART (Classification and Regression Trees) adalah metode yang dikembangkan oleh Leo Breiman, Jerome H. Friedman, Richard A. Olshen dan Charles J. Stone sekitar tahun 1980-an. CART dapat menyeleksi variabel-variabel dan interaksi-interaksi variabel yang penting dalam menentukan variabel dependennya, sehingga menghasilkan suatu kelompok data yang akurat sebagai karakteristik kelompok tersebut. CART menghasilkan pohon biner, yaitu pohon yang cabangnya hanya terbagi menjadi dua kelompok berdasarkan splitter terbaik dari variabel independennya.


(72)

Berdasarkan uraian di atas, peneliti tertarik melakukan penelitian dan selanjutnya melihat hasil akurasi induksi Fuzzy pada Algoritma CART. Sehingga penelitian ini penulis beri judul “Studi Algoritma CART dengan Induksi Fuzzy dalam Mengklasifikasikan Data”.

1.2. Rumusan Masalah

Perumusan masalah dalam penelitian ini adalah bagaimana hasil akurasi pada Algoritma CART yang telah menggunakan induksi Fuzzy dalam mengklasifikasikan data.

1.3. Batasan Masalah

Penelitian ini dibatasi pada fuzzy yang diinduksikan ke dalam CART merupakan Fuzzy Metode Mamdani.

1.4. Tujuan Penelitian

Tujuan dari penelitian ini adalah untuk mengetahui hasil akurasi dari Algoritma CART yang telah menggunakan induksi Fuzzy dalam mengurangi ketajaman perbedaan antar variabelnya.

1.5. Kontribusi Penelitian

Hasil penelitian ini diharapkan dapat memberikan manfaat, yaitu:

a. Dapat menambah wawasan peneliti dan pembaca tentang Algoritma CART. b. Dapat menambah wawasan peneliti dan pembaca tentang induksi Fuzzy pada

Algoritma CART.

c. Dapat menambah wawasan peneliti dan pembaca sekalian dalam teknik-teknik klasifikasi data.


(73)

d. Dapat menambah referensi bagi pembaca dalam penelitian sejenis di masa yang akan datang.

1.6. Tinjauan Pustaka

CART (Classification and Regression Trees) adalah salah satu metode atau algoritma dari salah satu teknik eksplorasi data decision tree. Metode ini dikembangkan oleh Leo Breiman, Jerome H. Friedman, Richard A. Olshen dan Charles J. Stone sekitar tahun 1980-an. CART merupakan metodologi statistik non-parametrik yang dikembangkan untuk topik analisis klasifikasi, baik untuk variabel respon kategorik maupun kontinu. CART menghasilkan suatu pohon klasifikasi jika variabel responnya kategorik, dan menghasilkan pohon regresi jika variabel responnya kontinu.

Menurut Ari Wibowo (2013), langkah-langkah penerapan metode CART terdiri atas :

a. Pembentukan pohon klasifikasi, yaitu pemilihan pemilah (classifier), penentuan simpul terminal, dan penandaan label kelas.

b. Pemangkasan pohon klasifikasi, yaitu dengan jalan memangkas bagian tree yang kurang penting sehingga didapatkan pohon optimal.

c. Penentuan pohon klasifikasi optimal.

Langkah-langkah pembentukan pohon klasifikasi pada CART didasarkan pada indeks Gini, dengan perhitungan sebagai berikut :

dimana : i(t) = Indeks Gini


(74)

Logika fuzzy adalah bagian atau salah satu metode dalam kecerdasan buatan (Artificial Intelligence). Dalam logika konvensional nilai kebenaran mempunyai kondisi yang pasti yaitu benar atau salah (true or false), dengan tidak ada kondisi di antara. Prinsip ini dikemukakan oleh Aristoteles sekitar 2000 tahun yang lalu sebagai hukum Excluded Middle dan hukum ini telah mendominasi pemikiran logika sampai saat ini (Zhang, 2009).

Proses fuzzy logic melibatkan fungsi keanggotaan, operator logika fuzzy, dan aturan jika-maka (if-then rule). Dalam membangun sistem yang berbasis pada aturan fuzzy maka akan digunakan variabel linguistik. Variabel linguistik adalah suatu interval numerik dan mempunyai nilai-nilai linguistik, yang semantiknya didefinisikan oleh fungsi keanggotaannya (Slamet Riyadhi, 2014).

Metode Mamdani sering juga dikenal dengan nama Metode Max-Min. Metode ini diperkenalkan oleh Ebrahim Mamdani pada tahun 1975. Untuk mendapatkan output, diperlukan 4 tahapan yaitu sebagai berikut (Sri Kusumadewi, 2010) :

a. Pembentukan himpunan fuzzy. Variabel input maupun variabel output dibagi menjadi satu atau lebih himpunan fuzzy.

b. Aplikasi fungsi implikasi (aturan). Fungsi implikasi yang digunakan adalah min.

c. Komposisi aturan. Metode yang digunakan dalam melakukan inferensi sistem fuzzy pada penelitian ini, yaitu max.

d. Defuzzifikasi. Metode defuzzifikasi yang digunakan dalam penelitian ini adalah metode Centroid.


(1)

vii

DAFTAR ISI

Halaman

PERSETUJUAN ... ii

PERNYATAAN ... iii

PENGHARGAAN ... iv

ABSTRAK ... v

ABSTRACT ... vi

DAFTAR ISI ... vii

DAFTAR TABEL ... x

DAFTAR GAMBAR ... xi

DAFTAR LAMPIRAN ... xii

BAB I PENDAHULUAN 1.1 Latar Belakang ... 1

1.2 Rumusan Masalah ... 4

1.3 Batasan Masalah ... 4

1.4 Tujuan Penelitian... 4

1.5 Kontribusi Penelitian ... 4

1.6 Tinjauan Pustaka ... 5

1.7 Metodologi Penelitian ... 7

1.7.1 Jenis dan Data Penelitian ... 7

1.7.2 Teknik Penelitian ... 7

BAB II LANDASAN TEORI 2.1 Data ... 9


(2)

2.2 Data Mining... 13

2.3 Klasifikasi Data ... 14

2.4 Teori Graf ... 15

2.5 Struktur Pohon... 16

2.5.1 Pohon Berakar... 17

2.5.2 Terminologi Pohon Berakar... 18

2.5.3 Pohon Keputusan (Decision Tree) ... 20

2.6 Probabilitas ... 21

2.7 Algoritma CART ... 22

2.7.1 Partisi Berulang Biner (Binary Recursive Partitioning) ... 23

2.7.2 Langkah Kerja CART ... 24

2.8 Logika Fuzzy ... 29

2.8.1 Fungsi Keanggotaan ... 31

2.8.2 Operator Dasar Fuzzy ... 34

2.8.3 Fungsi Implikasi ... 35

2.9 Fuzzy Inference System ... 36

2.9.1 Komposisi Aturan ... 37

2.9.2 Metode Mamdani ... 38

2.9.3 Defuzzifikasi ... 38

2.10 Akurasi Klasifikasi ... 39

BAB III HASIL DAN PEMBAHASAN 3.1 Fuzzy CART ... 41


(3)

ix

3.3 Pembahasan ... 62 BAB IV PENUTUP

4.1 Kesimpulan... 65 4.2 Saran ... 65 DAFTAR PUSTAKA


(4)

DAFTAR TABEL

Tabel Halaman

1. Confusion Matrix ... 40

2. Variabel Kategorik Pasien Kanker ... 44

3. Kombinasi Kategori Usia Pertama ... 46

4. Kombinasi Kategori Usia Kedua ... 46

5. Kombinasi Kategori Tsize Pertama ... 47

6. Decrease Impurity Variabel Data Pasien Kanker ... 47

7. Proses Penghentian Pemecahan Node ... 50

8. Variabel dalam Induksi Fuzzy Pasien Kanker ... 55

9. Prediksi Indikator Sensor berdasarkan FCART ... 62


(5)

xi

DAFTAR GAMBAR

Gambar Halaman

1. Pohon Berakar ... 19

2. Terminologi Pohon Berakar ... 20

3. Subtree Pohon Berakar ... 20

4. Level dalam Pohon Berakar ... 21

5. Struktur Decision Tree... 23

6. Representasi Kurva Naik ... 31

7. Representasi Kurva Turun ... 32

8. Representasi Kurva Segitiga ... 32

9. Representasi Kurva Trapesium ... 33

10. Representasi Kurva Bahu ... 34

11. Pemecahan Root Node ... 49

12. Proses Pelabelan Node ... 50

13. Node 13 dan Kedua Child Node ... 51

14. Pohon Klasifikasi CART ... 52

15. Fungsi Keanggotaan Variabel Usia Pasien ... 55

16. Fungsi Keanggotaan Variabel Progesteron ... 56

17. Fungsi Keanggotaan Variabel Sensor... 57

18.Fungsi Keanggotaan Data Testing ... 57

19.Aplikasi Fungsi Implikasi ... 59


(6)

DAFTAR LAMPIRAN

Lampiran

1. Tabulasi Silang Variabel Independen dan Dependen 2. Pohon Klasifikasi Maksimal Pasien Kanker

3. Pohon Klasifikasi Maksimal dengan Label 4. Output CART dari SPSS Data Pasien Kanker

5. Output MATLAB Fungsi Keanggotaan