Studi Algoritma CART dengan Induksi Fuzzy dalam Mengklasifikasikan Data

BAB I
PENDAHULUAN

1.1. Latar Belakang
Data mining adalah serangkaian proses untuk menggali nilai tambah
berupa informasi yang selama ini tidak diketahui secara manual dari suatu basis
data. Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan
mengenali pola yang penting atau menarik dari data yang terdapat dalam basis
data. Data mining juga merupakan proses semi otomatik yang memuat teknik
statistika dan matematika di dalamnya. Teknik-teknik data mining yang populer
ada tiga, yaitu association rules, classification dan clustering.
Klasifikasi (classification) merupakan pengelompokan secara sistematis
pada suatu objek atau benda ke dalam golongan atau pola-pola tertentu
berdasarkan kesamaan ciri. Teknik klasifikasi adalah pendekatan sistematis untuk
membangun model klasifikasi dari basis data yang telah diinput. Contoh
tekniknya adalah decision tree classification, rule-based classification, neural
networks, support vector machines, dan naive Bayess classification. Metode
klasifikasi dibedakan menjadi dua yaitu metode klasifikasi parametrik dan
nonparametrik. Metode klasifikasi parametrik yang sering digunakan antara lain
analisis regresi logistik, analisis diskriminan, dan analisis regresi probit. Metode
klasifikasi parametrik umumnya terikat pada asumsi tertentu misalnya kenormalan

data yang harus dipenuhi. Sedangkan metode klasifikasi nonparametrik tidak
bergantung pada asumsi tertentu sehingga memberikan fleksibilitas yang lebih
besar dalam menganalisis data tetapi tetap mempunyai tingkat akurasi yang tinggi

Universitas Sumatera Utara

2

dan mudah dalam penggunaannya. Dalam proses klasifikasi, metode
klasifikasi nonparametrik menggunakan setiap data sebagai dasar penunjukan
kelas.
Pada perkembangan terbaru, teknik-teknik yang terdapat di dalam data
mining mulai banyak digunakan. Khususnya teknik decision tree telah menjadi
teknik yang populer karena pohon yang dihasilkan mudah diinterpretasikan dan
divisualisasikan (Chye, 2004). Namun, permasalahan dalam mengklasifikasikan
data adalah terjadinya salah klasifikasi, misalnya dalam pengelompokkan data
berdasarkan karakteristiknya, terkandung unsur ketidakpastian data terkait dengan
pemikiran dan persepsi manusia untuk membaginya.
Ide himpunan fuzzy (fuzzy set) di awali dari matematika dan teori sistem
dari L.A Zadeh, pada tahun 1965. Himpunan fuzzy didasarkan pada gagasan

untuk memperluas jangkauan fungsi karakteristik sehingga fungsi tersebut akan
mencakup bilangan real pada interval [0,1]. Nilai keanggotaannya menunjukkan
bahwa suatu item tidak hanya bernilai benar atau salah. Nilai 0 menunjukkan
salah, nilai 1 menunjukkan benar, dan masih ada nilai-nilai yang terletak antara
benar dan salah (Sudradjat, 2008). Metode logika fuzzy mempunyai tiga tahapan
proses yaitu fuzzifikasi, inferensi dan defuzzifikasi. Dalam teori logika fuzzy
sebuah nilai bisa bernilai benar dan salah secara bersamaan tapi berapa besar
kebenaran dan kesalahan suatu nilai tergantung dari berapa besar bobot
keanggotaan yang dimilikinya
Pada tahun 1992, Sanaa Elyassami telah melakukan penelitian dengan
menginduksikan Fuzzy pada Iterative Dichotomiser 3 (ID3), hasil penelitiannya

Universitas Sumatera Utara

3

menunjukkan bahwa penggunaan fuzzy pada algoritma tersebut mampu
meningkatkan akurasi klasifikasi. Jay Fowdar, Zuhair Bandar, Keeley Crockett
dari Departement of Computing and Mathematics Manchester Metropolitan
University melakukan penelitian yang berjudul Inducing Fuzzy Decision Trees in

Non-Deterministic Domains using CHAID (2002), penelitian ini memperkenalkan
bahwa fuzzy dapat diinduksikan ke dalam analisis decision tree. Algoritma
induksi fuzzy dapat digunakan untuk melunakkan (soften) batasan keputusan yang
tajam (sharp) pada algoritma pohon keputusan (decision tree) tradisional.
Muhammad Muhajir (2014) juga telah melakukan penelitian menggunakan fuzzy
CHAID, yang memperlihatkan bahwa CHAID yang telah diinduksikan dengan
fuzzy memiliki tingkat akurasi yang lebih baik daripada CHAID itu sendiri.
Ada beberapa algoritma decision tree yang termasuk dalam metode
klasifikasi nonparametrik selain ID3 dan CHAID, yaitu CART, QUEST, CRUISE
dan GUIDE yang dapat digunakan untuk membangun model pohon. Semua
algoritma tersebut menghasilkan model pohon yang berbeda untuk basis data yang
sama. CART (Classification and Regression Trees) adalah metode yang
dikembangkan oleh Leo Breiman, Jerome H. Friedman, Richard A. Olshen dan
Charles J. Stone sekitar tahun 1980-an. CART dapat menyeleksi variabel-variabel
dan interaksi-interaksi variabel yang penting dalam menentukan variabel
dependennya, sehingga menghasilkan suatu kelompok data yang akurat sebagai
karakteristik kelompok tersebut. CART menghasilkan pohon biner, yaitu pohon
yang cabangnya hanya terbagi menjadi dua kelompok berdasarkan splitter terbaik
dari variabel independennya.


Universitas Sumatera Utara

4

Berdasarkan uraian di atas, peneliti tertarik melakukan penelitian dan
selanjutnya melihat hasil akurasi induksi Fuzzy pada Algoritma CART. Sehingga
penelitian ini penulis beri judul “Studi Algoritma CART dengan Induksi Fuzzy
dalam Mengklasifikasikan Data”.
1.2. Rumusan Masalah
Perumusan masalah dalam penelitian ini adalah bagaimana hasil akurasi
pada Algoritma CART yang telah menggunakan induksi Fuzzy dalam
mengklasifikasikan data.
1.3. Batasan Masalah
Penelitian ini dibatasi pada fuzzy yang diinduksikan ke dalam CART
merupakan Fuzzy Metode Mamdani.
1.4. Tujuan Penelitian
Tujuan dari penelitian ini adalah untuk mengetahui hasil akurasi dari
Algoritma CART yang telah menggunakan induksi Fuzzy dalam mengurangi
ketajaman perbedaan antar variabelnya.
1.5. Kontribusi Penelitian

Hasil penelitian ini diharapkan dapat memberikan manfaat, yaitu:
a.

Dapat menambah wawasan peneliti dan pembaca tentang Algoritma CART.

b.

Dapat menambah wawasan peneliti dan pembaca tentang induksi Fuzzy pada
Algoritma CART.

c.

Dapat menambah wawasan peneliti dan pembaca sekalian dalam teknikteknik klasifikasi data.

Universitas Sumatera Utara

5

d.


Dapat menambah referensi bagi pembaca dalam penelitian sejenis di masa
yang akan datang.

1.6. Tinjauan Pustaka
CART (Classification and Regression Trees) adalah salah satu metode
atau algoritma dari salah satu teknik eksplorasi data decision tree. Metode ini
dikembangkan oleh Leo Breiman, Jerome H. Friedman, Richard A. Olshen dan
Charles J. Stone sekitar tahun 1980-an. CART merupakan metodologi statistik
non-parametrik yang dikembangkan untuk topik analisis klasifikasi, baik untuk
variabel respon kategorik maupun kontinu. CART menghasilkan suatu pohon
klasifikasi jika variabel responnya kategorik, dan menghasilkan pohon regresi jika
variabel responnya kontinu.
Menurut Ari Wibowo (2013), langkah-langkah penerapan metode CART
terdiri atas :
a.

Pembentukan pohon klasifikasi, yaitu pemilihan pemilah (classifier),
penentuan simpul terminal, dan penandaan label kelas.

b.


Pemangkasan pohon klasifikasi, yaitu dengan jalan memangkas bagian tree
yang kurang penting sehingga didapatkan pohon optimal.

c.

Penentuan pohon klasifikasi optimal.
Langkah-langkah pembentukan pohon klasifikasi pada CART didasarkan

pada indeks Gini, dengan perhitungan sebagai berikut :

dimana :



i(t)

= Indeks Gini

P(j|t)


= Probabilitas atribut j pada node t

Universitas Sumatera Utara

6

Logika fuzzy adalah bagian atau salah satu metode dalam kecerdasan
buatan (Artificial Intelligence). Dalam logika konvensional nilai kebenaran
mempunyai kondisi yang pasti yaitu benar atau salah (true or false), dengan tidak
ada kondisi di antara. Prinsip ini dikemukakan oleh Aristoteles sekitar 2000 tahun
yang lalu sebagai hukum Excluded Middle dan hukum ini telah mendominasi
pemikiran logika sampai saat ini (Zhang, 2009).
Proses fuzzy logic melibatkan fungsi keanggotaan, operator logika fuzzy,
dan aturan jika-maka (if-then rule). Dalam membangun sistem yang berbasis pada
aturan fuzzy maka akan digunakan variabel linguistik. Variabel linguistik adalah
suatu interval numerik dan mempunyai nilai-nilai linguistik, yang semantiknya
didefinisikan oleh fungsi keanggotaannya (Slamet Riyadhi, 2014).
Metode Mamdani sering juga dikenal dengan nama Metode Max-Min.
Metode ini diperkenalkan oleh Ebrahim Mamdani pada tahun 1975. Untuk

mendapatkan output, diperlukan 4 tahapan yaitu sebagai berikut (Sri
Kusumadewi, 2010) :
a.

Pembentukan himpunan fuzzy. Variabel input maupun variabel output dibagi
menjadi satu atau lebih himpunan fuzzy.

b.

Aplikasi fungsi implikasi (aturan). Fungsi implikasi yang digunakan adalah
min.

c.

Komposisi aturan. Metode yang digunakan dalam melakukan inferensi sistem
fuzzy pada penelitian ini, yaitu max.

d.

Defuzzifikasi. Metode defuzzifikasi yang digunakan dalam penelitian ini

adalah metode Centroid.

Universitas Sumatera Utara

7

Keakurasian fuzzy inference system Mamdani dihitung menggunakan
persamaan berikut :
Akurasi=(Jumlah data sesuai)/(Jumlah data) x 100%
1.7. Metodologi Penelitian
1.7.1. Jenis dan Data Penelitian
Penelitian ini termasuk jenis studi literatur dengan mencari referensi teori
yang relevan dengan permasalahan yang ditemukan. Referensi teori yang
diperoleh dengan jalan penelitian studi literatur dijadikan sebagai fondasi dasar
dan alat utama dalam uji coba pengolahan data contoh. Sumber literatur diperoleh
dari buku, jurnal, buku dokumentasi, artikel internet dan pustaka yang terkait
dengan tema penelitian, yaitu analisis mengenai Fuzzy dan CART. Jenis data yang
digunakan sebagai contoh adalah data sekunder, yaitu data yang diperoleh dari
data pasien kanker Wisconsin University.
1.7.2. Teknik Penelitian

a.

Studi literatur, yaitu mencari dan menghimpun data-data atau sumber-sumber
informasi yang berhubungan dengan topik CART dan Fuzzy.

b.

Uji coba pengolahan data contoh dengan langkah-langkah berikut :
1) Editing, yaitu mengelompokkan variabel pada database tersebut menjadi
variabel kategorik;
2) Membagi data menjadi 2 bagian, yaitu 80% data learning dan 20% data
testing;
3) Melakukan Algoritma CART pada data learning;

Universitas Sumatera Utara

8

4) Menentukan rules untuk induksi Fuzzy sesuai dengan output algoritma
CART;
5) Menentukan variabel fuzzy;
6) Aplikasi fungsi implikasi;
7) Defuzzifikasi;
8) Uji Akurasi klasifikasi dengan data testing.
c.

Membuat kesimpulan berupa hasil analisis algoritma CART tanpa induksi
fuzzy dan hasil analisis algoritma CART dengan induksi fuzzy.

Universitas Sumatera Utara