39
b Metode Bisektor. Pada metode bisektor solusi crisp diperoleh dengan cara
mengambil nilai pada domain yang memiliki nilai keanggotaan separo dari jumlah total nilai keanggotaan pada daerah fuzzy. Dapat dituliskan :
z
p
sedemikian hingga ∫
∫ c
Metode Mean of Maximum MOM. Pada metode mean of maximum solusi crisp diperoleh dengan cara mengambil nilai rata-rata domain yang
memiliki nilai keanggotaan maksimum. d
Metode Largest of Maximum LOM. Pada metode largest of maximumsolusi crisp diperoleh dengan cara mengambil nilai terbesar dari
domain yang memiliki nilai keanggotaan maksimum. e
Metode Smallest of Maximum SOM. Pada metode smallest of maximumsolusi crisp diperoleh dengan cara mengambil nilai terkecil dari
domain yang memiliki nilai keanggotaan maksimum.
2.10. Akurasi Klasifikasi
Keakuratan hasil klasifikasi dapat diukur dengan menggunakan confusion matrix. Confusion matrix adalah media yang berguna untuk menganalisis seberapa
baik classifier dapat mengenali tupel dari kelas yang berbeda Tan, Steinbach, Kumar, 2005. Misalkan terdapat dua kelas, maka akan diistilahkan menjadi tupel
positif dan tupel negatif. True positive mengacu pada tupel positif yang diberi label dengan tepat oleh classifier, sementara true negative adalah tupel negatif
yang diberi label dengan tepat oleh classifier. False positive adalah tupel negatif yang diberi label dengan tidak tepat. Demikian pula, false negative adalah tupel
Universitas Sumatera Utara
40
positif yang diberi label dengan tidak tepat. Istilah-istilah ini berguna ketika menganalisis kemampuan classifier dan diringkas dalam tabel berikut.
Tabel 1. Confusion Matrix Observasi
Prediksi J
1
J
2
J
1
true
positive
false
positive
J
2
false
negative
true
negative
Misalkan terdapat confusion matrix 2×2 seperti pada tabel di atas, maka rumus yang akan digunakan untuk menghitung akurasi adalah sebagai berikut :
� � �
� Rumus di atas dapat juga didefenisikan seperti pada rumus berikut :
� � ∑ � � � � � �� �� � ��
∑ � � � �
Universitas Sumatera Utara
BAB I PENDAHULUAN
1.1. Latar Belakang
Data mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basis
data. Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basis
data. Data mining juga merupakan proses semi otomatik yang memuat teknik statistika dan matematika di dalamnya. Teknik-teknik data mining yang populer
ada tiga, yaitu association rules, classification dan clustering. Klasifikasi classification merupakan pengelompokan secara sistematis
pada suatu objek atau benda ke dalam golongan atau pola-pola tertentu berdasarkan kesamaan ciri. Teknik klasifikasi adalah pendekatan sistematis untuk
membangun model klasifikasi dari basis data yang telah diinput. Contoh tekniknya adalah decision tree classification, rule-based classification, neural
networks, support vector machines, dan naive Bayess classification. Metode klasifikasi dibedakan menjadi dua yaitu metode klasifikasi parametrik dan
nonparametrik. Metode klasifikasi parametrik yang sering digunakan antara lain analisis regresi logistik, analisis diskriminan, dan analisis regresi probit. Metode
klasifikasi parametrik umumnya terikat pada asumsi tertentu misalnya kenormalan data yang harus dipenuhi. Sedangkan metode klasifikasi nonparametrik tidak
bergantung pada asumsi tertentu sehingga memberikan fleksibilitas yang lebih besar dalam menganalisis data tetapi tetap mempunyai tingkat akurasi yang tinggi
Universitas Sumatera Utara
2
dan mudah dalam penggunaannya. Dalam proses klasifikasi, metode klasifikasi nonparametrik menggunakan setiap data sebagai dasar penunjukan
kelas. Pada perkembangan terbaru, teknik-teknik yang terdapat di dalam data
mining mulai banyak digunakan. Khususnya teknik decision tree telah menjadi teknik yang populer karena pohon yang dihasilkan mudah diinterpretasikan dan
divisualisasikan Chye, 2004. Namun, permasalahan dalam mengklasifikasikan data adalah terjadinya salah klasifikasi, misalnya dalam pengelompokkan data
berdasarkan karakteristiknya, terkandung unsur ketidakpastian data terkait dengan pemikiran dan persepsi manusia untuk membaginya.
Ide himpunan fuzzy fuzzy set di awali dari matematika dan teori sistem dari L.A Zadeh, pada tahun 1965. Himpunan fuzzy didasarkan pada gagasan
untuk memperluas jangkauan fungsi karakteristik sehingga fungsi tersebut akan mencakup bilangan real pada interval [0,1]. Nilai keanggotaannya menunjukkan
bahwa suatu item tidak hanya bernilai benar atau salah. Nilai 0 menunjukkan salah, nilai 1 menunjukkan benar, dan masih ada nilai-nilai yang terletak antara
benar dan salah Sudradjat, 2008. Metode logika fuzzy mempunyai tiga tahapan proses yaitu fuzzifikasi, inferensi dan defuzzifikasi. Dalam teori logika fuzzy
sebuah nilai bisa bernilai benar dan salah secara bersamaan tapi berapa besar kebenaran dan kesalahan suatu nilai tergantung dari berapa besar bobot
keanggotaan yang dimilikinya Pada tahun 1992, Sanaa Elyassami telah melakukan penelitian dengan
menginduksikan Fuzzy pada Iterative Dichotomiser 3 ID3, hasil penelitiannya
Universitas Sumatera Utara
3
menunjukkan bahwa penggunaan fuzzy pada algoritma tersebut mampu meningkatkan akurasi klasifikasi. Jay Fowdar, Zuhair Bandar, Keeley Crockett
dari Departement of Computing and Mathematics Manchester Metropolitan University melakukan penelitian yang berjudul Inducing Fuzzy Decision Trees in
Non-Deterministic Domains using CHAID 2002, penelitian ini memperkenalkan bahwa fuzzy dapat diinduksikan ke dalam analisis decision tree. Algoritma
induksi fuzzy dapat digunakan untuk melunakkan soften batasan keputusan yang tajam sharp pada algoritma pohon keputusan decision tree tradisional.
Muhammad Muhajir 2014 juga telah melakukan penelitian menggunakan fuzzy CHAID, yang memperlihatkan bahwa CHAID yang telah diinduksikan dengan
fuzzy memiliki tingkat akurasi yang lebih baik daripada CHAID itu sendiri. Ada beberapa algoritma decision tree yang termasuk dalam metode
klasifikasi nonparametrik selain ID3 dan CHAID, yaitu CART, QUEST, CRUISE dan GUIDE yang dapat digunakan untuk membangun model pohon. Semua
algoritma tersebut menghasilkan model pohon yang berbeda untuk basis data yang sama. CART Classification and Regression Trees adalah metode yang
dikembangkan oleh Leo Breiman, Jerome H. Friedman, Richard A. Olshen dan Charles J. Stone sekitar tahun 1980-an. CART dapat menyeleksi variabel-variabel
dan interaksi-interaksi variabel yang penting dalam menentukan variabel dependennya, sehingga menghasilkan suatu kelompok data yang akurat sebagai
karakteristik kelompok tersebut. CART menghasilkan pohon biner, yaitu pohon yang cabangnya hanya terbagi menjadi dua kelompok berdasarkan splitter terbaik
dari variabel independennya.
Universitas Sumatera Utara
4
Berdasarkan uraian di atas, peneliti tertarik melakukan penelitian dan selanjutnya melihat hasil akurasi induksi Fuzzy pada Algoritma CART. Sehingga
penelitian ini penulis beri judul “Studi Algoritma CART dengan Induksi Fuzzy dalam Mengklasifikasikan Data”.
1.2. Rumusan Masalah