Akurasi Klasifikasi Latar Belakang

39 b Metode Bisektor. Pada metode bisektor solusi crisp diperoleh dengan cara mengambil nilai pada domain yang memiliki nilai keanggotaan separo dari jumlah total nilai keanggotaan pada daerah fuzzy. Dapat dituliskan : z p sedemikian hingga ∫ ∫ c Metode Mean of Maximum MOM. Pada metode mean of maximum solusi crisp diperoleh dengan cara mengambil nilai rata-rata domain yang memiliki nilai keanggotaan maksimum. d Metode Largest of Maximum LOM. Pada metode largest of maximumsolusi crisp diperoleh dengan cara mengambil nilai terbesar dari domain yang memiliki nilai keanggotaan maksimum. e Metode Smallest of Maximum SOM. Pada metode smallest of maximumsolusi crisp diperoleh dengan cara mengambil nilai terkecil dari domain yang memiliki nilai keanggotaan maksimum.

2.10. Akurasi Klasifikasi

Keakuratan hasil klasifikasi dapat diukur dengan menggunakan confusion matrix. Confusion matrix adalah media yang berguna untuk menganalisis seberapa baik classifier dapat mengenali tupel dari kelas yang berbeda Tan, Steinbach, Kumar, 2005. Misalkan terdapat dua kelas, maka akan diistilahkan menjadi tupel positif dan tupel negatif. True positive mengacu pada tupel positif yang diberi label dengan tepat oleh classifier, sementara true negative adalah tupel negatif yang diberi label dengan tepat oleh classifier. False positive adalah tupel negatif yang diberi label dengan tidak tepat. Demikian pula, false negative adalah tupel Universitas Sumatera Utara 40 positif yang diberi label dengan tidak tepat. Istilah-istilah ini berguna ketika menganalisis kemampuan classifier dan diringkas dalam tabel berikut. Tabel 1. Confusion Matrix Observasi Prediksi J 1 J 2 J 1 true positive false positive J 2 false negative true negative Misalkan terdapat confusion matrix 2×2 seperti pada tabel di atas, maka rumus yang akan digunakan untuk menghitung akurasi adalah sebagai berikut : � � � � Rumus di atas dapat juga didefenisikan seperti pada rumus berikut : � � ∑ � � � � � �� �� � �� ∑ � � � � Universitas Sumatera Utara BAB I PENDAHULUAN

1.1. Latar Belakang

Data mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basis data. Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basis data. Data mining juga merupakan proses semi otomatik yang memuat teknik statistika dan matematika di dalamnya. Teknik-teknik data mining yang populer ada tiga, yaitu association rules, classification dan clustering. Klasifikasi classification merupakan pengelompokan secara sistematis pada suatu objek atau benda ke dalam golongan atau pola-pola tertentu berdasarkan kesamaan ciri. Teknik klasifikasi adalah pendekatan sistematis untuk membangun model klasifikasi dari basis data yang telah diinput. Contoh tekniknya adalah decision tree classification, rule-based classification, neural networks, support vector machines, dan naive Bayess classification. Metode klasifikasi dibedakan menjadi dua yaitu metode klasifikasi parametrik dan nonparametrik. Metode klasifikasi parametrik yang sering digunakan antara lain analisis regresi logistik, analisis diskriminan, dan analisis regresi probit. Metode klasifikasi parametrik umumnya terikat pada asumsi tertentu misalnya kenormalan data yang harus dipenuhi. Sedangkan metode klasifikasi nonparametrik tidak bergantung pada asumsi tertentu sehingga memberikan fleksibilitas yang lebih besar dalam menganalisis data tetapi tetap mempunyai tingkat akurasi yang tinggi Universitas Sumatera Utara 2 dan mudah dalam penggunaannya. Dalam proses klasifikasi, metode klasifikasi nonparametrik menggunakan setiap data sebagai dasar penunjukan kelas. Pada perkembangan terbaru, teknik-teknik yang terdapat di dalam data mining mulai banyak digunakan. Khususnya teknik decision tree telah menjadi teknik yang populer karena pohon yang dihasilkan mudah diinterpretasikan dan divisualisasikan Chye, 2004. Namun, permasalahan dalam mengklasifikasikan data adalah terjadinya salah klasifikasi, misalnya dalam pengelompokkan data berdasarkan karakteristiknya, terkandung unsur ketidakpastian data terkait dengan pemikiran dan persepsi manusia untuk membaginya. Ide himpunan fuzzy fuzzy set di awali dari matematika dan teori sistem dari L.A Zadeh, pada tahun 1965. Himpunan fuzzy didasarkan pada gagasan untuk memperluas jangkauan fungsi karakteristik sehingga fungsi tersebut akan mencakup bilangan real pada interval [0,1]. Nilai keanggotaannya menunjukkan bahwa suatu item tidak hanya bernilai benar atau salah. Nilai 0 menunjukkan salah, nilai 1 menunjukkan benar, dan masih ada nilai-nilai yang terletak antara benar dan salah Sudradjat, 2008. Metode logika fuzzy mempunyai tiga tahapan proses yaitu fuzzifikasi, inferensi dan defuzzifikasi. Dalam teori logika fuzzy sebuah nilai bisa bernilai benar dan salah secara bersamaan tapi berapa besar kebenaran dan kesalahan suatu nilai tergantung dari berapa besar bobot keanggotaan yang dimilikinya Pada tahun 1992, Sanaa Elyassami telah melakukan penelitian dengan menginduksikan Fuzzy pada Iterative Dichotomiser 3 ID3, hasil penelitiannya Universitas Sumatera Utara 3 menunjukkan bahwa penggunaan fuzzy pada algoritma tersebut mampu meningkatkan akurasi klasifikasi. Jay Fowdar, Zuhair Bandar, Keeley Crockett dari Departement of Computing and Mathematics Manchester Metropolitan University melakukan penelitian yang berjudul Inducing Fuzzy Decision Trees in Non-Deterministic Domains using CHAID 2002, penelitian ini memperkenalkan bahwa fuzzy dapat diinduksikan ke dalam analisis decision tree. Algoritma induksi fuzzy dapat digunakan untuk melunakkan soften batasan keputusan yang tajam sharp pada algoritma pohon keputusan decision tree tradisional. Muhammad Muhajir 2014 juga telah melakukan penelitian menggunakan fuzzy CHAID, yang memperlihatkan bahwa CHAID yang telah diinduksikan dengan fuzzy memiliki tingkat akurasi yang lebih baik daripada CHAID itu sendiri. Ada beberapa algoritma decision tree yang termasuk dalam metode klasifikasi nonparametrik selain ID3 dan CHAID, yaitu CART, QUEST, CRUISE dan GUIDE yang dapat digunakan untuk membangun model pohon. Semua algoritma tersebut menghasilkan model pohon yang berbeda untuk basis data yang sama. CART Classification and Regression Trees adalah metode yang dikembangkan oleh Leo Breiman, Jerome H. Friedman, Richard A. Olshen dan Charles J. Stone sekitar tahun 1980-an. CART dapat menyeleksi variabel-variabel dan interaksi-interaksi variabel yang penting dalam menentukan variabel dependennya, sehingga menghasilkan suatu kelompok data yang akurat sebagai karakteristik kelompok tersebut. CART menghasilkan pohon biner, yaitu pohon yang cabangnya hanya terbagi menjadi dua kelompok berdasarkan splitter terbaik dari variabel independennya. Universitas Sumatera Utara 4 Berdasarkan uraian di atas, peneliti tertarik melakukan penelitian dan selanjutnya melihat hasil akurasi induksi Fuzzy pada Algoritma CART. Sehingga penelitian ini penulis beri judul “Studi Algoritma CART dengan Induksi Fuzzy dalam Mengklasifikasikan Data”.

1.2. Rumusan Masalah