Perumusan Masalah Batasan Masalah Tujuan Penelitian Manfaat Penelitian MACHINE LEARNING SUPPORT VECTOR MACHINE SVM

ilmu seperti fisiologi, ilmu psikologi, kognitif dan musikologi. Penyajikan sebuah support vector regression SVR musik berdasarkan sistem pengenalan emosi Cao 2002 melakukan penelitian yang mengusulkan penggunaan SVM untuk peramalan time series. . Amershi dan Conati 2009 melakukan penelitian yang menyajikan suatu kerangka pemodelan pengguna berbasis data, untuk membangun model eksplorasi lingkungan belajar. Kim 2006 melakukan penelitian untuk memprediksi apakah seorang pelanggan yang diberikan mail atau katalog suatu produk akan menanggapi atau tidak, berdasarkan database informasi demografi pelanggan dan sejarah pembelian, menggunakan support vector regression.

1.3 Perumusan Masalah

Berdasarkan latar belakang diatas, maka rumusan masalah dalam penelitian ini adalah bagaimana perbandingan teknik Support Vector Regression dan decision tree C4.5 dalam data mining?

1.4 Batasan Masalah

Dalam penelitian ini, penulis membatasi masalah yaitu: 1. Penelitian ini hanya pada teknik data mining metode Support Vector Regression dan dibandingkan dengan metode klasifikasi decision tree algoritma C4.5 2. Jumlah penelitian yang akan dianalisis hanya ada sepuluh. 3. Analisis yang dilakukan hanya sebatas dalam penelitian yang telah dibuat sebelumnya.

1.5 Tujuan Penelitian

Tujuan yang ingin dicapai pada penulisan tesis ini adalah: 1. Membuat hasil perbandingan teknik SVR dan metode klasifikasi decision tree algoritma C4.5 dalam data mining yang telah dibuat peneliti sebelumnya. 2. Mengidentifikasi kelebihan dan kekurangan kedua teknik tersebut. Universitas Sumatera Utara

1.6 Manfaat Penelitian

Penelitian ini diharapkan dapat bermanfaat sebagai referensi atau masukan untuk metode Support Vector Regression dan teknik klasifikasi metode decision tree algoritma C4.5 dalam data mining. Universitas Sumatera Utara BAB II TINJAUAN TEORITIS

2.1 DATA MINING

Data mining terdiri dari berbagai metode. Berbagai metode mempunyai tujuan yang berbeda, masing-masing menawarkan metode yang memiliki kelebihan dan kekurangan. Namun, penambangan data metode yang umum digunakan untuk review ini adalah kategori klasifikasi sebagai teknik prediksi. Dalam data mining, klasifikasi adalah salah satu tugas yang paling penting. Tujuan klasifikasi adalah untuk membangun sebuah classifier yang didasarkan pada beberapa kasus dengan beberapa atribut untuk menggambarkan benda atau satu atribut untuk menggambarkan kelompok objek. Kemudian, classifier digunakan untuk memprediksi kelompok atribut kasus baru dari domain yang didasarkan pada nilai-nilai lain atribut. Metode yang umum digunakan untuk tugas-tugas klasifikasi data mining dapat diklasifikasikan menjadi kelompok sebagai berikut: - Decision Tree Han, 2001 - Support Vector Machine - Genetic Algorithm - Fuzzy Sets - Neural Network - Rough Sets Metode data mining diambil dari berbagai literatur, termasuk penambangan data dan pembelajaran mesin, psikometri dan bidang statistik, informasi visualisasi, dan pemodelan komputasi. Han dan Kamber 2001 mengkategorikan pekerjaan dalam data mining ke dalam kategori sebagai berikut: • Statistik dan visualisasi • P - enambangan web Klustering, klasifikasi, dan deteksi outlier Universitas Sumatera Utara - Penambangan aturan asosiai dan penambangan pola sekuensial - Penambangan teks Istilah Knowlegde Discovery Database KDD dan Data Mining sering digunakan secara bergantian. KDD adalah proses untuk mengubah data low-level menjadi pengetahuan tingkat tinggi. Oleh karena itu, KDD mengacu pada trivial ekstraksi informasi implisit, yang sebelumnya tidak dikenal dan berpotensi berguna dari data dalam database. Sedangkan penambangan data dan KDD sering diperlakukan sebagai kata-kata yang sama tetapi dalam data mining yang sebenarnya merupakan langkah penting dalam KDD proses . Gupta et al., 2011 Proses knowledge discovery dalam Database terdiri dari beberapa langkah terkemuka dari koleksi data mentah ke beberapa bentuk pengetahuan baru. Osmar, 2011 Proses iteratif terdiri dari langkah-langkah berikut 1 : Data cleaning pencucian data: juga dikenal sebagai pembersihan data itu adalah fase di mana kebisingan data dan data yang tidak relevan dikeluarkan dari koleksi 2 . Data integration integrasi data: pada tahap ini, sumber data yang sering heterogen, dapat dikombinasikan dalam sumber umum 3 . Data selection pemilihan data: pada langkah ini, data yang relevan untuk dianalisis dipilih untuk diambil dari koleksi data 4 . Data transformasi: juga dikenal sebagai konsolidasi data, itu adalah tahap di mana data yang dipilih diubah menjadi bentuk yang sesuai untuk prosedur pertambangan 5 . Data mining: itu adalah langkah penting di mana teknik pintar diterapkan untuk mengekstrak pola berpotensi berguna 6 . Evaluasi Pola: langkah ini, benar-benar pola yang menarik mewakili pengetahuan diidentifikasi berdasarkan pada langkah-langkah yang diberikan 7 . Representasi Pengetahuan: adalah fase terakhir di mana pengetahuan ditemukan adalah visual diwakili kepada pengguna. Dalam langkah ini teknik visualisasi yang digunakan untuk membantu pengguna memahami dan menafsirkan data hasil pertambangan . Universitas Sumatera Utara 2.2 METODE KLASIFIKASI Klasifikasi data yang paling umum diterapkan dalam teknik mining, yang mengolah satu set pra-diklasifikasikan contoh untuk mengembangkan model yang dapat mengklasifikasikan populasi pada umumnya. Penipuan deteksi dan creditrisk aplikasi sangat cocok untuk jenis analisis. Pendekatan ini sering menggunakan pohon keputusan atau algoritma klasifikasi berbasis jaringan saraf tiruan. Proses klasifikasi data melibatkan belajar dan klasifikasi. Dalam Pembelajaran data pelatihan dianalisis dengan algoritma klasifikasi. Dalam klasifikasi data uji digunakan untuk memperkirakan ketepatan aturan klasifikasi. Jika ketepatan akan diterima aturan dapat diterapkan pada tupel data baru. Untuk aplikasi deteksi penipuan, ini akan termasuk catatan lengkap dari kedua kegiatan penipuan dan berlaku ditentukan berdasarkan catatan-oleh-record. Algoritma classifier-pelatihan menggunakan contoh- contoh ini pra-diklasifikasikan untuk menentukan set parameter diperlukan untuk diskriminasi yang tepat. Algoritma ini kemudian encode parameter ini ke dalam model yang disebut classifier . Bharati, 2006 Jenis-jenis model klasifikasi: ฀ Classification by decision tree induction ฀ Bayesian Classification ฀ Neural Networks ฀ Support Vector Machines SVM ฀ Classification Based on Associations

2.2.1 Klasifikasi oleh Induksi

Induksi Pohon Keputusan pohon keputusan adalah pembelajaran pohon keputusan dari kelas tupel pelatihan berlabel. Sebuah pohon keputusan adalah diagram alir seperti struktur pohon, di mana setiap node internal nonleaf node menunjukkan tes pada atribut, setiap cabang merupakan hasil tes dan setiap node daun atau node terminal memegang label kelas. Simpul yang paling atas dalam pohon adalah node root Han, 2006. Universitas Sumatera Utara Gambar 2.1 Konsep pohon keputusan untuk membeli komputer Han, 2006 Sebuah jenis pohon keputusan ditunjukkan dalam gambar 2.1 yang merupakan konsep membeli komputer, yaitu, untuk memprediksi apakah semua pelanggan di toko elektronik cenderung untuk membeli komputer. Simpul dalam ditandai dengan empat persegi panjang dan node daun dinotasikan dengan oval. Beberapa algoritma pohon keputusan hanya menghasilkan pohon biner di mana setiap cabang simpul dalam untuk dua simpul lain dengan tepat sedangkan yang lain dapat menghasilkan pohon non biner.

2.3 MACHINE LEARNING

Machine learning adalah bagian dari kecerdasan buatan yang menjelaskan bagaimana membuat program atau mesin pembelajaran. Dalam Data Mining, machine learning sering digunakan untuk prediksi atau klasifikasi, dengan machine learning komputer membuat suatu prediksi dan kemudian pembelajaran Dunham, 2003. Age? Credit rating? student? yes no yes no yes youth senior Middle_age no yes fair excellent Universitas Sumatera Utara

2.4 SUPPORT VECTOR MACHINE SVM

Support Vector Machines SVM adalah satu kumpulan teknik klasifikasi dan regresi, yang merupakan pengembangan algoritma non-linear dan dikembangkan di Rusia pada tahun enam puluhan. Seperti yang telah diuraikan, SVM dapat digunakan baik untuk klasifikasi atau regresi, yang membatasi perhatian untuk sisa pekerjaan ini. Dalam berikut ini, ikhtisar singkat teori di balik menggunakan SVM untuk estimasi fungsi, memperkenalkan pada saat yang sama dan waktu yang paling relevan pengertian dan parameter, dengan khusus memperhatikan parameter yang dampaknya diselidiki di kemudian hari. Dalam arti, ikhtisar ini untuk memahami kinerja bagian evaluasi, tetapi untuk cakupan yang lebih menyeluruh dari SVM merujuk pada survei pembaca yang sangat baik. SVM Bermolen, 2008 adalah suatu algoritma yang mencoba menemukan pemisah linear hyper- plane antara titik data dari dua kelas dalam ruang multidimensi. SVM cocok untuk berurusan dengan interaksi antara fitur dan fitur berlebihan . Gupta et al., 2011

2.5 SUPPORT VECTOR REGRESSION SVR