ilmu seperti fisiologi, ilmu psikologi, kognitif dan musikologi. Penyajikan sebuah support vector regression SVR musik berdasarkan sistem pengenalan emosi
Cao 2002 melakukan penelitian yang mengusulkan penggunaan SVM untuk peramalan time series.
.
Amershi dan Conati 2009 melakukan penelitian yang menyajikan suatu kerangka pemodelan pengguna berbasis data, untuk membangun model eksplorasi
lingkungan belajar. Kim 2006 melakukan penelitian untuk memprediksi apakah seorang pelanggan
yang diberikan mail atau katalog suatu produk akan menanggapi atau tidak, berdasarkan database informasi demografi pelanggan dan sejarah pembelian, menggunakan support
vector regression.
1.3 Perumusan Masalah
Berdasarkan latar belakang diatas, maka rumusan masalah dalam penelitian ini adalah bagaimana perbandingan teknik Support Vector Regression dan decision tree C4.5
dalam data mining?
1.4 Batasan Masalah
Dalam penelitian ini, penulis membatasi masalah yaitu: 1.
Penelitian ini hanya pada teknik data mining metode Support Vector Regression dan dibandingkan dengan metode klasifikasi decision tree algoritma C4.5
2. Jumlah penelitian yang akan dianalisis hanya ada sepuluh.
3. Analisis yang dilakukan hanya sebatas dalam penelitian yang telah dibuat
sebelumnya.
1.5 Tujuan Penelitian
Tujuan yang ingin dicapai pada penulisan tesis ini adalah: 1.
Membuat hasil perbandingan teknik SVR dan metode klasifikasi decision tree algoritma C4.5 dalam data mining yang telah dibuat peneliti sebelumnya.
2. Mengidentifikasi kelebihan dan kekurangan kedua teknik tersebut.
Universitas Sumatera Utara
1.6 Manfaat Penelitian
Penelitian ini diharapkan dapat bermanfaat sebagai referensi atau masukan untuk metode Support Vector Regression dan teknik klasifikasi metode decision tree algoritma C4.5
dalam data mining.
Universitas Sumatera Utara
BAB II
TINJAUAN TEORITIS
2.1 DATA MINING
Data mining terdiri dari berbagai metode. Berbagai metode mempunyai tujuan yang berbeda, masing-masing menawarkan metode yang memiliki kelebihan dan kekurangan.
Namun, penambangan data metode yang umum digunakan untuk review ini adalah kategori klasifikasi sebagai teknik prediksi. Dalam data mining, klasifikasi adalah salah
satu tugas yang paling penting. Tujuan klasifikasi adalah untuk membangun sebuah classifier yang didasarkan pada beberapa kasus dengan beberapa atribut untuk
menggambarkan benda atau satu atribut untuk menggambarkan kelompok objek. Kemudian, classifier digunakan untuk memprediksi kelompok atribut kasus baru dari
domain yang didasarkan pada nilai-nilai lain atribut. Metode yang umum digunakan untuk tugas-tugas klasifikasi data mining dapat diklasifikasikan menjadi kelompok
sebagai berikut: -
Decision Tree Han, 2001
- Support Vector Machine
- Genetic Algorithm
- Fuzzy Sets
- Neural Network
- Rough Sets
Metode data
mining diambil
dari berbagai
literatur, termasuk
penambangan data dan pembelajaran mesin, psikometri dan bidang statistik, informasi visualisasi, dan pemodelan komputasi. Han dan Kamber 2001 mengkategorikan
pekerjaan dalam data mining ke dalam kategori sebagai berikut: • Statistik dan visualisasi
• P
- enambangan web
Klustering, klasifikasi, dan deteksi outlier
Universitas Sumatera Utara
- Penambangan aturan asosiai dan penambangan pola sekuensial - Penambangan teks
Istilah Knowlegde Discovery Database KDD dan Data Mining sering digunakan secara bergantian. KDD adalah proses untuk mengubah data low-level menjadi
pengetahuan tingkat tinggi. Oleh karena itu, KDD mengacu pada trivial ekstraksi informasi implisit, yang sebelumnya tidak dikenal dan berpotensi berguna dari
data dalam database. Sedangkan penambangan data dan KDD sering diperlakukan sebagai kata-kata yang sama tetapi dalam data mining yang sebenarnya merupakan
langkah penting dalam KDD proses . Gupta et al., 2011
Proses knowledge discovery dalam Database terdiri dari beberapa langkah terkemuka dari koleksi data mentah ke beberapa bentuk pengetahuan baru. Osmar, 2011
Proses iteratif terdiri dari langkah-langkah berikut 1
: Data cleaning pencucian data: juga dikenal sebagai pembersihan data itu adalah
fase di mana kebisingan data dan data yang tidak relevan dikeluarkan dari koleksi 2
. Data integration integrasi data: pada tahap ini, sumber data yang sering heterogen,
dapat dikombinasikan dalam sumber umum 3
. Data selection pemilihan data: pada langkah ini, data yang relevan untuk dianalisis
dipilih untuk diambil dari koleksi data 4
. Data transformasi: juga dikenal sebagai konsolidasi data, itu adalah tahap di mana
data yang dipilih diubah menjadi bentuk yang sesuai untuk prosedur pertambangan 5
. Data mining: itu adalah langkah penting di mana teknik pintar diterapkan untuk
mengekstrak pola berpotensi berguna 6
. Evaluasi Pola: langkah ini, benar-benar pola yang menarik mewakili pengetahuan
diidentifikasi berdasarkan pada langkah-langkah yang diberikan 7
. Representasi Pengetahuan: adalah fase terakhir di mana pengetahuan ditemukan
adalah visual diwakili kepada pengguna. Dalam langkah ini teknik visualisasi yang digunakan untuk membantu pengguna memahami dan menafsirkan data
hasil pertambangan .
Universitas Sumatera Utara
2.2 METODE KLASIFIKASI
Klasifikasi data yang paling umum diterapkan dalam teknik mining, yang mengolah satu set
pra-diklasifikasikan contoh
untuk mengembangkan
model yang
dapat mengklasifikasikan populasi pada umumnya. Penipuan deteksi dan creditrisk aplikasi
sangat cocok
untuk jenis
analisis. Pendekatan
ini sering
menggunakan pohon keputusan atau algoritma klasifikasi berbasis jaringan saraf tiruan. Proses
klasifikasi data melibatkan belajar dan klasifikasi. Dalam Pembelajaran data pelatihan dianalisis dengan algoritma klasifikasi. Dalam klasifikasi data uji digunakan untuk
memperkirakan ketepatan aturan klasifikasi. Jika ketepatan akan diterima aturan dapat diterapkan pada tupel data baru. Untuk aplikasi deteksi penipuan, ini akan
termasuk catatan lengkap dari kedua kegiatan penipuan dan berlaku ditentukan berdasarkan catatan-oleh-record. Algoritma classifier-pelatihan menggunakan contoh-
contoh ini pra-diklasifikasikan untuk menentukan set parameter diperlukan untuk diskriminasi yang tepat. Algoritma ini kemudian encode parameter ini ke dalam model
yang disebut classifier . Bharati, 2006
Jenis-jenis model klasifikasi: Classification by decision tree induction
Bayesian Classification Neural Networks
Support Vector Machines SVM Classification Based on Associations
2.2.1 Klasifikasi oleh Induksi
Induksi
Pohon Keputusan
pohon keputusan adalah pembelajaran pohon keputusan dari kelas tupel pelatihan berlabel. Sebuah pohon keputusan adalah diagram alir seperti struktur pohon, di
mana setiap node internal nonleaf node menunjukkan tes pada atribut, setiap cabang merupakan hasil tes dan setiap node daun atau node terminal memegang label kelas.
Simpul yang paling atas dalam pohon adalah node root Han, 2006.
Universitas Sumatera Utara
Gambar 2.1 Konsep pohon keputusan untuk membeli komputer Han, 2006
Sebuah jenis pohon keputusan ditunjukkan dalam gambar 2.1 yang merupakan konsep membeli komputer, yaitu, untuk memprediksi apakah semua pelanggan di toko
elektronik cenderung untuk membeli komputer. Simpul dalam ditandai dengan empat persegi panjang dan node daun dinotasikan dengan oval. Beberapa algoritma pohon
keputusan hanya menghasilkan pohon biner di mana setiap cabang simpul dalam untuk dua simpul lain dengan tepat sedangkan yang lain dapat menghasilkan pohon
non biner.
2.3 MACHINE LEARNING
Machine learning adalah bagian dari kecerdasan buatan yang menjelaskan bagaimana membuat program atau mesin pembelajaran. Dalam Data Mining, machine learning
sering digunakan untuk prediksi atau klasifikasi, dengan machine learning komputer membuat suatu prediksi dan kemudian pembelajaran Dunham, 2003.
Age?
Credit rating? student?
yes
no yes
no yes
youth senior
Middle_age
no yes
fair excellent
Universitas Sumatera Utara
2.4 SUPPORT VECTOR MACHINE SVM
Support Vector Machines SVM adalah satu kumpulan teknik klasifikasi dan regresi, yang
merupakan pengembangan algoritma non-linear dan dikembangkan
di Rusia pada tahun enam puluhan. Seperti yang telah diuraikan, SVM dapat digunakan
baik untuk klasifikasi
atau regresi,
yang membatasi
perhatian untuk sisa pekerjaan ini. Dalam berikut ini, ikhtisar singkat teori di balik menggunakan SVM untuk estimasi fungsi, memperkenalkan pada saat yang sama dan
waktu yang
paling relevan
pengertian dan
parameter, dengan
khusus memperhatikan parameter yang dampaknya diselidiki di kemudian hari. Dalam arti,
ikhtisar ini untuk memahami kinerja bagian evaluasi, tetapi untuk cakupan yang lebih menyeluruh dari SVM merujuk pada survei pembaca yang sangat baik.
SVM Bermolen, 2008
adalah suatu algoritma yang mencoba menemukan pemisah linear hyper- plane antara titik data dari dua kelas dalam ruang multidimensi. SVM cocok untuk
berurusan dengan interaksi antara fitur dan fitur berlebihan . Gupta et al., 2011
2.5 SUPPORT VECTOR REGRESSION SVR