Rancangan Penelitian Metode Penelitian Penelitian dalam bidang Pengembangan Ilmu Pengetahuan

BAB III METODE PENELITIAN

3.1 Rancangan Penelitian

Rancangan penelitian ini pertama-tama dilakukan dengan menganalisis dan membandingkan metode Support Vector Regression SVR dan klasifikasi dengan pohon keputusan algoritma C4.5 yang telah dibuat pada penelitian sebelumnya dan mengidentifikasi kelebihan dan kekurangan dari teknik data mining tersebut.

3.2 Metode Penelitian

Menganalisis bentuk data yang digunakan dalam Support Vector Regression SVR dan klasifikasi dengan pohon keputusan algoritma C4.5 serta melihat bagaimana kelebihan dan kekurangan dari kedua teknik terebut. Jenis data yang dikumpulkan dalam penelitian ini adalah bersumber dari data penelitian-penelitian yang menggunakan Support Vector Regression SVR dan klasifikasi dengan pohon keputusan algoritma C4.5 yang mendukung penelitian ini.

3.3 Kerangka Penelitian

3.3.1 Penelitian dalam bidang Pengembangan Ilmu Pengetahuan

Basak et al., 2007 dalam tulisannya meninjau teori metode support vector regression SVR, ide SVR didasarkan pada perhitungan fungsi regresi linier dalam fitur ruang dimensi tinggi dimana data input dipetakan melalui fungsi nonlinier. SVR telah diterapkan di berbagai bidang time series, keuangan, prediksi, pendekatan analisis rekayasa dan lain lain. Dalam tulisan ini, telah dilakukan tinjauan teori yang ada, metode, perkembangan terbaru dan lingkup SVR. SVM mengimplementasi algoritma pembelajaran yang berguna untuk mengenali pola-pola halus dalam himpunan data yang kompleks. Algoritma ini melakukan klasifikasi diskriminatif, contoh untuk memprediksi klasifikasi data yang sebelumnya tidak terlihat. Universitas Sumatera Utara Algoritma support vector adalah gambaran umum generalisasi nonlinear yang dikembangkan di Rusia pada tahun enam puluhan. Vapnik and Chervonenkis, 1964 Burges 1998 menerbitkan sebuah tutorial komprehensif pada pengklasifikasi support vector, baik digunakan dalam regresi time series dan aplikasi prediksi. Teori pembelajaran statistik telah memberikan kerangka yang sangat efektif untuk tugas-tugas klasifikasi dan regresi. SVR adalah mengamati pelatihan dengan meminimalkan kesalahan dalam upaya mencapai kinerja yang umum. SVR adalah sebuah versi dari SVM untuk regresi yang telah diusulkan pada tahun 1997 oleh Vapnik 1997. SVR adalah teknik yang kuat untuk analisis prediksi data. Tujuan dari masalah regresi adalah untuk memperkirakan suatu fungsi. Solusi untuk masalah SVR adalah fungsi yang menerima sebuah titik data dan mengembalikan nilai terus menerus. - Masalah penentuan usia perkembangan embrio dari pola segmentasi ekspresi gen pada Drosophila telah dibahas Myasnikova et al., 2002. Dengan menerapkan SVR, telah dikembangkan metode cepat untuk pementasan otomatis embrio berdasarkan pola ekspresi gen nya. SVR adalah metode statistik untuk menciptakan jenis fungsi regresi dari satu set data pelatihan. Set data pelatihan terdiri dari embrio yang usia perkembangan yang tepat telah ditentukan dengan mengukur tingkat invaginasi membran. Pengujian kualitas regresi pada set pelatihan telah menunjukkan akurasi prediksi yang baik. Fungsi regresi yang optimal telah digunakan untuk prediksi ekspresi gen berdasarkan usia embrio di mana usia yang tepat belum diukur dengan morfologi membran. Kegunaan SVR: - SVR telah diterapkan untuk masalah geolocation dengan penambahan penyaringan untuk kelancaran lokasi perkiraan dalam skenario pelacakan mobile Gezici et al., 2003. Posisi Handphone menggunakan penetapan tempat dengan teknik pesawat radio biasanya melibatkan waktu kedatangan, perbedaan waktu kedatangan, sudut kedatangan, pengukuran kekuatan sinyal atau beberapa kombinasi dari metode ini. Telah digambarkan dua langkah algoritma estimasi lokasi untuk memperkirakan lokasi dari pengguna ponsel. Universitas Sumatera Utara Hasil Penelitian: Algoritma SVR telah dimanfaatkan untuk melakukan kompresi gambar. Blok gambar telah diwakili oleh nilai-nilai pengali support vector Lagrange menggunakan fungsi linear, fungsi polinomial dan dasar fungsi radial Gaussian sebagai fungsi kernel. Sebuah pendekatan penyaringan SVR telah diperkenalkan untuk mengurangi sinyal Positif Palsu dalam suatu sistem deteksi massa otomatis. Pendekatan yang diusulkan terdiri dari dua langkah: pertama milik kelompok filter saraf namun telah didasarkan pada SVM, kelas dari algoritma pembelajaran yang telah terbukti dalam beberapa tahun terakhir menjadi lebih unggul dengan metode konvensional Jaringan Syaraf untuk kedua klasifikasi dan tugas regresi, maka penerapannya pada saraf-seperti pengolahan gambar terlihat sangat menarik. Langkah kedua adalah cara sederhana untuk mempertimbangkan informasi account yang diberikan oleh SVR filter, untuk memutuskan apakah sinyal dianalisis adalah False Positive FP atau tidak. ν-SVR telah dipertimbangkan untuk regresi estimasi. Algoritma SVR telah bertindak sebagai filter karena telah mampu untuk menghubungkan ke setiap input output gambar. Gangrade 2009 melakukan penelitian dalam melestarikan penggunaan klasifikasi pohon keputusan algoritma C4.5 dengan tujuan untuk membangun klasifikasi yang akurat tanpa mengungkapkan informasi pribadi dalam menambang data. Dalam dunia modern jumlah informasi pelanggan yang banyak disimpan dalam database. Dengan demikian penambangan data sangat efektif untuk mengekstraksi pengetahuan dari sejumlah besar data. Klasifikasi memiliki banyak aplikasi dalam dunia nyata, seperti perencanaan stok besar superstore, diagnosis medis, dan lain-lain. Klasifikasi adalah pemisahan atau memesan objek ke kelas. Ada berbagai teknik klasifikasi yaitu Pohon Keputusan, K-nearest neigbour, Naive Bayes classifier dan neural network. Dalam penelitian ini akan membahas pohon keputusan. Sebuah pohon keputusan adalah metode klasifikasi yang populer. Fitur yang paling penting dari classifier pohon keputusan adalah kemampuannya untuk memecah keputusan yang kompleks dan proses pembuatan menjadi koleksi keputusan sederhana, sehingga sering memberikan solusi yang lebih mudah untuk menafsirkan. Karakteristik metode pohon keputusan adalah: Pohon keputusan mampu menghasilkan Universitas Sumatera Utara aturan yang dimengerti. Mereka melakukan klasifikasi tanpa memerlukan banyak perhitungan. Mereka mampu menangani keduanya terus-menerus dan variabel kategoris. Mereka memberikan indikasi yang jelas tentang bidang yang yang paling penting untuk klasifikasi. Algoritma pohon keputusan seperti ID3 atau C4.5 adalah salah satu metode yang paling kuat dan populer untuk klasifikasi. Algoritma ID3 digunakan untuk merancang pohon keputusan berdasarkan database yang diberikan. Pohon dibangun atas- bawah secara rekursif. Pada akar, atribut masing-masing diuji untuk menentukan seberapa baik mengklasifikasikan transaksi sendiri kemudian, atribut terbaik yang dipilih dan catatan yang tersisa dipartisi Arun, 2007. ID3 ini kemudian disebut rekursif pada setiap partisi. C4.5 adalah ekstensi dari dasar perangkat lunak algoritma ID3 dirancang oleh J. R. Quinlan. Untuk mengatasi masalah berikut ini tidak diselesaikan dengan ID3: - Menghindari data yang lebih pas. - Mengurangi kesalahan pemangkasan. - Penanganan atribut kontinyu juga Example temperature. - Penanganan data pelatihan dengan atribut nilai-nilai yang hilang. Dalam penelitian ini, mempelajari, melestarikan privasi aturan klasifikasi penambangan. Tujuan Privacy preserving klasifikasi adalah untuk membangun pengklasifikasi akurat tanpa mengungkapkan informasi pribadi dalam penambangan data. Penelitian ini mengatasi masalah perhitungan multiparty yang aman untuk aturan klasifikasi penambangan. Secara khusus, memungkinkan Privacy preservation tanpa pihak ketiga yang terpercaya, merupakan salah satu prestasi besar dalam kriptografi modern, memungkinkan satu set pihak untuk menghitung setiap fungsi input pribadi mereka tanpa menunjukkan apa-apa tetapi hasil dari fungsi. Penelitian ini menjalankan algoritma klasifikasi pohon keputusan C4.5 dalam melestarikan privasi pada database mereka, tanpa mengungkapkan informasi pribadi. Metode melestarikan privasi data mining tergantung pada tugas data mining dan distribusi sumber data dengan cara seperti terpusat dimana semua catatan yang berada dalam satu partai; horizontallywhere semua pihak memiliki catatan yang berbeda dari database, tapi setiap record berisi set atribut yang sama. Secara vertikal setiap partai yang mana memiliki jumlah catatan yang sama, tapi setiap record berisi atribut yang berbeda. Dalam penelitian ini, terutama berfokus pada penerapan Universitas Sumatera Utara melestarikan privasi klasifikasi pohon keputusan C4.5 pada data dipartisi secara vertikal tanpa menggunakan ketiga partai. Hal ini didasarkan pada menghitung gabungan dari semua database, tidak peduli bahwa hanya satu pihak yang memiliki atribut kelas atau lebih dari satu atau semua pihak. Menerapkan algoritma data mining pada data ini dan mengirimkan output. Hasil Penelitian: Penelitian ini layak untuk membangun sebuah privasi melestarikan classifier pohon keputusan yang dapat menggunakan teknik SMC Secure Multiparty Computation. Pengembangan lebih lanjut dari protokol diharapkan dalam arti bahwa untuk bergabung multi-partai atribut menggunakan pihak ketiga yang terpercaya dan dapat digunakan. Selanjutnya, baik untuk mengembangkan classifier baru dalam Privasi membangun pohon keputusan-melestarikan dan analisis baru serta pengklasifikasi yang ada untuk memecahkan masalah yang berbeda yaitu atribut yang hilang dan lain-lain. Grbovic 2006 melakukan penelitian dalam mengeksplorasi penerapan pohon keputusan C4.5 dalam menyelesaikan masalah. Hasil dari penelitian ini diharapkan, metode pohon keputusan C4.5 dapat menghasilkan kinerja yang baik. Untuk memastikan kinerja yang baik dari aplikasi MPI, operasi kolektif dapat disetel untuk sistem tertentu. Proses tuning sering melibatkan profil rinci dari sistem, mungkin dikombinasikan dengan pemodelan komunikasi, menganalisis data yang dikumpulkan, dan menghasilkan fungsi keputusan. Saat run-time, fungsi keputusan memilih dekat ke metode optimal untuk contoh kolektif tertentu. Pendekatan ini bergantung pada kemampuan keputusan fungsi yang secara akurat memprediksi ukuran algoritma dan segmen yang akan digunakan untuk kolektif tertentu misalnya. Orang bisa membangun sebuah sistem di memori keputusan, bisa dicari pada saat run-time untuk memberikan informasi metode yang optimal. Salah satu dari pendekatan-pendekatan ini layak, jejak memori dan waktu yang dibutuhkan untuk membuat keputusan harus minimal. Penelitian ini mempelajari penerapan pohon keputusan C4.5 Quinlan, 1993 untuk algoritma kolektif MPI metode seleksi masalah. Asumsi bahwa sistem telah mengacu dan bahwa informasi kinerja rinci ada untuk masing-masing kolektif yang Universitas Sumatera Utara tersedia dalam metode komunikasi. Dengan informasi ini, difokuskan usaha pada menyelidiki apakah algoritma C4.5 adalah cara yang layak untuk menghasilkan fungsi keputusan statis. Suatu kategori yang benar, sebuah metode dalam kasus ini, untuk digunakan pada waktu berjalan. Manfaat utama dari pendekatan ini adalah bahwa proses pengambilan keputusan adalah topik yang dipelajari dengan baik di bidang teknik dan mesin pembelajaran sehingga bidang literatur sudah tersedia. Pohon-pohon keputusan ekstensif digunakan dalam pengakuan pola, desain CAD, pemrosesan sinyal, kedokteran, dan biologi Murthy, 1998. Vuduc et al. 2004 membangun model pembelajaran statistik untuk membuat keputusan yang berbeda fungsi dari matriks-matriks pemilihan algoritma perkalian. Dalam pekerjaan ini mempertimbangkan tiga metode untuk konstruksi fungsi keputusan: pemodelan parametrik; parametrik pemodelan geometri; dan non-parametrik pemodelan geometri. Pemodelan geometri non-parametrik menggunakan metode pembelajaran statistik untuk membangun model implisit dari batas-batas antara algoritma berdasarkan data eksperimental aktual. Untuk mencapai hal ini, Vuduc et al. 2004 menggunakan metode support vector Secara konseptual, pekerjaan yang diberikan dalam penelitian ini dekat dengan geometri non-parametrik, pekerjaan pemodelan dilakukan oleh Vuduc dkk. Namun, domain masalah berbeda: operasi MPI kolektif bukan matriks-matriks perkalian, dan menggunakan algoritma C4.5 bukan metode support vector. Untuk yang terbaik berdasarkan pengetahuan, satu-satunya kelompok yang telah mendekati proses tuning MPI kolektif dengan cara ini, algoritma C4.5. Algoritma C4.5 adalah algoritma klasifikasi pembelajaran yang diawasi yang digunakan untuk membangun pohon keputusan dari data Quinlan, 1993. C4.5 dapat diterapkan pada data yang memenuhi persyaratan sebagai berikut: - Atribut-nilai description: informasi tentang satu entri dalam data harus dijelaskan dalam istilah atribut. Nilai-nilai atribut dapat diskrit atau kontinu, dan dalam beberapa kasus, nilai atribut mungkin hilang atau dapat diabaikan; - kelas Predefined: data pelatihan harus dibagi dalam kelas atau kategori standar. Ini merupakan persyaratan standar untuk belajar algoritma diawasi; Universitas Sumatera Utara - Diskrit kelas: kelas harus jelas dipisahkan dan kasus pelatihan tunggal baik milik kelas atau tidak. C4.5 tidak dapat digunakan untuk memprediksi nilai-nilai kelas kontinyu seperti biaya transaksi; - Data yang cukup: algoritma C4.5 menggunakan proses generalisasi induktif dengan mencari pola dalam data. Untuk pendekatan ini untuk bekerja, pola harus dibedakan dari kejadian acak. Apa yang merupakan jumlah data cukup tergantung pada satu set data tertentu dan atribut dan nilai-nilai kelas, tetapi secara umum, metode statistik yang digunakan dalam C4.5 untuk menghasilkan tes membutuhkan jumlah data cukup besar; - Model klasifikasi logis: model klasifikasi yang dihasilkan harus direpresentasikan sebagai pohon keputusan dari salah satu atau seperangkat aturan produksi Quinlan, 1993. Operasi MPI kolektif dapat dikelompokkan menjadi empat kategori berdasarkan pola pertukaran data mereka: satu-ke-banyak, banyak-ke-satu, banyak-ke-banyak, dan lain seperti Scan dan Exscan. Ini adalah wajar untuk mengharapkan bahwa kolektif yang sama memiliki fungsi keputusan serupa pada sistem yang sama. Penelitian ini menganalisis pohon keputusan yang dihasilkan dari data eksperimen dikumpulkan untuk broadcast dan mengurangi kolektif pada sistem. Implementasi dari kolektif ini adalah simetris: masing-masing memiliki Linear, Binomial, Biner, dan Pipeline berbasis implementasi. Broadcast mendukung algoritma Binary splitted yang kami tidak memiliki setara dalam Mengurangi implementasi, tapi diharapkan akan mampu C4.5 untuk menangani kasus ini dengan benar. Data pelatihan untuk percobaan ini berisi tiga atribut nama komunikator, kolektif ukuran, dan ukuran pesan dan set kelas yang telah ditentukan adalah sama seperti di kasus broadcast. Tabel 3.1 memberikan informasi rinci tentang gabungan Broadcast dan pertimbangan untuk Mengurangi pohon keputusan. Artinya kinerja dari pohon gabungan untuk masing- masing kolektif kurang dari 2,5 Universitas Sumatera Utara Tabel 3.1: Statistik untuk gabungan Broadcast dan pengurangan Command Line pohon keputusan Before Pruning After Pruning Size Errors Size Errors Predicted Error -m 2 –c 25 239 137 6.2 221 142 6.2 12.6 -m 6 –c 25 149 205 9.0 115 220 9.6 14.0 -m 8 –c 25 127 225 9.8 103 235 10.3 14.4 -m 20 –c 5 63 310 13.6 55 316 13.8 20.6 -m 40 –c 25 33 392 17.1 33 392 17.1 19.6 Tabel 3.1: Statistik untuk gabungan Broadcast dan Mengurangi pohon keputusan sesuai dengan data yang disajikan. Ukuran mengacu pada jumlah node daun pada pohon. Kesalahan dalam hal kasus pelatihan kesalahan klasifikasi. Kumpulan data memiliki 2286 kasus Hasil penelitian menunjukkan bahwa pohon keputusan C4.5 dapat digunakan untuk menghasilkan cukup dan sangat akurat keputusan fungsi: hasil kinerja berarti pada data kinerja yang ada berada di dalam kesalahan pengukuran untuk semua pohon yang dipertimbangkan. Misalnya, Broadcast Keputusan pohon dengan hanya 21 daun bisa mencapai hukuman kinerja rata-rata 2,08. Selain itu, menggunakan pohon ini, hanya enam poin dalam communicator, ukuran pesan berkisar dari data yang diuji akan dikenakan lebih dari 50 kinerja. pelatihan.

3.3.2 Penelitian dalam bidang kesehatan

Gupta et al., 2011 melakukan penelitian dalam diagnosa dan prognosa penyakit kanker payudara. Tujuan dari penelitian ini adalah untuk memprediksi penyakit kanker payudara yang ganas atau jinak. Dan untuk mengetahui apakah penyakit tersebut akan kambuh lagi atau tidak. Dengan demikian, kedua masalah terutama dalam lingkup masalah klasifikasi. Penelitian ini merangkum studi berbagai kajian dan artikel teknis pada diagnosis dan prognosis kanker payudara. Dalam penelitian ini disajikan ikhtisar penelitian saat ini sedang dilakukan dengan menggunakan teknik data mining algoritma C4.5 adalah teknik induksi pembelajaran pohon keputusan dengan dua teknik lainnya Universitas Sumatera Utara diterapkan dalam penelitian ini untuk meningkatkan diagnosis dan prognosis kanker payudara Sarvestan et al., 2010 memberikan perbandingan antara kemampuan berbagai jaringan saraf dalam diagnosa penyakit kanker payudara. Hasil pengujian menunjukkan bahwa jaringan saraf efektif untuk digunakan dalam diagnosa penyakit kanker payudara. . Anunciacao et al., 2010 mengeksplorasi penerapan pohon keputusan untuk mendeteksi kelompok penderita penyakit kanker payudara yang berisiko tinggi, menggunakan program aplikasi Weka. Hasil menunjukkan bahwa mungkin ditemukan hubungan statistik yang signifikan dengan penyakit kanker payudara dengan menurunkan pohon keputusan dan memilih daun terbaik. Hasil Penelitian: Penelitian ini memberikan kajian teknis dan berbagai review tentang diagnosis kanker payudara dan prognosis masalah dan mengeksplorasi bahwa teknis penambangan data menawarkan janji besar untuk menemukan pola-pola yang tersembunyi dalam data yang dapat membantu dokter dalam pengambilan keputusan - Neural network NN, pohon keputusan, regresi logistik, dan algoritma genetik digunakan untuk studi perbandingan dan akurasi dan nilai prediktif positif masing-masing algoritma digunakan sebagai indikator evaluasi. . - Akurasi Pohon keputusan 93,6 dan NN dengan 91,2 ditemukan lebih unggul dari regresi logistik dengan akurasi 89,2. - Keakuratan NN 88,8 dan Jaringan Hybrid 87,2 sangat mirip dan mereka berdua mengungguli Jaringan Bayesian. Mereka menemukan model Hibrid yang diusulkan juga dapat berguna untuk mengambil keputusan.

3.3.3 Penelitian dalam bidang Internet

Bermolen et al.,, 2008 melakukan penelitian penggunaan SVR support vector regression untuk prediksi link beban dengan menggunakan model Moving Average MA dan Auto Regresif AR. Hal ini cukup diterima dengan baik bahwa, sebagai akibat dari layanan jaringan dan evolusi aplikasi internet, lalu lintas jaringan menjadi semakin kompleks. Di satu sisi, transportasi jaringan ditantang oleh konvergensi saat ini tren suara video layanan data Universitas Sumatera Utara pada semua jaringan IP, dan oleh fakta bahwa pengguna-mobilitas kemungkinan akan menerjemahkan ke layanan mobilitas juga. Di sisi lain, ledakan aplikasi internet telephon, televisi dan game menyiratkan bahwa kita mungkin dipaksa untuk berpikir ulang apa yang kita maksud oleh lalu lintas data. Selain itu, penggunaan luas dari aplikasi lapisan lapisan langsung diterjemahkan menjadi jauh lebih tinggi variabilitas dari lalu lintas data disuntikkan ke jaringan. Dalam penelitian ini, mempertanyakan apakah variabilitas tersebut dapat diperkirakan secara efisien, dan jika demikian, dengan apa tingkat akurasinya. Teknik prediksi diawasi yang dipilih yaitu Support Vector Machines SVM, satu set klasifikasi dan regresi teknik, diperkenalkan pada awal tahun sembilan puluhan [1], yang didasarkan dalam rangka pembelajaran teori statistik. Pada dasarnya, Support Vector Regression SVR menggunakan data pelatihan untuk membangun model prediksi yang bekerja dengan baik dalam situasi pembelajaran karena generalisasi untuk data tak terlihat dan setuju untuk online terus menerus dan pembelajaran adaptif, properti yang sangat diinginkan dalam lingkungan jaringan. Awalnya terikat pada pengenalan konteks karakter optik, penggunaan SVM dengan cepat menyebar ke bidang lainnya, termasuk prediksi time series Muller et al., 1999 dan, baru-baru ini, jaringan. Termotivasi dengan mendorong seperti hasilnya, penelitian ini fokus pada perkiraan beban link yang hanya didasarkan pada pengukuran masa lalu, menyusul pendekatan yang dikenal sebagai proses tertanam proses Masalah ini sangat menarik dalam jaringan untuk kedua perencanaan kapasitas dan manajemen aplikasi misalnya pengadaan bandwidth, masuk kontrol, memicu mekanisme backpressure, dan lain lain. Meskipun pendekatan SVM cocok juga untuk rentang waktu lebih lama, yang lebih perhatian untuk kapasitas perencanaan, dalam makalah ini kita fokus pada estimasi beban variasi pada skala waktu pendek: mengadopsi pendekatan tangan untuk regresi SVM, mengevaluasi efektivitas SVR untuk perkiraan beban dengan menjelajahi link yang agak ekstensif dari parameter dan ruang desain. Tujuan penelitian adalah: pertama, kita ingin mengevaluasi akurasi SVM dan ketahanan dan, kedua, kami ingin memberikan wawasan berguna tuning parameter SVM, aspek yang tidak selalu jelas dalam pekerjaan sebelumnya. Membandingkan kinerja dengan Universitas Sumatera Utara yang dicapai dengan menggunakan Moving Average dan Auto-Regresif Model: hasil kami menunjukkan bahwa, meskipun sesuai baik dengan data aktual, SVR keuntungan dicapai selama metode prediksi yang sederhana tidak cukup untuk membenarkannya penyebaran untuk prediksi link yang load pada skala waktu pendek. Namun, SVR mempunyai sejumlah aspek sangat positif aspek: misalnya, model SVR agak kuat untuk Parameter variasi, dan kompleksitas komputasi jauh dari yang mahal, yang membuat cocok untuk prediksi secara online. Selain itu, memverifikasi eksperimental bahwa kesalahan dihitung selama sampel berturut-turut adalah independen dan terdistribusi secara identik, yang memungkinkan evaluasi interval. Akhirnya, penelitian ini juga menyelidiki metode untuk memperpanjang cakrawala perkiraan menggunakan nilai yang diprakirakan sebagai masukan untuk prediksi baru: pendekatan ini SVR rekursif secara signifikan dapat memperpanjang cakrawala perkiraan yang dicapai dan melibatkan hanya sangat akurasi degradasi tebatas. Teknik peramalan merencanakan untuk mengevaluasi penelitian ini jatuh di kelas SVM meskipun keberadaannya relatif singkat, literatur dari SVM sudah penuh sesak nafas. Pada saat yang sama, sementara penggunaan SVM untuk klasifikasi relatif lebih populer dalam penelitian jaringan, terutama dalam konteks anomali dan deteksi intrusi, penggunaan SVM untuk regresi sebagian besar belum diselidiki. Untuk pengetahuan yang terbaik, yang hanya bekerja mengeksplorasi penggunaan teknik SVR di bidang jaringan adalah. TCP throughput yang diprediksi pada path yang diberikan adalah objek, dimana perkiraan didasarkan pada kombinasi sifat jalan seperti sebagai antrian penundaan dan bandwidth yang tersedia dan pada kinerja dari file sebelum transfer juga. Penelitian menunjukkan bahwa ketika sifat jalan yang diketahui secara tepat misalnya, ketika disediakan oleh oracle, SVR mampu memprediksi TCP throughput yang dalam 10 dari nilai aktual di 90 kasus yang mewakili peningkatan hampir 3 kali lipat dalam akurasi atas metode berbasis sejarah sebelumnya. Juga, dalam skenario yang lebih realistis dan menggunakan pengukuran kurang akurat sifat jalan misalnya, dikumpulkan dengan cara probe aktif, prediksi dapat dibuat dalam 10 dari nilai yang sebenarnya hampir 50 dari waktu - yang masih merupakan peningkatan 60, dengan selanjutnya jauh lebih rendah berdampak pada end-to-end Universitas Sumatera Utara jalan. Berfokus pada prediksi latency ke alamat IP yang tidak diketahui, berdasarkan latency pengetahuan arah lain alamat IP yang sebelumnya dihubungi. Menggunakan sebagai fitur vektor input bit alamat IP Berubah menjadi ruang input 32 dimensi, dimana setiap bit alamat sesuai dengan dimensi yang berbeda, menunjukkan bahwa kinerja estimasi dalam 30 dari nilai sebenarnya selama kurang lebih tiga perempat dari prediksi latency pada set data internet yang besar. Lebih rinci, regresi SVM pada acak yang besar dikumpulkan data set 30.000 IP, latency pasangan, menghasilkan prediksi berarti kesalahan 30 ms 25 ms hanya menggunakan 6 20 dari sampel untuk pelatihan. Dalam konteks regresi SVM, masalah peramalan nilai masa depan dari seri hanya didasarkan pada pengamatan sebelumnya dari fenomena yang sama dikenal sebagai Embedding proses . Namun, penerapannya yang biasanya selain konteks jaringan ditargetkan domain, dan seri yang SVR telah berjalan sampai sekarang sangat jauh berbeda dari yang mewakili kedatangan paket proses pada antrian router: dengan demikian, tujuan penelitian adalah untuk menguji apakah SVR dapat membuktikan menjadi alat yang berguna juga untuk menghubungkan perkiraan beban. Rastegari et al., 2010 melakukan penelitian dalam mengatasi serangan Denial of Service DOS terhadap Domain Name System DNS dengan teknik Machine Learning. DNS Orisinalitas dirancang berdasarkan sebuah protokol pengiriman dapat diandalkan bernama User Datagram Protocol UDP dan keamanan DNS yang bukan masalah besar pada titik waktu karena desain asli cukup untuk memenuhi kebutuhan Internet. Saat ini, DNS telah menjadi layanan penting untuk operasi Internet dan dari setiap jaringan pribadi dengan ukuran tertentu, jadi ini adalah waktu untuk mengamankan sistem DNS dari akses yang tidak sah. Tujuan pertama dari makalah ini adalah untuk mengevaluasi berbagai jenis serangan DoS terhadap DNS. Mengidentifikasi pola serangan ini membawa kita untuk menghasilkan data yang dibutuhkan untuk skenario serangan yang berbeda melalui simulasi dengan memvariasikan parameter yang berbeda. Dua dari serangan DoS yang paling umum terjadi terhadap DNS adalah tipe serangan DoS langsung dan amplifikasi serangan. Dalam penyerang pertama mencoba untuk membanjiri server dengan Universitas Sumatera Utara mengirimkan lalu lintas yang berlebihan dari sumber tunggal atau ganda. Oleh karena itu, akan menyebabkan sejumlah besar paket permintaan yang akan diterima oleh server nama target. Server nama dibanjiri oleh serangan DoS akan mengalami packet loss dan tidak dapat selalu merespon setiap permintaan DNS. Referensi [3], poin ukuran paket aliran data DNS adalah kecil dan ini kesamaan dengan paket anomali membuat proses deteksi lebih sulit. Di sisi lain, penyerang membangun jenis yang paling canggih dan modern dari serangan DoS dikenal sebagai serangan amplifikasi untuk meningkatkan efek serangan DoS yang normal. Alasan bahwa jenis serangan bernama amplifikasi adalah bahwa penyerang memanfaatkan fakta bahwa permintaan kecil dapat menghasilkan paket UDP yang jauh lebih besar dalam menanggapi. Saat ini, DNS protokol RFC 2671 digunakan oleh penyerang untuk memperbesar faktor amplifikasi. Misalnya 60 byte DNS permintaan dapat dijawab dengan jawaban lebih dari 4000 byte. Ini menghasilkan faktor amplifikasi lebih dari 60. Beberapa peneliti telah mempelajari efek dari serangan amplifikasi tercermin. Berdasarkan analisis mereka, pola serangan ini mencakup sejumlah besar paket yang tidak standar lebih besar dari ukuran paket DNS standar yang 512 byte. Ada beberapa upaya untuk mengusulkan solusi untuk mempertahankan DNS terhadap serangan tersebut, tetapi menurut pengetahuan kami, tidak ada sistem deteksi yang spesifik untuk ancaman Denial of Service DoS terhadap DNS. Ketika mengakses ke lingkungan yang nyata untuk simulasi lalu lintas adalah kuat, penelitian ini memanfaatkan kekuatan simulator jaringan. Menurut pengetahuan peneliti, tidak ada dataset yang dihasilkan tersedia untuk serangan DoS terhadap DNS. Oleh karena itu, digunakan simulasi untuk menghasilkan data yang dibutuhkan untuk percobaan. Pensimulasian model digunakan program OTcl di NS-2 versi 2.28. Hal ini digunakan untuk model yang berbeda Penelitian ini menyajikan sistem deteksi serangan baru untuk DoS terhadap DNS, yang menggunakan mesin pembelajaran untuk mendeteksi dan mengklasifikasikan serangan. IDS adalah jaringan-simpul berbasis IDS NNIDS, yang dapat diimplementasikan pada server nama untuk tujuan deteksi serangan. DoS Penelitian ini telah memperkenalkan dua jenis serangan DoS terhadap DNS yang langsung dan serangan DoS amplifikasi. Penyelidikan dari dampak serangan DoS Universitas Sumatera Utara terhadap lalu lintas DNS mendorong untuk menemukan perilaku yang mencurigakan. Berdasarkan pola-pola lalu lintas data yang diperlukan untuk analisis pengukuran adalah simulasi menggunakan simulator jaringan yang paling fleksibel, NS-2. Akhirnya, model mesin pembelajaran berbasis diusulkan untuk mendeteksi dan mengklasifikasikan serangan DoS terhadap DNS menggunakan statistik lalu lintas. Dua algoritma pembelajaran mesin yang berbeda dievaluasi untuk mesin detektor yang mengklasifikasi jaringan saraf dan SVM. Untuk menemukan classifier yang optimal, tiga dari jaringan saraf yang terbaik dilakukan untuk deteksi dan klasifikasi dalam sistem deteksi intrusi diselidiki. Pengklasifikasi ini dibandingkan dengan metode mesin pembelajaran lain yang modern, SVM dalam hal tingkat deteksi, akurasi, dan tingkat alarm palsu. Hasil perbandingan menunjukkan bahwa jaringan saraf propagasi kembali performanya melebihi pengklasifikasi lain dengan tingkat deteksi 99,55 untuk serangan DoS langsung, 97,82 tingkat deteksi untuk serangan amplifikasi, akurasi 99, dan 0,28 tingkat alarm palsu. Masa Depan kerja akan mempelajari jenis lain ancaman keamanan terhadap DNS. Menyediakan semua pola arus lalu lintas akan membantu untuk menyelidiki fitur yang diperlukan untuk mendeteksi semua bentuk serangan terhadap DNS. Bidang lain pekerjaan di masa depan akan mengimplementasikan model yang diusulkan dalam lingkungan yang nyata yang dapat menyelidiki perbaikan yang diperlukan dalam model seperti waktu pemantauan.

3.3.4 Penelitian dalam bidang Musik

Han et al., 2009 melakukan penelitian pengenalan emosi musik menggunakan support vector regression. Emosi musik memainkan peran penting dalam menentukan jenis musik, deteksi mood dan aplikasi yang berhubungan dengan musik lainnya. Berbagai masalah untuk pengenalan musik emosi telah ditangani oleh berbagai disiplin ilmu seperti fisiologi, ilmu psikologi, kognitif dan musikologi. Penyajikan sebuah support vector regression SVR musik berdasarkan sistem pengenalan emosi Dengan kemajuan terbaru di bidang informasi musik, muncul minat untuk menganalisis dan memahami isi emosional musik. Karena keragaman dan kekayaan konten musik, banyak peneliti telah mengejar topik penelitian di bidang ini, mulai dari ilmu pengetahuan komputer, pengolahan sinyal digital, matematika, dan statistik . Universitas Sumatera Utara diterapkan untuk musik dan psikologi. Banyak ilmuwan komputer Birmingham et al., 2006 telah berfokus pada pengambilan musik dengan menggunakan musik meta-data seperti judul, genre atau suasana hati serta analisis fitur tingkat rendah seperti pitch, tempo atau irama, sementara psikolog musik Lie et al., 2006 telah tertarik dalam mempelajari bagaimana emosi musik berkomunikasi. Saat ini, tidak ada metode standar untuk mengukur dan menganalisis emosi dalam musik. Namun, psikologis model emosi telah menemukan meningkatnya penggunaan dalam komputasi studi. Thayer dua dimensi Model emosi Thayer, 1989 menawarkan sebuah model sederhana namun cukup efektif untuk menempatkan emosi dalam ruang dua dimensi. Dalam model, jumlah gairah dan valensi diukur masing-masing sepanjang sumbu vertikal dan horizontal. Tujuan dari makalah ini adalah untuk mengembangkan emosi musik pengakuan sistem untuk memprediksi gairah dan valensi sebuah lagu yang didasarkan pada konten audio. Pada penelitian ini menganalisis tujuh fitur musik yang berbeda seperti pitch, kenyaringan tempo, tonality, kunci, ritme dan harmonik dan dipetakan ke dalam sebelas kategori emosi: marah, bosan, tenang, senang, bahagia, gugup, damai, senang, santai, sedih dan mengantuk. Kategorisasi ini didasarkan pada teori Juslin dan Sloboda 2001 bersama dengan model emosi Thayer emosi Thayer, 1989. Kedua, mengadopsi SVR sebagai classifier untuk melatih dua fungsi regresi untuk memprediksi gairah dan nilai-nilai valensi berdasarkan fitur tingkat rendah, seperti pitch, ritme dan tempo, diekstrak dari musik. Selain itu, kami membandingkan metode SVR dengan algoritma klasifikasi lain seperti GMM Gaussian Mixture Model dan SVM Support Vector Machine untuk mengevaluasi kinerja. Banyak peneliti telah mengeksplorasi model emosi dan faktor yang menimbulkan persepsi emosi dalam musik. Juga banyak peneliti lain menyelidiki masalah otomatis mengenali emosi dalam musik. Suasana tradisional dan penelitian emosi dalam musik telah difokuskan untuk menemukan faktor-faktor psikologis dan fisiologis bahwa emosi mempengaruhi pengakuan dan klasifikasi. Selama tahun 1980-an, beberapa model emosi yang diusulkan, yang sebagian besar didasarkan pada pendekatan dimensi untuk rating emosi. Pendekatan berfokus pada identifikasi dimensi emosi berdasarkan lokasi mereka pada sejumlah kecil dimensi seperti valensi dan aktivitas. Russell 1980 Universitas Sumatera Utara Model sirkumfleksa memiliki dampak yang signifikan pada penelitian emosi. Model ini mendefinisikan dua dimensi, struktur melingkar melibatkan dimensi aktivasi dan valensi. Dalam struktur ini, emosi yang di lingkaran dari satu sama lain, seperti kesedihan dan kebahagiaan, berkorelasi terbalik. Thayer 1989 mengusulkan model emosi dua dimensi yang sederhana namun kuat dalam mengatur tanggapan emosi yang berbeda: stres dan energi. Dimensi stres disebut valensi sedangkan dimensi energi yang disebut gairah. Salah satu dari studi pertama deteksi emosi dalam musik disajikan oleh Feng et al. 2003. Mereka bekerja, berdasarkan Komputasi Media Estetika CMA, analisis dua dimensi tempo dan artikulasi yang dipetakan menjadi empat kategori mood: kebahagiaan, marah, sedih dan ketakutan. Lie et al., 2006 mengembangkan suatu kerangka hirarkis untuk mengekstraksi emosi musik otomatis dari data musik akustik. Mereka menggunakan intensitas musik untuk mewakili dimensi energi model Thayer, dan timbre dan ritme untuk dimensi stres. FEELTRACE Cowie, 2000 adalah perangkat lunak yang dirancang untuk membiarkan pengamat melacak isi emosional rangsangan seperti kata- kata, wajah, musik, dan video mereka merasakan dan memperhitungkan penuh gradasi dan variasi dari waktu ke waktu. Yang 2008 mengembangkan pengakuan emosi musik MER sistem dari perspektif yang terus menerus dan mewakili setiap lagu sebagai titik di bidang emosi. Mereka juga mengusulkan gairah baru valensi perhitungan metode yang didasarkan pada teori regresi. Dataset musik untuk pelatihan terdiri dari 165 lagu pop barat. Penelitian ini mengumpulkan 15 lagu dalam masing-masing sebelas kategori emosi dari musik besar database, Semua Panduan Musik, yang menyediakan 180 emosional kategori untuk mengklasifikasikan seluruh lagu. Untuk membangun pengklasifikasi kami menggunakan SVR dan implementasi didasarkan pada LIBSVM di perpustakaan Chung et al., 2001, yang memberikan fungsi hampir penuh untuk pelatihan SVR. Dalam penelitian ini, pengakuan emosi musik otomatis telah dievaluasi menggunakan klasifikasi mesin pembelajaran dengan berbagai algoritma seperti SVM, SVR dan GMM. dalam percobaan, terlihat bahwa klasifikasi berbasis SVR dalam sistem koordinat polar sangat meningkatkan akurasi pengakuan emosi dari 63,03 menjadi 94,55. Namun, klasifikasi GMM dengan kutub koordinat hanya meningkat dari 91,52 menjadi 92,73. Untuk penelitian lebih lanjut, lebih banyak fitur persepsi Universitas Sumatera Utara harus dipertimbangkan dan algoritma klasifikasi lain seperti fuzzy dan kNN k-Nearest Neighbour. Juga berencana untuk membandingkan hasil mesin pembelajaran ML berdasarkan emosi pengakuan dengan gairah yang dilakukan manusia valensi data.

3.3.5 Penelitian dalam bidang Time Series

Cao 2002 melakukan penelitian yang mengusulkan penggunaan SVM untuk peramalan time series. SVM telah diusulkan sebagai teknik baru dalam peramalan time series Mukherjee et al., 1997. SVM adalah jenis yang sangat special dari algoritma pembelajaran ditandai oleh kontrol kapasitas fungsi keputusan, penggunaan fungsi kernel dan sparsity dari solusi. Didirikan pada teori yang unik prinsip minimisasi risiko struktural untuk memperkirakan fungsi dengan meminimalkan sebuah batas atas dari kesalahan generalisasi, SVM yang terbukti sangat tahan terhadap masalah, akhirnya mencapai kinerja generalisasi tinggi dalam memecahkan masalah peramalan time series berbagai. Properti lain adalah kunci SVM pelatihan yang setara dengan memecahkan pemrograman linear kuadrat dibatasi masalah sehingga solusi dari SVM selalu unik, global dan optimal, seperti pelatihan jaringan lain yang membutuhkan non-linear optimasi dengan bahaya dari terjebak dalam minimum lokal. Dalam pemodelan time series, dua masalah utama adalah kebisingan dan non stasioneritas. Karakteristik bising mengacu pada tidak tersedianya informasi yang lengkap dari perilaku masa lalu dari seri waktu untuk sepenuhnya menangkap ketergantungan antara masa depan dan masa lalu. Informasi yang tidak termasuk dalam model dianggap sebagai kebisingan. Kebisingan di data dapat menyebabkan masalah over-fitting atau di bawah-fitting. Memperoleh model akan memiliki tingkat kinerja rendah ketika diterapkan pada pola-pola data baru. Universitas Sumatera Utara Tabel 3.2: Penggunaan waktu CPU dan angka support vectors Data sets SVMs experts Best single SVMs model CPU time s of SV CPU time s of SV Sunspot 53 82 93 98 Santa Fe-a 748 875 34573 899 Santa Fe-c 2 42 51 66 Santa Fe-d 221 1256 66994 1336 Building-1 WBE 344 2049 13688 2117 Building-1 CCW 90 1994 6591 2004 Building-1 HW 52 1977 9228 2046 Building-2 1292 1503 7731 1568 Berdasarkan tabel 3.2 terlihat bahwa Selain itu, waktu CPU yang digunakan dan jumlah support vector SVMs dan model tunggal SVMs, yang dihitung untuk semua set data. Tabel tersebut menunjukkan bahwa waktu yang dihabiskan untuk solusi sebagian besar kurang untuk SVMs dari model SVMs tunggal yang terbaik. Semua hasil simulasi menunjukkan bahwa model SVMs lebih efektif dan efisien dalam peramalan time series dibandingkan model tunggal SVM .

3.3.6 Penelitian dalam bidang Jaringan Komputer

Amershi dan Conati 2009 melakukan penelitian yang menyajikan suatu kerangka pemodelan pengguna berbasis data, untuk membangun model eksplorasi lingkungan belajar. Eksplorasi lingkungan belajar adalah alat pendidikan yang dirancang untuk mendorong pembelajaran dengan mendukung siswa dalam mengeksplorasi secara bebas materi pembelajaran yang relevan sering termasuk simulasi interaktif. Universitas Sumatera Utara Dalam teori, jenis pembelajaran aktif harus memungkinkan siswa untuk memperoleh lebih dalam, pemahaman yang lebih terstruktur konsep dalam domain. Dalam praktek, evaluasi empiris telah menunjukkan bahwa ELEs Exploratory learning environments tidak selalu efektif untuk semua siswa misalnya dan bahwa beberapa siswa dapat mengambil manfaat dari yang lebih terstruktur dukungan Kirschner et al., 2006. Dalam penelitian ini, beberapa peneliti telah bekerja pada pengembangan adaptif dukungan untuk eksplorasi efektif dalam ELEs misalnya Bunt dan Conati, 2002. Merancang dukungan ini membutuhkan memiliki model mahasiswa yang memantau peserta didik dalam mengeksplorasi perilaku dan mendeteksi ketika mereka membutuhkan bimbingan dalam proses eksplorasi. Merten dan Conati 2007 juga telah mengeksplorasi pendekatan berdasarkan mesin pembelajaran diawasi, di mana ahli domain manual berlabel episode interaksi berdasarkan apakah siswa atau tidak tercermin pada hasil dari tindakan eksplorasi mereka. Kumpulan data yang dihasilkan kemudian digunakan untuk melatih classifier untuk perilaku siswa refleksi yang diintegrasikan dengan model berbasis pengetahuan sebelumnya dikembangkan mahasiswa perilaku eksplorasi. Sedangkan penambahan secara signifikan meningkatkan classifier model akurasi, pendekatan ini mempunyai kelemahan yang sama pengetahuan berbasis pendekatan dijelaskan sebelumnya. Hal ini memakan waktu dan rawan kesalahan, karena manusia harus menyediakan label untuk dataset. Dalam penelitian ini kami mengeksplorasi pendekatan yang lebih ringan: kerangka pemodelan pengguna yang membahas keterbatasan di atas dengan mengandalkan data mining untuk secara otomatis mengidentifikasi secara umum interaksi perilaku dan kemudian untuk melatih perilaku model pengguna. Salah satu tujuan dari penelitian ini adalah untuk menunjukkan bahwa kerangka pemodelan yang diusulkan bekerja pada domain yang set data berbeda, karena itu, dalam bagian ini, membandingkan dan kontras hasil eksperimen yang diperoleh dengan menerapkan kerangka untuk dua lingkungan pembelajaran yang berbeda. CSP Applet dan ACE dan menggunakan dua jenis masukan data. Kedua lingkungan ini memberikan berbagai mekanisme interaksi yang memungkinkan untuk siswa mengeksplorasi tanpa Universitas Sumatera Utara hambatan dari domain target, dan dapat mengambil manfaat dari inklusi bimbingan adaptif yang dapat membantu siswa memperoleh hasil dari proses eksplorasi mereka. Dalam eksperimen kedua, analisis cluster menunjukkan bahwa pengelompokan tanpa pengawasan di pengunjung komponen kerangka adalah mampu mengidentifikasi kelompok yang berbeda dari siswa yaitu, kelompok siswa menunjukkan perbedaan dalam hasil belajar dari pra dan pasca ujian. Selain itu, analisis mengungkapkan beberapa perilaku karakteristik belajar yang berbeda cluster. Beberapa dari karakteristik perilaku yang intuitif dan dengan demikian cukup dijelaskan baik hasil pembelajaran efektif atau tidak efektif. Namun, seperti yang diharapkan, Beberapa perilaku tidak memiliki implikasi belajar jelas, memerlukan pertimbangan kombinasi dimensi seperti k-berarti tidak untuk menentukan cluster nya, atau pengetahuan siswa hasil pembelajaran untuk dijelaskan. Perilaku terakhir ini akan sulit untuk mengenali label dengan tangan, bahkan oleh para ahli aplikasi. Namun demikian, dua perbedaan dalam hasil percobaan yaitu: 1. Clustering menemukan cluster yang berbeda ketika k ditetapkan untuk 2 dan 3 dalam percobaan pertama dengan applet CSP, tetapi hanya cluster yang berbeda ditemukan untuk k set ke 2 di percobaan kedua dengan ACE. 2. Clustering mampu menemukan cluster dalam data applet CSP menggunakan antarmuka tindakan sendiri, padahal hanya menemukan cluster yang berbeda untuk ACE ketika menggunakan dataset yang mencakup tindakan antarmuka baik dan mata pelacakan data. Dalam penelitian ini, menyajikan kerangka berbasis data untuk pemodelan pengguna yang menggunakan klasifikasi diawasi dan tanpa diawasi untuk menemukan dan menangkap efektif atau tidak efektif perilaku siswa ketika berinteraksi dengan lingkungan belajar eksplorasi. Bangunan model untuk sistem pendidikan ini sangat menantang karena tidak dibatasi sifat dari interaksi yang mendukung dan kurangnya definisi yang jelas mengenai kebenaran dari perilaku siswa membuat sulit untuk meramalkan bagaimana perilaku pengguna kemungkinan dapat berhubungan dengan pembelajaran. Pendekatan yang ada beberapa masalah ini sudah sangat intensif, mengandalkan memakan waktu, analisis rinci dari sistem target, instruksional domain dan Universitas Sumatera Utara proses belajar. Karena pendekatan ini sehingga domain aplikasi spesifik, sulit untuk menggeneralisasi ke domain lain dan aplikasi Dalam . eksperimen dengan menerapkan kerangka kerja untuk membangun model pengguna untuk dua seperti lingkungan eksplorasi: Applet CSP bagi siswa membantu memahami algoritma untuk kepuasan kendala, dan lingkungan ACE untuk eksplorasi matematika fungsi. Presentasi hasil menunjukkan bahwa, meskipun keterbatasan karena ketersediaan data, pendekatannya adalah mampu mendeteksi cluster bermakna perilaku siswa, dan dapat mencapai akurasi yang wajar untuk kategorisasi online mahasiswa baru dalam hal efektivitas perilaku belajar mereka. Tabel 3.3: Summary of classification accuracies averaged over time CSP k=2 CSP k=3 ACE Overall Accuracy 88.3 66.2 86.3 Accuracy on LL students 93.5 66.1 94.2 Accuracy on HL students 62.4 63.3 68.3 Baseline Accuracy 83.3 50.0 69.4 Tabel 3.3 laporan ketepatan dalam mengklasifikasikan HL dan mahasiswa LL, rata-rata dari waktu ke waktu. Tabel ini juga menunjukkan akurasi model dasar yang sesuai yang digunakan untuk kemungkinan strategi klasifikasi kelas. Dalam semua kasus, k-berarti pengguna berbasis model mengungguli dasar yang sesuai memprediksi model di kelas yang benar untuk perilaku siswa baru . Selain itu, evaluasi menunjukkan bahwa kedua dari dua kelas k = 2 k-berarti berdasarkan pengklasifikasi akurasi prediksi yang dicapai secara keseluruhan comparably baik pada perilaku siswa baru 88,3 pada percobaan pertama dengan Applet CSP, dan 86,3 di kedua percobaan dengan ACE . Universitas Sumatera Utara

3.3.7 Penelitian dalam bidang Pemasaran

Kim 2006 melakukan penelitian untuk memprediksi apakah seorang pelanggan yang diberikan mail atau katalog suatu produk akan menanggapi atau tidak, berdasarkan database informasi demografi pelanggan dan sejarah pembelian, menggunakan support vector regression. Sebuah model respon, mengingat kampanye surat, memprediksi apakah setiap pelanggan akan merespon atau berapa banyak setiap pelanggan akan menghabiskan uang berdasarkan database informasi demografi pelanggan dan atau sejarah pembelian. Pemasar akan mengirimkan mail atau katalog kepada pelanggan yang diperkirakan akan merespon atau untuk menghabiskan uang dalam jumlah besar. Berbagai metode telah digunakan untuk respon pemodelan seperti teknik statistik Bentz dan Merunka, 2000, teknik pembelajaran mesin, Wang et al, 2005. Dan jaringan saraf NN Potharst et al., 2000. Sejauh ini, model respon telah biasanya dirumuskan sebagai kation biner, masalah diklasifikasikan karena keterusterangan nya. Para pelanggan dibagi menjadi dua kelas, responden dan non-responden. Sebuah Classifier dibangun untuk memprediksi apakah seorang pelanggan yang diberikan akan merespon atau tidak. Dalam penelitian ini, diterapkan SVR untuk pemodelan respon untuk memprediksi jumlah total uang yang dihabiskan masing-masing responden. Seperti disebutkan sebelumnya, respon tunggal model yang didasarkan pada metode kation yang mendapat skor cenderung untuk menanggapi setiap pelanggan. Namun, pemasar langsung ingin tahu tidak hanya responden tetapi juga pelanggan yang akan menghabiskan uang lebih dari yang lain. Oleh karena itu, setelah memprediksi responden oleh model kation maka respon diklasifikasikan, kemunduran model diperlukan untuk memprediksi jumlah total uang yang dihabiskan masing-masing responden. Pola Seleksi untuk SVR, waktu pelatihan kompleksitas SVR adalah O N3. Jika jumlah pelatihan pola meningkat, waktu pelatihan meningkat lebih radikal, yaitu dalam kubik proporsi. Database pemasaran biasanya terdiri lebih dari satu juta pelanggan dan ratusan variabel input. Oleh karena itu, dibutuhkan waktu terlalu lama untuk melatih SVR Universitas Sumatera Utara langsung ke Dataset pemasaran. Penelitian ini menerapkan metode seleksi pola dari penelitian sebelumnya. Minat dalam penelitian ini, kami berasumsi bahwa ada model respon yang ideal dibangun dengan algoritma kation diklasifikasikan yang bisa mengambil responden semua tanpa akseptasi palsu. Oleh karena itu, kami memilih dataset baru terdiri dari 4.000 pelanggan. Untuk evaluasi kinerja, dataset itu dibagi menjadi pelatihan dan tes set. Setengah dari pelanggan secara acak ditugaskan untuk training set sementara separuh lainnya ke set uji. Hasil Penelitian: Sebuah model respon, mengingat kampanye surat, memprediksi apakah setiap pelanggan akan merespon atau berapa banyak setiap pelanggan akan menghabiskan uang berdasarkan database informasi demografi pelanggan dan atau sejarah pembelian. Pemasar akan mengirimkan mail atau katalog kepada pelanggan yang diperkirakan akan merespon atau untuk menghabiskan uang dalam jumlah besar. Hasil eksperimen menbandingkan dua metode SVR yaitu SVR-PS pattern selection dan SVR-100 with all data yaitu: SVR-PS memerlukan hanya 16 dari waktu pelatihan sedangkan SVR-100 sebesar 25, maka SVR-PS lebih effisien dibandingkan dengan SVR-100. Universitas Sumatera Utara BAB IV ANALISIS TEKNIK SUPPORT VECTOR REGRESSION DAN DECISION TREE C4.5

4.1 Penelitian dalam bidang Pengembangan Ilmu Pengetahuan

Basak et al., 2007 dalam tulisannya meninjau teori metode support vector regression SVR, ide SVR didasarkan pada perhitungan fungsi regresi linier dalam fitur ruang dimensi tinggi dimana data input dipetakan melalui fungsi nonlinier Hasil Penelitian: . Algoritma SVR telah dimanfaatkan untuk melakukan kompresi gambar. Blok gambar telah diwakili oleh nilai-nilai pengali support vector Lagrange menggunakan fungsi linear, fungsi polinomial dan dasar fungsi radial Gaussian sebagai fungsi kernel. Sebuah pendekatan penyaringan SVR telah diperkenalkan untuk mengurangi sinyal Positif Palsu dalam suatu sistem deteksi massa otomatis. Pendekatan yang diusulkan terdiri dari dua langkah: pertama milik kelompok filter saraf namun telah didasarkan pada SVM, kelas dari algoritma pembelajaran yang telah terbukti dalam beberapa tahun terakhir menjadi lebih unggul dengan metode konvensional Jaringan Syaraf untuk kedua klasifikasi dan tugas regresi, maka penerapannya pada saraf-seperti pengolahan gambar terlihat sangat menarik. Langkah kedua adalah cara sederhana untuk mempertimbangkan informasi account yang diberikan oleh SVR filter, untuk memutuskan apakah sinyal dianalisis adalah False Positive FP atau tidak. ν-SVR telah dipertimbangkan untuk regresi estimasi. Algoritma SVR telah bertindak sebagai filter karena telah mampu untuk menghubungkan ke setiap input output gambar. Kelebihan dari penelitian di atas adalah S VR diterapkan dalam kompresi gambar dan tinjauan teori SVR, sedangkan kekurangan dalam penelitian tersebut adalah dalam penelitian tersebut tidak menunjukkan angka jelas dari hasil penelitian. Universitas Sumatera Utara Gangrade 2009 melakukan penelitian dalam melestarikan penggunaan klasifikasi pohon keputusan algoritma C4.5 dengan tujuan untuk membangun klasifikasi yang akurat tanpa mengungkapkan informasi pribadi dalam menambang data. Hasil Penelitian: Penelitian ini layak untuk membangun sebuah privasi melestarikan classifier pohon keputusan yang dapat menggunakan teknik SMC Secure Multiparty Computation. Pengembangan lebih lanjut dari protokol diharapkan dalam arti bahwa untuk bergabung multi-partai atribut menggunakan pihak ketiga yang terpercaya dan dapat digunakan. Selanjutnya, baik untuk mengembangkan classifier baru dalam Privasi membangun pohon keputusan-melestarikan dan analisis baru serta pengklasifikasi yang ada untuk memecahkan masalah yang berbeda yaitu atribut yang hilang Kelebihan pada penelitian: dan lain-lain. - Penerapan pelestarian decision tree C4.5 - Melakukan klasifikasi tanpa memerlukan banyak perhitungan Kekurangan pada penelitian: - Tidak ada angka hasil perhitungan yang jelas dari hasil penelitian Grbovic 2006 melakukan penelitian dalam mengeksplorasi penerapan pohon keputusan C4.5 dalam menyelesaikan masalah. Hasil dari penelitian ini diharapkan, metode pohon keputusan C4.5 dapat menghasilkan kinerja yang baik. Hasil penelitian menunjukkan bahwa pohon keputusan C4.5 dapat digunakan untuk menghasilkan cukup dan sangat akurat keputusan fungsi: hasil kinerja berarti pada data kinerja yang ada berada di dalam kesalahan pengukuran untuk semua pohon yang dipertimbangkan. Misalnya, Broadcast pohon keputusan dengan hanya 21 daun bisa mencapai hasil kinerja rata-rata 2,08. Selain itu, menggunakan pohon ini, hanya enam poin dalam communicator, ukuran pesan berkisar dari data yang diuji akan dikenakan lebih dari 50 kinerja. Kelebihan pada penelitian: - Algoritma C4.5 menghasilkan kinerja lebih dari 50, cukup akurat Kekurangan pada penelitian: Universitas Sumatera Utara - Dalam penelitian ini C4.5 masih kurang layak untuk digunakan, karena angka yang dicapai hanya 50. Ringkasan hasil penelitian dalam Bidang Pengembangan Ilmu Pengetahuan dapat dilihat pada tabel 4.1, hanya penelitian yang dilakukan oleh Grbovic yang menghasil angka akurasi sebesar 50. Tabel 4.1: Hasil Penelitian dalam Bidang Pengembangan Ilmu Pengetahuan No Judul Penelitian Penulis Sampel Parameter Akurasi 1 Support Vector Regression Basak, D., Pal, S., Patranabis - - - 2 Building Privacy- Preserving C4.5 Decision Tree Classifier on Multi Parties Gangrade, A., Patel, R - - - 3 Decision Trees and MPI Collective Algorithm Selection Problem Grbovic, J.P., Fagg, G. E., Angskun, T., Bosilca, G., Dongarra, J. J Broadcast - Nama komunikator - Ukuran kolektif - Ukuran pesan 50

4.1 Penelitian dalam bidang kesehatan