Penelitian dalam bidang Pengembangan Ilmu Pengetahuan

BAB III METODE PENELITIAN

3.1 Rancangan Penelitian

Rancangan penelitian ini pertama-tama dilakukan dengan menganalisis dan membandingkan metode Support Vector Regression SVR dan klasifikasi dengan pohon keputusan algoritma C4.5 yang telah dibuat pada penelitian sebelumnya dan mengidentifikasi kelebihan dan kekurangan dari teknik data mining tersebut.

3.2 Metode Penelitian

Menganalisis bentuk data yang digunakan dalam Support Vector Regression SVR dan klasifikasi dengan pohon keputusan algoritma C4.5 serta melihat bagaimana kelebihan dan kekurangan dari kedua teknik terebut. Jenis data yang dikumpulkan dalam penelitian ini adalah bersumber dari data penelitian-penelitian yang menggunakan Support Vector Regression SVR dan klasifikasi dengan pohon keputusan algoritma C4.5 yang mendukung penelitian ini.

3.3 Kerangka Penelitian

3.3.1 Penelitian dalam bidang Pengembangan Ilmu Pengetahuan

Basak et al., 2007 dalam tulisannya meninjau teori metode support vector regression SVR, ide SVR didasarkan pada perhitungan fungsi regresi linier dalam fitur ruang dimensi tinggi dimana data input dipetakan melalui fungsi nonlinier. SVR telah diterapkan di berbagai bidang time series, keuangan, prediksi, pendekatan analisis rekayasa dan lain lain. Dalam tulisan ini, telah dilakukan tinjauan teori yang ada, metode, perkembangan terbaru dan lingkup SVR. SVM mengimplementasi algoritma pembelajaran yang berguna untuk mengenali pola-pola halus dalam himpunan data yang kompleks. Algoritma ini melakukan klasifikasi diskriminatif, contoh untuk memprediksi klasifikasi data yang sebelumnya tidak terlihat. Universitas Sumatera Utara Algoritma support vector adalah gambaran umum generalisasi nonlinear yang dikembangkan di Rusia pada tahun enam puluhan. Vapnik and Chervonenkis, 1964 Burges 1998 menerbitkan sebuah tutorial komprehensif pada pengklasifikasi support vector, baik digunakan dalam regresi time series dan aplikasi prediksi. Teori pembelajaran statistik telah memberikan kerangka yang sangat efektif untuk tugas-tugas klasifikasi dan regresi. SVR adalah mengamati pelatihan dengan meminimalkan kesalahan dalam upaya mencapai kinerja yang umum. SVR adalah sebuah versi dari SVM untuk regresi yang telah diusulkan pada tahun 1997 oleh Vapnik 1997. SVR adalah teknik yang kuat untuk analisis prediksi data. Tujuan dari masalah regresi adalah untuk memperkirakan suatu fungsi. Solusi untuk masalah SVR adalah fungsi yang menerima sebuah titik data dan mengembalikan nilai terus menerus. - Masalah penentuan usia perkembangan embrio dari pola segmentasi ekspresi gen pada Drosophila telah dibahas Myasnikova et al., 2002. Dengan menerapkan SVR, telah dikembangkan metode cepat untuk pementasan otomatis embrio berdasarkan pola ekspresi gen nya. SVR adalah metode statistik untuk menciptakan jenis fungsi regresi dari satu set data pelatihan. Set data pelatihan terdiri dari embrio yang usia perkembangan yang tepat telah ditentukan dengan mengukur tingkat invaginasi membran. Pengujian kualitas regresi pada set pelatihan telah menunjukkan akurasi prediksi yang baik. Fungsi regresi yang optimal telah digunakan untuk prediksi ekspresi gen berdasarkan usia embrio di mana usia yang tepat belum diukur dengan morfologi membran. Kegunaan SVR: - SVR telah diterapkan untuk masalah geolocation dengan penambahan penyaringan untuk kelancaran lokasi perkiraan dalam skenario pelacakan mobile Gezici et al., 2003. Posisi Handphone menggunakan penetapan tempat dengan teknik pesawat radio biasanya melibatkan waktu kedatangan, perbedaan waktu kedatangan, sudut kedatangan, pengukuran kekuatan sinyal atau beberapa kombinasi dari metode ini. Telah digambarkan dua langkah algoritma estimasi lokasi untuk memperkirakan lokasi dari pengguna ponsel. Universitas Sumatera Utara Hasil Penelitian: Algoritma SVR telah dimanfaatkan untuk melakukan kompresi gambar. Blok gambar telah diwakili oleh nilai-nilai pengali support vector Lagrange menggunakan fungsi linear, fungsi polinomial dan dasar fungsi radial Gaussian sebagai fungsi kernel. Sebuah pendekatan penyaringan SVR telah diperkenalkan untuk mengurangi sinyal Positif Palsu dalam suatu sistem deteksi massa otomatis. Pendekatan yang diusulkan terdiri dari dua langkah: pertama milik kelompok filter saraf namun telah didasarkan pada SVM, kelas dari algoritma pembelajaran yang telah terbukti dalam beberapa tahun terakhir menjadi lebih unggul dengan metode konvensional Jaringan Syaraf untuk kedua klasifikasi dan tugas regresi, maka penerapannya pada saraf-seperti pengolahan gambar terlihat sangat menarik. Langkah kedua adalah cara sederhana untuk mempertimbangkan informasi account yang diberikan oleh SVR filter, untuk memutuskan apakah sinyal dianalisis adalah False Positive FP atau tidak. ν-SVR telah dipertimbangkan untuk regresi estimasi. Algoritma SVR telah bertindak sebagai filter karena telah mampu untuk menghubungkan ke setiap input output gambar. Gangrade 2009 melakukan penelitian dalam melestarikan penggunaan klasifikasi pohon keputusan algoritma C4.5 dengan tujuan untuk membangun klasifikasi yang akurat tanpa mengungkapkan informasi pribadi dalam menambang data. Dalam dunia modern jumlah informasi pelanggan yang banyak disimpan dalam database. Dengan demikian penambangan data sangat efektif untuk mengekstraksi pengetahuan dari sejumlah besar data. Klasifikasi memiliki banyak aplikasi dalam dunia nyata, seperti perencanaan stok besar superstore, diagnosis medis, dan lain-lain. Klasifikasi adalah pemisahan atau memesan objek ke kelas. Ada berbagai teknik klasifikasi yaitu Pohon Keputusan, K-nearest neigbour, Naive Bayes classifier dan neural network. Dalam penelitian ini akan membahas pohon keputusan. Sebuah pohon keputusan adalah metode klasifikasi yang populer. Fitur yang paling penting dari classifier pohon keputusan adalah kemampuannya untuk memecah keputusan yang kompleks dan proses pembuatan menjadi koleksi keputusan sederhana, sehingga sering memberikan solusi yang lebih mudah untuk menafsirkan. Karakteristik metode pohon keputusan adalah: Pohon keputusan mampu menghasilkan Universitas Sumatera Utara aturan yang dimengerti. Mereka melakukan klasifikasi tanpa memerlukan banyak perhitungan. Mereka mampu menangani keduanya terus-menerus dan variabel kategoris. Mereka memberikan indikasi yang jelas tentang bidang yang yang paling penting untuk klasifikasi. Algoritma pohon keputusan seperti ID3 atau C4.5 adalah salah satu metode yang paling kuat dan populer untuk klasifikasi. Algoritma ID3 digunakan untuk merancang pohon keputusan berdasarkan database yang diberikan. Pohon dibangun atas- bawah secara rekursif. Pada akar, atribut masing-masing diuji untuk menentukan seberapa baik mengklasifikasikan transaksi sendiri kemudian, atribut terbaik yang dipilih dan catatan yang tersisa dipartisi Arun, 2007. ID3 ini kemudian disebut rekursif pada setiap partisi. C4.5 adalah ekstensi dari dasar perangkat lunak algoritma ID3 dirancang oleh J. R. Quinlan. Untuk mengatasi masalah berikut ini tidak diselesaikan dengan ID3: - Menghindari data yang lebih pas. - Mengurangi kesalahan pemangkasan. - Penanganan atribut kontinyu juga Example temperature. - Penanganan data pelatihan dengan atribut nilai-nilai yang hilang. Dalam penelitian ini, mempelajari, melestarikan privasi aturan klasifikasi penambangan. Tujuan Privacy preserving klasifikasi adalah untuk membangun pengklasifikasi akurat tanpa mengungkapkan informasi pribadi dalam penambangan data. Penelitian ini mengatasi masalah perhitungan multiparty yang aman untuk aturan klasifikasi penambangan. Secara khusus, memungkinkan Privacy preservation tanpa pihak ketiga yang terpercaya, merupakan salah satu prestasi besar dalam kriptografi modern, memungkinkan satu set pihak untuk menghitung setiap fungsi input pribadi mereka tanpa menunjukkan apa-apa tetapi hasil dari fungsi. Penelitian ini menjalankan algoritma klasifikasi pohon keputusan C4.5 dalam melestarikan privasi pada database mereka, tanpa mengungkapkan informasi pribadi. Metode melestarikan privasi data mining tergantung pada tugas data mining dan distribusi sumber data dengan cara seperti terpusat dimana semua catatan yang berada dalam satu partai; horizontallywhere semua pihak memiliki catatan yang berbeda dari database, tapi setiap record berisi set atribut yang sama. Secara vertikal setiap partai yang mana memiliki jumlah catatan yang sama, tapi setiap record berisi atribut yang berbeda. Dalam penelitian ini, terutama berfokus pada penerapan Universitas Sumatera Utara melestarikan privasi klasifikasi pohon keputusan C4.5 pada data dipartisi secara vertikal tanpa menggunakan ketiga partai. Hal ini didasarkan pada menghitung gabungan dari semua database, tidak peduli bahwa hanya satu pihak yang memiliki atribut kelas atau lebih dari satu atau semua pihak. Menerapkan algoritma data mining pada data ini dan mengirimkan output. Hasil Penelitian: Penelitian ini layak untuk membangun sebuah privasi melestarikan classifier pohon keputusan yang dapat menggunakan teknik SMC Secure Multiparty Computation. Pengembangan lebih lanjut dari protokol diharapkan dalam arti bahwa untuk bergabung multi-partai atribut menggunakan pihak ketiga yang terpercaya dan dapat digunakan. Selanjutnya, baik untuk mengembangkan classifier baru dalam Privasi membangun pohon keputusan-melestarikan dan analisis baru serta pengklasifikasi yang ada untuk memecahkan masalah yang berbeda yaitu atribut yang hilang dan lain-lain. Grbovic 2006 melakukan penelitian dalam mengeksplorasi penerapan pohon keputusan C4.5 dalam menyelesaikan masalah. Hasil dari penelitian ini diharapkan, metode pohon keputusan C4.5 dapat menghasilkan kinerja yang baik. Untuk memastikan kinerja yang baik dari aplikasi MPI, operasi kolektif dapat disetel untuk sistem tertentu. Proses tuning sering melibatkan profil rinci dari sistem, mungkin dikombinasikan dengan pemodelan komunikasi, menganalisis data yang dikumpulkan, dan menghasilkan fungsi keputusan. Saat run-time, fungsi keputusan memilih dekat ke metode optimal untuk contoh kolektif tertentu. Pendekatan ini bergantung pada kemampuan keputusan fungsi yang secara akurat memprediksi ukuran algoritma dan segmen yang akan digunakan untuk kolektif tertentu misalnya. Orang bisa membangun sebuah sistem di memori keputusan, bisa dicari pada saat run-time untuk memberikan informasi metode yang optimal. Salah satu dari pendekatan-pendekatan ini layak, jejak memori dan waktu yang dibutuhkan untuk membuat keputusan harus minimal. Penelitian ini mempelajari penerapan pohon keputusan C4.5 Quinlan, 1993 untuk algoritma kolektif MPI metode seleksi masalah. Asumsi bahwa sistem telah mengacu dan bahwa informasi kinerja rinci ada untuk masing-masing kolektif yang Universitas Sumatera Utara tersedia dalam metode komunikasi. Dengan informasi ini, difokuskan usaha pada menyelidiki apakah algoritma C4.5 adalah cara yang layak untuk menghasilkan fungsi keputusan statis. Suatu kategori yang benar, sebuah metode dalam kasus ini, untuk digunakan pada waktu berjalan. Manfaat utama dari pendekatan ini adalah bahwa proses pengambilan keputusan adalah topik yang dipelajari dengan baik di bidang teknik dan mesin pembelajaran sehingga bidang literatur sudah tersedia. Pohon-pohon keputusan ekstensif digunakan dalam pengakuan pola, desain CAD, pemrosesan sinyal, kedokteran, dan biologi Murthy, 1998. Vuduc et al. 2004 membangun model pembelajaran statistik untuk membuat keputusan yang berbeda fungsi dari matriks-matriks pemilihan algoritma perkalian. Dalam pekerjaan ini mempertimbangkan tiga metode untuk konstruksi fungsi keputusan: pemodelan parametrik; parametrik pemodelan geometri; dan non-parametrik pemodelan geometri. Pemodelan geometri non-parametrik menggunakan metode pembelajaran statistik untuk membangun model implisit dari batas-batas antara algoritma berdasarkan data eksperimental aktual. Untuk mencapai hal ini, Vuduc et al. 2004 menggunakan metode support vector Secara konseptual, pekerjaan yang diberikan dalam penelitian ini dekat dengan geometri non-parametrik, pekerjaan pemodelan dilakukan oleh Vuduc dkk. Namun, domain masalah berbeda: operasi MPI kolektif bukan matriks-matriks perkalian, dan menggunakan algoritma C4.5 bukan metode support vector. Untuk yang terbaik berdasarkan pengetahuan, satu-satunya kelompok yang telah mendekati proses tuning MPI kolektif dengan cara ini, algoritma C4.5. Algoritma C4.5 adalah algoritma klasifikasi pembelajaran yang diawasi yang digunakan untuk membangun pohon keputusan dari data Quinlan, 1993. C4.5 dapat diterapkan pada data yang memenuhi persyaratan sebagai berikut: - Atribut-nilai description: informasi tentang satu entri dalam data harus dijelaskan dalam istilah atribut. Nilai-nilai atribut dapat diskrit atau kontinu, dan dalam beberapa kasus, nilai atribut mungkin hilang atau dapat diabaikan; - kelas Predefined: data pelatihan harus dibagi dalam kelas atau kategori standar. Ini merupakan persyaratan standar untuk belajar algoritma diawasi; Universitas Sumatera Utara - Diskrit kelas: kelas harus jelas dipisahkan dan kasus pelatihan tunggal baik milik kelas atau tidak. C4.5 tidak dapat digunakan untuk memprediksi nilai-nilai kelas kontinyu seperti biaya transaksi; - Data yang cukup: algoritma C4.5 menggunakan proses generalisasi induktif dengan mencari pola dalam data. Untuk pendekatan ini untuk bekerja, pola harus dibedakan dari kejadian acak. Apa yang merupakan jumlah data cukup tergantung pada satu set data tertentu dan atribut dan nilai-nilai kelas, tetapi secara umum, metode statistik yang digunakan dalam C4.5 untuk menghasilkan tes membutuhkan jumlah data cukup besar; - Model klasifikasi logis: model klasifikasi yang dihasilkan harus direpresentasikan sebagai pohon keputusan dari salah satu atau seperangkat aturan produksi Quinlan, 1993. Operasi MPI kolektif dapat dikelompokkan menjadi empat kategori berdasarkan pola pertukaran data mereka: satu-ke-banyak, banyak-ke-satu, banyak-ke-banyak, dan lain seperti Scan dan Exscan. Ini adalah wajar untuk mengharapkan bahwa kolektif yang sama memiliki fungsi keputusan serupa pada sistem yang sama. Penelitian ini menganalisis pohon keputusan yang dihasilkan dari data eksperimen dikumpulkan untuk broadcast dan mengurangi kolektif pada sistem. Implementasi dari kolektif ini adalah simetris: masing-masing memiliki Linear, Binomial, Biner, dan Pipeline berbasis implementasi. Broadcast mendukung algoritma Binary splitted yang kami tidak memiliki setara dalam Mengurangi implementasi, tapi diharapkan akan mampu C4.5 untuk menangani kasus ini dengan benar. Data pelatihan untuk percobaan ini berisi tiga atribut nama komunikator, kolektif ukuran, dan ukuran pesan dan set kelas yang telah ditentukan adalah sama seperti di kasus broadcast. Tabel 3.1 memberikan informasi rinci tentang gabungan Broadcast dan pertimbangan untuk Mengurangi pohon keputusan. Artinya kinerja dari pohon gabungan untuk masing- masing kolektif kurang dari 2,5 Universitas Sumatera Utara Tabel 3.1: Statistik untuk gabungan Broadcast dan pengurangan Command Line pohon keputusan Before Pruning After Pruning Size Errors Size Errors Predicted Error -m 2 –c 25 239 137 6.2 221 142 6.2 12.6 -m 6 –c 25 149 205 9.0 115 220 9.6 14.0 -m 8 –c 25 127 225 9.8 103 235 10.3 14.4 -m 20 –c 5 63 310 13.6 55 316 13.8 20.6 -m 40 –c 25 33 392 17.1 33 392 17.1 19.6 Tabel 3.1: Statistik untuk gabungan Broadcast dan Mengurangi pohon keputusan sesuai dengan data yang disajikan. Ukuran mengacu pada jumlah node daun pada pohon. Kesalahan dalam hal kasus pelatihan kesalahan klasifikasi. Kumpulan data memiliki 2286 kasus Hasil penelitian menunjukkan bahwa pohon keputusan C4.5 dapat digunakan untuk menghasilkan cukup dan sangat akurat keputusan fungsi: hasil kinerja berarti pada data kinerja yang ada berada di dalam kesalahan pengukuran untuk semua pohon yang dipertimbangkan. Misalnya, Broadcast Keputusan pohon dengan hanya 21 daun bisa mencapai hukuman kinerja rata-rata 2,08. Selain itu, menggunakan pohon ini, hanya enam poin dalam communicator, ukuran pesan berkisar dari data yang diuji akan dikenakan lebih dari 50 kinerja. pelatihan.

3.3.2 Penelitian dalam bidang kesehatan