Penerapan Optimasi Algoritma C45 dengan Naïve Bayes pada Pemilihan Internet Service Provider

  

Penerapan Optimasi Algoritma C45 dengan Naïve Bayes

pada Pemilihan Internet Service Provider

1 2 I Made Darma Susila , Ida Bagus Suradarma

  Program Studi Sistem Komputer, Sekolah Tinggi Manajemen Informatika dan Komputer STIKOM Bali Jalan Raya Puputan No 86 Renon - Denpasar, Tlp. (0361) 244445/Fax. (0361) 264773 1 2 e-mail: darma_s@stikom-bali.ac.id, ibsuradarma@stikom-bali.ac.id

  

Abstrak

Internet Service Provider adalah sebuah badan usaha yang bergerak di bidang jasa pengelola

internet. Sebagai sebuah badan usaha penyedia jasa internet yang bersifat komersial, ISP memiliki

penilaian tersendiri dari calon customer. Penilaian yang biasanya digunakan sebagai tolak ukur

pemilihan ISP oleh calon customer antara lain adalah penilaian service hotline, nilai Customer

Interconnect Rate (CIR), Harga, Customer Satisfactions, SLA, dan Perangkat Last Mile. Permasalahan

yang biasanya muncul pada calon customer adalah penentuan prioritas penilaian pemilihan terhadap

beberapa parameter penilaian ISP. Hal yang dapat dilakukan adalah dengan menggunakan teknik

klasifikasi untuk memprioritaskan penilaian dalam pemilihan ISP. Pada penelitian yang dilakukan,

pemilihan algoritma klasifikasi C45 digunakan sebagai algoritma yang membentuk prioritas penilaian

dalam pemilihan ISP dalam bentuk pohon keputusan. Hal ini didasarkan atas keunggulan algoritma C45

yang mampu memangkas struktur hierarki pohon keputusan terhadap parameter yang dimiliki dalam

proses klasifikasi sehingga memudahkan dalam implementasi pengambilan keputusan. Untuk menangani

adanya pembentukan akar yang memiliki nilai ganda pada perhitungan gain ratio di algoritma C45,

pada penelitian yang dilakukan disempurnakan dengan konsep probabilitas yaitu Naïve Bayes. Hasil dari

penelitian yang dilakukan adalah adanya model optimasi dari pohon keputusan yang dihasilkan oleh

algoritma C45 dengan optimasi algoritma Naïve Bayes, dimana Naïve Bayes mampu memilih akar

keputusan saat nilai dari perhitungan gain ratio pada C45 menunjukkan hasil nilai yang sama. Pada

pengujian, dari data uji yang disiapkan, mampu ditelusuri keputusan dalam bentuk klasifikasi yang

berdasarkan pada pembentukan pohon keputusan yang telah dibentuk oleh C45 dengan optimasi Naïve

Bayes pada studi kasus pemilihan ISP.

  Kata kunci: Algoritma C45, Naïve Bayes, Internet Service Provider.

  

Abstract

Internet Service Provider is a business engaged in the services of Internet management. As an

Internet service provider business that is commercial, ISP has its own assessment of customer candidate.

  

Assessments commonly used as a benchmark for ISP selection by prospective customers include service

hotline assessments, Customer Interconnect Rate (CIR), Price, Customer Satisfactions, SLA and Last

Mile Devices. The problem that arises in the prospective customer is the determination of the priority of

the election assessment on the ISP assessment parameters. The solution for this case is using the

classification techniques to prioritize assessments in the selection of ISPs. In this research, the selection

of C45 classification algorithm is used as an algorithm that forms the priority of assessment in the

selection of ISPs in the form of decision trees. This is based on the superiority of the C45 algorithm that

is able to prune the hierarchical structure of the decision tree against the parameters held in the

classification process so as to facilitate the implementation of decision making. To deal with the existence

of root formation that has a double value in the calculation of gain ratio in the C45 algorithm, the

research conducted is refined with the concept of probability is Naïve Bayes. The result of this research is

an optimization model of the decision tree produced by C45 algorithm with Naïve Bayes algorithm

optimization, where Naïve Bayes is able to choose the root of the decision when the value of the

calculation of gain ratio at C45 shows the same value. In the test, from the prepared test data, traceable

decision in the form of classification based on the formation of decision trees that have been formed by

C45 with optimization Naïve Bayes on ISP selection case studies.

  Keywords : C45 Algorithm, Naïve Bayes, Internet Service Provider.

   L-2

  1. Pendahuluan

  Pemilihan jasa Internet Service Provider atau sering disebut dengan ISP pada sebuah perusahaan merupakan hal yang penting. Semakin baik kualitas ISP yang digunakan oleh perusahaan akan berdampak pada kualitas kinerja karyawannya. Beberapa kriteria dalam penilaian ISP yang umumnya digunakan sebagai parameter pemilihan oleh customer antara lain adalah yaitu Jaminan CIR (Customers

  

Interconnect Rate), Jaminan SLA (Service Level Agreement), Dukungan Teknis dan Hotline, Perangkat

Last Miles, Perbandingan Harga dan Kualitas Layanan, Customer Satisfications, Features, IP Addressing

  dan Legalitas Pemerintah [1]. Permasalahan utama pada pemilihan ISP oleh calon customer adalah prioritas terhadap parameter penilaian. Dalam hal ini yang dimaksud adalah mana parameter penilaian yang menjadi urutan pertama pemilihan ISP. Salah satu contoh penentuan pemilihan ISP yang dikenalkan adalah dengan teknik pembobotan atau weighted product sebagai alternatif penghitungan terhadap penilaian kelayakan ISP [2]. Teknik weighted product yang digunakan berfokus pada pembobotan pada masing-masing parameter dengan hasil penilaian bobot terbesar.

  Pada penelitian yang dilakukan, pemilihan penilaian kelayakan ISP dengan parameter yang sudah ditentukan dilakukan dengan teknik klasifikasi dimana salah satu algoritma yang dipilih adalah algoritma yang mengadopsi teori pengambilan keputusan dengan konsep pohon keputusan yaitu C45. Keunggulannya adalah, dengan adanya pohon keputusan, membangun struktur pemilihan akan lebih mudah dan secara khusus dalam klasifikasi C45 memiliki kemampuan untuk memangkas struktur hierarki pohon keputusan terhadap parameter yang sehingga memudahkan dalam implementasi pengambilan keputusan. Keunggulan lainnya pada algoritma C45 antara lain adalah dapat menangani atribut yang bersifat kontinyu dan diskrit, C45 dapat menangani training data dengan missing value, hasil pohon keputusan C45 akan dipangkas setelah dibentuk dan pemilihan atribut yang dilakukan dengan menggunakan Gain ratio dan menjadikan sebuah akar pengambilan keputusan dengan nilai parameter sebagai cabang keputusan [3]. Dan untuk penyempurnaan permasalahan pada C45 yaitu permasalahan nilai perhitungan yang sama pada parameter yang berbeda dari hasil perhitungan nilai Gain Ratio, dilakukan dengan konsep probabilitas yaitu Naïve Bayes. Penggunaan Naïve Bayes dilakukan untuk memastikan nilai dari setiap hasil gain ratio pada C45 yang sama untuk diambil keputusan yang optimal pada struktur pohon keputusan.

  Data parameter yang digunakan dalam penelitian ini sebagai penilaian kelayakan pemilihan ISP adalah Hotline ISP, nilai Customer Interconnect Rate (CIR), Harga, Customer Satisfactions, SLA, Perangkat Last Mile dan memiliki kelas kelayakan untuk diterima dan tidak diterima. Metode C45 yang diimplementasikan dengan optimalisasi Naïve Bayes dan menghasilkan sebuah pohon keputusan dapat digunakan sebagai pedoman serta membantu dalam melakukan pertimbangan mengenai layak atau tidak ISP ini untuk dipilih oleh calon customer baru.

  2. Metodologi Penelitian 2.1. Decision Tree

  Algoritma decision tree menggunakan pendekatan divide-and-conquer. Umumnya digunakan untuk penyelesaian masalah dengan teknik klasifikasi. Model kerja algoritma decision tree adalah bekerja dari atas ke bawah, untuk mencari pada setiap tahap atribut dan membaginya ke dalam bagian terbaik

  

class yang terbentuk. Langkah akhirnya adalah memproses secara rekursif sub masalah yang dihasilkan

  dari pembagian yang dihasilkan. Strategi ini menghasilkan sebuah decision tree yang dapat diubah menjadi satu kumpulan aturan klasifikasi [4].

  Decision tree merupakan salah satu metode klasifikasi yang menggunakan konsep struktur

  pohon (tree) di mana setiap node merepresentasikan atribut, cabangnya merepresentasikan nilai dari atribut, dan daun merepresentasikan kelas. Node yang paling atas dari decision tree disebut sebagai root. Pada decision tree terdapat 3 jenis node, yaitu: a.

  Root Node, merupakan node paling atas, pada node ini tidak ada input dan bisa tidak mempunyai output atau mempunyai output lebih dari satu.

  b.

  Internal Node, merupakan node percabangan, pada node ini hanya terdapat satu input dan mempunyai output minimal dua.

  c.

  Leaf node atau terminal node, merupakan node akhir, pada node ini hanya terdapat satu input dan tidak mempunyai output.

   L-2

  Penerapan Optimasi Algoritma C45 dengan Naïve Bayes pada Pemilihan Internet Service Provider (I Made Darma Susila)

2.2. Algoritma C45

  Perbedaan utama C45 dari ID3 adalah: a.

  Pemilihan atribut yang dilakukan dengan menggunakan Gain ratio.

  d.

  Hasil pohon keputusan C45 akan dipangkas setelah dibentuk.

  c.

  C45 dapat menangani training data dengan missing value.

  b.

  C45 dapat menangani atribut kontinyu dan diskrit.

EKSPLORA INFORMATIKA

   Gambar 1. Contoh struktur pohon keputusan.

  Gambar 1 merupakan ilustrasi decision tree tergantung pada aturan if-then, tetapi tidak membutuhkan parameter dan metrik. Struktur sederhana dan dapat ditafsirkan. Decision tree memungkinkan untuk memecahkan masalah atribut multi-type. Decision tree juga dapat mengelola nilai- nilai yang hilang atau data noise [5].

  Entropy = Entropy untuk sampel-sampel yang memiliki nilai v.

  | S v | = Jumlah sampel untuk nilai v. | S | = Jumlah seluruh sampel data.

  V = Menyatakan suatu nilai yang mungkin untuk nilai A. Values (A) = Himpunan nilai-nilai yang mungkin untuk nilai A.

  Keterangan dari rumus tersebut adalah: A = Atribut.

  Kemudian untuk menghitung information gain, yang digunakan untuk mengukur efektivitas suatu atribut dalam pengklasifikasian data adalah: (2)

  p i = Jumlah sampel untuk kelas i.

  (1) Keterangan dari rumus tersebut adalah : C = Jumlah nilai yang ada pada atribut target.

  Algoritma C45 adalah salah satu algoritma klasifikasi data dengan teknik keputusan yang terkenal dan disukai karena memiliki kelebihan – kelebihan. Kelebihan ini misalnya: dapat mengolah data numerik (kontinyu) dan diskret, dapat menangani nilai atribut yang hilang, menghasilkan aturan – aturan yang mudah diinterpretasikan dan tercepat diantara algoritma – algoritma yang menggunakan memori utama di komputer. Algoritma C45 sendiri merupakan algoritma yang dikembangkan dari algoritma ID3 dimana algoritma ID3 sendiri ditemukan oleh J. Ross Quinlan sejak tahun 1986. Algoritma ID3 memiliki kepanjangan Iterative Dichotomizer 3 dan dikategorikan sebagai algoritma learning. Algoritma ID3 dikatakan algoritma learning karena pada dasarnya pada kecerdasan buatan, terdapat tiga teknik dasar yaitu searching reasoning dan planning yang memerlukan aturan baku dalam penyelesaian masalah. Dalam ID3 ada istilah entropy yaitu ukuran kemurnian suatu atribut sedangkan information gain merupakan pengurangan entropy yang disebabkan oleh partisi berdasarkan suatu atribut. Untuk melakukan perhitungan Entrophy menggunakan rumus sebagai berikut:

  Algoritma C45 sering juga dikatakan sebagai algoritma pohon keputusan yang populer pada kelompok algoritma pohon keputusan. Secara mendasar algoritma C45 memiliki kesamaan dengan ID3 dari pembentukan model pohon keputusan.

  Gain ratio yang dimaksud dalam C45 adalah untuk mengatasi bisa yang terjadi pada ID3. Ini

  semacam bentuk normalisasi untuk mendapatkan informasi menggunakan ‘split informasi’, yang didefinisikan sebagai berikut: (3)

  Dimana: D = ruang (data) sample yang digunakan untuk training.

  D j = jumlah sample untuk atribut i.

  Nilai ini merupakan informasi yang potensial yang dihasilkan dengan memisahkan set data pelatihan, D, menjadi partisi v, sesuai dengan hasil v dari tes pada atribut A. Untuk mencari nilai gain

  ratio didefinisikan seperti berikut.

  (4) Pohon keputusan yang dibangun adalah dengan cara membagi data secara rekursif hingga tiap bagian terdiri dari data yang berasal dari kelas yang sama. Bentuk pemecahan (split) yang digunakan untuk membagi data tergantung dari jenis atribut yang digunakan dalam split. Split untuk atribut numerik yaitu mengurutkan contoh berdasarkan atribut kontinyu A, kemudian membentuk minimum permulaan (threshold) M dari contoh-contoh yang ada dari kelas mayoritas pada setiap partisi yang bersebelahan, lalu menggabungkan partisi-partisi yang bersebelahan tersebut dengan kelas mayoritas yang sama. Split untuk atribut diskret A mempunyai bentuk value domain (A). Jika suatu set data

  (A) ε X dimana X

  mempunyai beberapa pengamatan dengan missing value yaitu record dengan beberapa nilai variabel tidak ada. Jika jumlah pengamatan terbatas maka atribut dengan missing value dapat diganti dengan nilai rata- rata dari variabel yang bersangkutan.

2.3. Naïve Bayes

  Metode Bayes merupakan pendekatan statistik untuk melakukan inferensi induksi pada persoalan klasifikasi. Metode ini menggunakan probabilitas bersyarat sebagai dasarnya. Metode Klasifikasi Naïve Bayes didasarkan pada teorema Bayes, dengan asumsi bahwa efek dari nilai atribut pada kelas tertentu tidak tergantung pada nilai dari atribut lainnya. asumsi ini sering dikatakan sebagai “model fitur independen” [6].

  Probabilitas untuk klasifikasi model kondisional adalah sebagai berikut: 1 n

  P(C|F ,…F ) (5)

  Kondisional di atas merupakan variabel kelas dependen C dengan sejumlah kecil hasil atau kelas, tergantung pada beberapa variabel fitur F 1 sampai F n . Sehingga penulisan teori Bayes adalah: (6)

  Persamaan di atas dapat ditulis sebagai: (7) i Asumsi kemandirian bersyarat yang "naif" memegang peranan. Menganggap bahwa setiap fitur j

  F adalah secara kondisi independen terhadap setiap fitur lainnya F untuk ji. Ini berarti bahwa: i j i P ( F | C, F ) = p ( F | C ) (8)

  Untuk i ≠ j, sehingga joint model dapat dinyatakan sebagai: i j i

  P ( F | C, F ) = p ( F | C ) (9)

   L-2

  Penerapan Optimasi Algoritma C45 dengan Naïve Bayes pada Pemilihan Internet Service Provider (I Made Darma Susila) Ini berarti bahwa di bawah asumsi independen di atas, distribusi bersyarat dari variabel kelas C dapat dinyatakan seperti ini: 1 n (10) Dimana Z (bukti) adalah faktor skala tergantung hanya pada F ,…,F , yaitu, sebuah konstanta jika nilai dari variabel fitur diketahui. Model dari bentuk ini jauh lebih mudah dikelola, karena mereka memecah menjadi class prior

  

p(C) dan distribusi probabilitas independen p(F i |C). Jika ada k kelas dan jika model untuk masing-masing

i

p(F |C = c) dapat dinyatakan dalam bentuk parameter, maka model Naïve Bayes yang sesuai memiliki (k

  • - 1) + n r k parameter. Dalam praktiknya, sering k = 2 (klasifikasi biner) dan r = 1 (variabel Bernoulli

  sebagai fitur) yang umum, sehingga jumlah parameter model Naïve Bayes adalah 2n + 1, dimana n adalah jumlah fitur biner yang digunakan untuk klasifikasi dan prediksi.

3. Pembahasan dan Hasil

  Pada penelitian yang dilakukan, proses pembentukan pohon keputusan pemilihan ISP ditunjukkan pada Gambar 2. Start Pencarian akar/ parameter dan jumlah data Inisialisasi Penentuan akar / node keputusan dan simpan (nilai gain ratio node berikutnya

  Input Data Latih (Menggunakan Algorima C45) Bentuk Pohon Keputusan Perhitungan Perhitungan Pehitungan Nilai Gain Entropy keputusan akhir Akar/ Node tertinggi) ? tidak Pehitungan Gain ratio Split Info tidak Bentuk Pohon rule / aturan Keputusan pohon Ya Simpan sebagai keputusan Hitung Dengan Probabilitas Nilai Sama Penentuan pada Gain

Ratio ? (Nilai Posterior

ya Posterior Data Hitung Hitung Node / akar tertinggi) End (Naïve Bayes) Hitung Prior pada masing masing kelas label dan parameter Gambar 2. Alur pembentukan pohon keputusan pemilihan ISP.

  Pada Gambar 2 dapat dijelaskan bahwa proses pembentukan pohon keputusan pemilihan ISP diawali dengan meng-input-kan data latih sebagai klasifikasi. Data latih yang dimaksud adalah data pemilihan kriteria. Pada penelitian yang dilakukan, data training yang didapatkan menggunakan 6 parameter yaitu Hotline (dengan nilai parameter ada dan tidak), CIR (dengan nilai parameter 1:1, 1:2 dan 1:4), Harga (dengan nilai parameter murah, standar, dan mahal), Customer Satisfaction (dengan nilai parameter baik, biasa, cukup baik), SLA (dengan nilai parameter 99.5 dan 99.9) dan Perangkat Last Mile (dengan nilai parameter modem dan router). Berdasarkan parameter dan nilai dari masing-masing parameter dilakukan kombinasi data sehingga didapatkanlah total data training sebanyak 216 data. Dari 216 data kemudian menggunakan kepakaran yang didapat dari pakar yang mampu memberikan label kelas pada data training, dengan penilaian kelayakan pemilihan ISP yang ideal dalam sebuah perusahaan. Pada penelitian yang dilakukan data kriteria pemilihan ISP ditunjukkan pada Tabel 1.

  Tabel 1. Penilaian kriteria pemilihan ISP pada calon customer.

  

No Hotline CIR Harga Customer Satisfactions SLA Perangkat Last Mile Status ISP Menurut Customer

  1 Ada 1:2 Standar Baik

  99.5 Router Ya

  2 Ada 1:2 Standar Baik

  99.5 Modem Ya

  3 Ada 1:2 Standar Baik

  99.9 Router Ya

EKSPLORA INFORMATIKA

  

   L-2

  10

  50 Mahal

  21

  71

  40 Standar

  32

  72

  62 Harga Murah

  72

  11

  50 1:4

  22

  72

  40 1:2

  32

  72

  1:1

  44 Tidak 108 108 CIR

  73

  62 Customer Satisfactions Baik

  Atribut Jumlah Kasus Golongan A B Total 216 64 152 Hot line Ada 108

  72 99.5 108

  = 0.056592 Setelah mendapatkan nilai Gain dilakukan penghitungan Split Info.

  = 0.991076 Berikutnya adalah menghitung nilai gain dan didapatkan pada nilai gain pada parameter CIR sebagai berikut:

  76 Setelah melakukan inisialisasi dilakukan perhitungan C45 untuk mencari akar atau node pertama dari pohon keputusan. Diawali dengan menghitung entropi pada algoritma C45. Contoh penghitungan entropi pada parameter CIR dengan nilai 1:1, entropi awal adalah sebagai berikut:

  32

  76 Modem 108

  32

  80 Perangkat Last Mile Router 108

  28

  36

  74

  50 SLA 99.9 108

  22

  72

  57 Cukup Baik

  13

  70

  45 Biasa

  29

  64

  Tabel 2. Inisialisasi parameter dan jumlah data.

  Penerapan Optimasi Algoritma C45 dengan Naïve Bayes pada Pemilihan Internet Service Provider (I Made Darma Susila)

  99.9 Modem Ya

  12 Ada 1:2 Standar Biasa

  99.9 Router Ya

  11 Ada 1:2 Standar Biasa

  99.5 Modem Tidak

  10 Ada 1:2 Standar Biasa

  99.5 Router Tidak

  9 Ada 1:2 Standar Biasa

  8 Ada 1:2 Standar Cukup Baik

  13 Ada 1:2 Mahal Baik

  99.9 Router Ya

  7 Ada 1:2 Standar Cukup Baik

  99.5 Modem Tidak

  6 Ada 1:2 Standar Cukup Baik

  99.5 Router Tidak

  5 Ada 1:2 Standar Cukup Baik

  99.9 Modem Ya

  4 Ada 1:2 Standar Baik

  99.9 Modem Ya

  99.5 Router Tidak

  

customer, dimana untuk kelas label Ya menjadi Golongan A dan Tidak menjadi Golongan B. Didapatkan

hasil inisialisasi pada Table 2.

  18 Ada 1:2 Mahal Cukup Baik

  99.9 Modem Tidak Setelah memiliki data kualifikasi ISP, berikutnya dilakukan inisialisasi parameter dan jumlah data. Untuk memudahkan perhitungan pada penelitian menginisialisasi kelas label status ISP menurut

  99.5 Modem Tidak ... … … … … … … … 216 Ada 1:2 Mahal Biasa

  21 Ada 1:2 Mahal Biasa

  99.5 Router Tidak

  20 Ada 1:2 Mahal Biasa

  99.9 Modem Tidak

  19 Ada 1:2 Mahal Cukup Baik

  99.9 Router Tidak

  99.5 Modem Tidak

  13 Ada 1:2 Mahal Baik

  17 Ada 1:2 Mahal Cukup Baik

  99.5 Router Tidak

  16 Ada 1:2 Mahal Cukup Baik

  99.9 Modem Ya

  15 Ada 1:2 Mahal Baik

  99.9 Router Ya

  14 Ada 1:2 Mahal Baik

  99.5 Modem Tidak

  = 1.584963 Setelah mendapatkan Split info dilakukan perhitungan terakhir yaitu gain ratio, dan didapatkan nilai pada parameter CIR sebagai berikut: Hasil perhitungan pertama di dapatkan node awal adalah parameter hotline ditunjukkan pada

  Tabel 3. Parameter hotline dipilih karena memiliki nilai gain ratio tertinggi dan parameter lainnya tidak ada yang sama dengan nilai gain ratio parameter hotline.

  Tabel 3. Perhitungan akar keputusan pertama.

  

Entropi

Jumlah

Atribut Split Gain

Kasus Total Gain

  Info Ratio

  Total 216 0.876716289 Ada 108 0.975119065

  

Hot line 0.389157 1.000000 0.389157

  Tidak 108 1:1 72 0.99107606

  CIR 1:2 72 0.88797632 0.056592 1.584963 0.035705 1:4 72 0.581321499 Murah 72 0.99107606

  Harga Standar 71 0.876064368 0.051710 1.584870 0.032627 Mahal 73 0.611551695 Baik 74 0.966009606

  Customer Biasa

  70 0.692419486 0.025381 1.584591 0.016018

  Satisfactions

  Cukup 72 0.88797632 Baik 99.9 108 0.918295834

  SLA 0.004755 1.000000 0.004755 99.5 108 0.825626526 Router 108 0.876716289

  Perangkat 0.000000 1.000000 0.000000

  Last Mile Modem 108 0.876716289 Pembentukan node awal ditunjukkan pada Gambar 3.

  

Hotline

Ada Tidak

??? ???

Gambar 3. Pembentukan node pertama pohon keputusan.

  Setelah pembentukan akar pertama, maka penghitungan dilakukan perulangan dengan menghitung dari data yang memiliki nilai parameter hotline ada dan nilai parameter hotline tidak ada. Pada Iterasi kedua pada penentuan Akar dari parameter Harga ditunjukkan pada Tabel 4, memiliki kesamaan nilai gain ratio yang sama.

  Tabel 4. Penghitungan iterasi 2 hasil sama pada gain ratio.

  Jumlah Golongan Entropi Gain Atribut Nilai Gain Split Info Kasus Total A B Ratio

  Total

  36

  32 4 0.503258 Murah

  12 12 0.000000 Harga

  0.197160 1.584963 0.124394 Standar

  12 12 0.000000 Mahal

  12

  8 4 0.918296

  Customer Baik

  12 12 0.000000 0.197160 1.584963 0.124394

  Satisfactions Biasa

  12

  8 4 0.918296 Cukup

  12 12 0.000000 Baik

  SLA

  99.9

  18

  16 2 0.503258 0.000000 1.000000 0.000000

  99.5

  18

  16 2 0.503258 Perangkat Router

  18

  16 2 0.503258 0.000000 1.000000 0.000000

  Last Mile

  Modem

  18

  16 2 0.503258

EKSPLORA INFORMATIKA

  

   L-2

  Penerapan Optimasi Algoritma C45 dengan Naïve Bayes pada Pemilihan Internet Service Provider (I Made Darma Susila)

  Pada saat terjadi nilai sama pada perhitungan gain ratio maka digunakan algoritma Naïve Bayes untuk memilih node keputusan berikutnya. Pada penelitian yang dilakukan, data perhitungan yang digunakan untuk memilih node harga atau Customer Satisfaction, digunakan kemungkinan muncul pada data latih yang ditunjukkan pada Tabel 5.

  Tabel 5. Kemungkinan pilihan node pada data latih.

  Pilihan Pertama Pilihan Kedua Hasil Pilihan Node

  Murah Baik Harga Murah Biasa Harga Murah Cukup Baik Harga Standar Baik Customer Satisfactions Standar Biasa Harga Standar Cukup Baik Harga Mahal Baik Customer Satisfactions Mahal Biasa Customer Satisfactions Mahal Cukup Baik Customer Satisfactions Baik Murah Harga Baik Standar Customer Satisfactions Baik Mahal Customer Satisfactions Cukup Baik Murah Harga Cukup Baik Standar Harga Cukup Baik Mahal Customer Satisfactions Biasa Murah Harga Biasa Standar Harga Biasa Mahal Harga

  Berdasarkan data kemungkinan pemilihan node pada data pada Tabel 5 maka dilakukan perhitungan Naïve Bayes yang menghitung nilai Prior dan Posterior dan ditunjukkan pada Tabel 6.

  Tabel 6. Hasil perhitungan prior dan posterior.

  

Prior Pilihan Pertama Prior Pilihan Kedua Posterior Klasifikasi

Bayes (Pilihan Node) Harga Cust. Satisf Harga Cust. Satisf Harga Cust. Satisf

  0.2727 0.0000 0.0909 0.2857 0.0152 0.0000 Harga 0.2727 0.0000 0.1818 0.1429 0.0303 0.0000 Harga 0.2727 0.0000 0.1818 0.1429 0.0303 0.0000 Harga 0.1818 0.2500 0.0909 0.2857 0.0101 0.0278 Cust. Satisf 0.1818 0.2500 0.1818 0.1429 0.0202 0.0139 Harga 0.1818 0.2500 0.1818 0.1429 0.0202 0.0139 Harga 0.0000 0.7500 0.0909 0.2857 0.0000 0.0833 Cust.Satisf 0.0000 0.7500 0.1818 0.1429 0.0000 0.0417 Cust.Satisf 0.0000 0.7500 0.1818 0.1429 0.0000 0.0417 Cust.Satisf 0.0909 0.5000 0.2727 0.0000 0.0152 0.0000 Harga 0.0909 0.5000 0.1818 0.1429 0.0101 0.0278 Cust.Satisf 0.0909 0.5000 0.0909 0.2857 0.0051 0.0556 Cust.Satisf 0.1818 0.2500 0.2727 0.0000 0.0303 0.0000 Harga 0.1818 0.2500 0.1818 0.1429 0.0202 0.0139 Harga 0.1818 0.2500 0.0909 0.2857 0.0101 0.0278 Cust.Satisf 0.2727 0.0000 0.2727 0.0000 0.0455 0.0000 Harga 0.2727 0.0000 0.1818 0.1429 0.0303 0.0000 Harga 0.2727 0.0000 0.0909 0.2857 0.0152 0.0000 Harga

  Dari hasil perhitungan yang didapat, dalam penghitungan posterior, dapat dilihat bahwa dominan node terpilih adalah node harga. Maka untuk melanjutkan iterasi pada C45 akan di pilih node harga pada akar parameter CIR nilai 1:1 yang ditunjukkan pada Gambar 4.

   Hotline CIR Ada Tidak 1:2 1:4 1:1 ??? ??? ??? TIDAK HARGA Standar Murah Mahal ??? ??? Gambar 4. Pembentukan node hasil optimasi Naïve Bayes.

  6 stu Tidak 1:1 Mahal Biasa

  99.9 Modem ??? Dari data uji pada Tabel 7, dilakukan penelusuran hasil keputusan pemilihan ISP sesuai pada struktur pohon keputusan yang dihasilkan oleh algoritma C45 dengan optimasi Naïve Bayes (Gambar 5). Salah satu contoh proses penelusuran yang dilakukan, mengambil data uji pada no. 5 pada Tabel 7. Proses penelusuran ditunjukkan pada Gambar 6.

  10 mno Ada 1:4 Standar Cukup Baik

  ???

  99.9 Router

  99.9 Router ??? 9 gno Tidak 1:2 Standar Baik

  99.5 Router ??? 8 jkl Tidak 1:1 Mahal Biasa

  7 Adc Tidak 1:1 Murah Biasa

  ???

  99.5 Router

  99.5 Modem ???

  Perhitungan algoritma C4.5 dilakukan berulang hingga mendapatkan kedalaman pohon keputusan paling dalam. Hasil yang didapat pada penelitian menunjukkan bentuk Pohon Keputusan sebagai berikut: Gambar 5. Hasil akhir pembentukan pohon keputusan.

  5 xyz Ada 1:1 Standar Baik

  99.9 Modem ???

  99.5 Modem ??? 4 ghi Ada 1:4 Murah Biasa

  99.9 Router ??? 3 pqr Tidak 1:2 Mahal Baik

  99.9 Router ??? 2 abc Ada 1:4 Mahal Biasa

  1 def Ada 1:4 Murah Cukup Baik

  

No. Nama ISP Hotline CIR Harga Customer Satisfactions SLA Perangkat Last Mile Status ISP

  Tabel 7. Penilaian kriteria pemilihan ISP pada calon customer.

  Setelah mendapatkan struktur pohon keputusan yang dihasilkan dari algoritma, maka dilakukan pengujian dengan data uji. Pada penelitian ini, data uji diambil secara acak sebanyak 10 buah data uji yang ditunjukkan pada Tabel 7.

EKSPLORA INFORMATIKA

  CIR TIDAK Ada Hotline Tidak Murah Standar HARGA HARGA HARGA Mahal 1:1 1:2 1:4 Customer YA YA Satisfactions Gambar 6. Hasil penelusuran pohon keputusan pada data uji.

  Dari Gambar 6, dapat dijelaskan bahwa ISP xyz yang akan dicek pertama adalah parameter ketersediaan layanan Hotline dengan nilai “ada”, kemudian CIR dengan nilai 1:1. Pada pohon keputusan CIR dengan nilai 1:1 akan dilihat parameter harga. Data uji memiliki nilai harga standar, maka menghasilkan keputusan status ISP menurut calon customer adalah iya diterima untuk digunakan. Pada Gambar 6 juga dapat dijelaskan keuntungan Algoritma C45 bahwa untuk menghasilkan keputusan diterima, tidak diperlukan penelusuran ke semua parameter yang ada, cukup hanya terhadap tiga parameter dari tujuh parameter penilaian ISP yang ada. Dan Hal ini membuktikan bahwa penelusuran dengan C45 lebih cepat dan efisien. Hasil dari penelusuran pohon keputusan pada data uji (Tabel 7), ditunjukkan pada Tabel 8.

  Tabel 8. Hasil penelusuran data uji.

  Customer Perangkat Last

No. Nama ISP Hotline CIR Harga SLA Status ISP

Satisfactions Mile

  1 def Ada 1:4 Murah Cukup Baik

  99.9 Router Ya 2 abc Ada 1:4 Mahal Biasa

  99.9 Router Tidak 3 pqr Tidak 1:2 Mahal Baik

  99.5 Modem Tidak 4 ghi Ada 1:4 Murah Biasa

  99.9 Modem Tidak 5 xyz Ada 1:1 Standar Baik

  99.5 Modem Ya 6 stu Tidak 1:1 Mahal Biasa

  99.5 Router Tidak

  7 Adc Tidak 1:1 Murah Biasa

  99.5 Router Tidak 8 jkl Tidak 1:1 Mahal Biasa

  99.9 Router Tidak 9 gno Tidak 1:2 Standar Baik

  99.9 Router Tidak 10 mno Ada 1:4 Standar Cukup Baik

  99.9 Modem Tidak Berdasarkan hasil yang ditunjukkan pada Tabel 8, terlihat bahwa keputusan terpendek adalah saat penelusuran parameter Hotline dengan nilai dari parameter adalah tidak yang menghasilkan hasil klasifikasi tidak. Dan penelusuran akan dilanjutkan apabila penelusuran pada parameter hotline dengan nilai parameter ada. Penelusuran pada data uji akan terus ditelusuri hingga menemui hasil akhir atau berupa keputusan sesuai dengan struktur pohon keputusan pada Gambar 5. Hal ini menyimpulkan bahwa pohon keputusan mampu untuk digunakan sebagai model pohon keputusan untuk pemilihan ISP.

4. Kesimpulan

  Berdasarkan pada pembahasan dan hasil yang telah dipaparkan, dapat disimpulkan bahwa algoritma C45 dapat membentuk sebuah struktur pohon keputusan khususnya pada studi kasus pemilihan prioritas dalam penilaian ISP. Permasalahan pada algoritma C45 yang memungkinkan menghasilkan nilai

  

gain ratio ganda, dapat dioptimalkan dengan algoritma Naïve bayes. Dari hasil penelusuran pohon

  keputusan yang dilakukan terhadap contoh data uji, menghasilkan bahwa pohon keputusan yang dibentuk dapat mengefisiensikan penelusuran, karena tidak memerlukan penelusuran ke semua parameter dalam penilaian ISP.

  Daftar Pustaka

  [1] Stiawan, D. (2015). Konsep Dasar Internet Tips Memilih ISP. Retrieved from http://www.academia.edu: https://www.academia.edu/11250391/Konsep_Dasar_Internet_Tips_Memilih_ISP

   L-2

  Penerapan Optimasi Algoritma C45 dengan Naïve Bayes pada Pemilihan Internet Service Provider (I Made Darma Susila)

  [2] Marwa, S. (2015). Sistem Pendukung Keputusan Pemilihan Layanan Internet Service Provider.

  Indonesian Journal on Networking and Security, Vol. 4, No. 4. [3] Quinlan, J. (1993). C 45 : Progrmas for Machine Learning. San Mateo: Morgan Kaurmann. [4]

  Witten, I. F. (2011). Data Mining Practical Machine Learning Tools and Techniques(3rd ed). USA: Elsevier. [5]

  Dua, S. X. (2011). Data Mining and Machine Learning in Cybersecurity. USA: Taylor and Francis Group. [6] Larose, D. T. (2005). Discovering Knowledge in Data. New Jersey: John Willey & Sons Inc. [7]

  Frankish K., Ramsey WM.,“The Cambridge Handbook of Artificial Intelligence”, Cambridge University : United Kingdom, 2014. [8]

  J. Wu and Z. Cai, “A naive Bayes probability estimation model based on self-adaptive differential evolution,” Journal of Intelligent Information Systems, vol. 42, no. 3, pp. 671–694, 2014.

EKSPLORA INFORMATIKA

  