K-Fold Cross Validation LANDASAN TEORI

17

2.2.5. Kelebihan dan Kekurangan Klasifikasi Naïve bayesian

Algoritma naïve bayesian memiliki beberapa kelebihan dan kekurangan yaitu sebagai berikut: Santosa, 2007 Kelebihan naïve bayesian, antara lain: 1. Menangani kuantitatif dan data diskrit. 2. Hanya memerlukan sejumlah kecil data pelatihan training untuk mengestimasi parameter yang dibutuhkan untuk klasifikasi. 3. Kokoh terhadap atribut yang tidak relevan. Kekurangan naïve bayesian, antara lain: Santosa, 2007 1. Tidak berlaku jika probabilitas kondisionalnya adalah nol, apabila nol maka probabilitas prediksi akan bernilai nol juga. 2. Mengasumsikan variabel bebas.

2.3. K-Fold Cross Validation

Cross Validation adalah salah satu metode yang bisa digunakan untuk mengukur kinerja dari sebuah model prediktif. Dalam k-fold cross validation, data akan dipartisi secara acak ke dalam k partisi, D 1 , D 2 ,…,D k , masing-masing D mempunyai jumlah yang sama. Pada iterasi ke-i partisi D i digunakan sebagai data uji, sedangkan sisa partisi digunakan sebagai data pelatihan. Pada iterasi pertama, D 1 digunakan sebagai data uji dan D 2 , D 3 ,….,D k digunakan sebagai data pelatihan. Pada iterasi kedua, D 2 digunakan sebagai data uji, sedangakan D 1 , D 3 ,….,D k digunakan sebagai data pelatihan. Pada iterasi ketiga, D 3 digunakan sebagai data uji, sedangkan D 1 , D 3 ,….,D k digunakan sebagai data pelatihan dan seterusnya. Setiap sample D, hanya digunakan sekali sebagai data uji dan berkali-kali sebagai data pelatihan. Untuk pengklasifikasian, pengukuran keakurasian dapat dihitung dengan rumus, sebagai berikut: ............ 2.7 18

BAB III ANALISA DAN PERANCANGAN SISTEM

Pada bab ini dijelaskan analisis sistem yang akan dibuat dan perancangan untuk melakukan prediksi dalam pendistribusian produk helm di perusahaan XYZ dengan menggunakan algoritma naïve bayesian.

3.1 Analisis Sistem

Sistem yang dibuat memiliki kemampuan untuk memprediksi pendistribusian suatu produk helm di perusahaan XYZ berdasarkan wilayah, warna, merk, dan tipe. Sistem prediksi pendistribusian penjualan produk helm ini menggunakan algoritma naïve bayesian. Data penjualan yang dibutuhkan adalah data penjualan helm di perusahaan XYZ di tahun 2014. Data-data penjualan ini akan diubah menjadi data berbentuk nominal pada saat tahap pre-processing sehingga dapat diolah dengan teknik naïve bayesian. Selanjutnya, data penjualan akan masuk ke dalam proses training dan testing, serta pada akhirnya akan mendapatkan keputusan atau output berupa daerah atau wilayah pemasaran dari suatu produk helm yang ditentukan. Sistem ini akan diimplementasikan ke sebuah aplikasi dengan menggunakan bahasa pemrograman Java.

3.2 Tahap-Tahap KDD Knowledge Discovery in Database

Setelah data mentah diperoleh maka selanjutnya dilakukan proses KDD Knowledge Discovery in Database dengan tahapan seperti berikut ini: 1. Pembersihan data Data Cleaning Pada tahap ini juga dilakukan penyeleksian atribut-atribut pada data penjualan yang tidak relevan terhadap penelitian yang dilakukan, seperti satuan, size, harga jual, quantity, discount, harga satuan, sisa pesan, status retur order, dan status nota kredit. Pada data penjualan mentah yang diperoleh dari perusahaan terdapat beberapa record yang mempunyai data yang tidak lengkap missing value. Jumlah data awal yang diperoleh