18
BAB III ANALISA DAN PERANCANGAN SISTEM
Pada bab ini dijelaskan analisis sistem yang akan dibuat dan perancangan untuk melakukan prediksi dalam pendistribusian produk helm di perusahaan XYZ dengan
menggunakan algoritma naïve bayesian.
3.1 Analisis Sistem
Sistem  yang  dibuat  memiliki  kemampuan  untuk  memprediksi pendistribusian suatu produk helm di perusahaan XYZ berdasarkan wilayah,
warna, merk, dan tipe. Sistem prediksi pendistribusian penjualan produk helm ini menggunakan algoritma naïve bayesian. Data penjualan yang dibutuhkan
adalah  data  penjualan  helm  di  perusahaan  XYZ  di  tahun  2014.  Data-data penjualan ini akan diubah menjadi data berbentuk nominal pada saat tahap
pre-processing  sehingga  dapat  diolah  dengan  teknik  naïve  bayesian. Selanjutnya, data penjualan akan masuk ke dalam proses training dan testing,
serta pada akhirnya akan mendapatkan keputusan atau output berupa daerah atau wilayah pemasaran dari suatu produk helm yang ditentukan. Sistem ini
akan  diimplementasikan  ke  sebuah  aplikasi  dengan  menggunakan  bahasa pemrograman Java.
3.2 Tahap-Tahap KDD Knowledge Discovery in Database
Setelah  data  mentah  diperoleh  maka  selanjutnya  dilakukan  proses KDD Knowledge Discovery in Database dengan tahapan seperti berikut ini:
1. Pembersihan data Data Cleaning
Pada tahap ini juga dilakukan penyeleksian atribut-atribut pada data penjualan yang tidak relevan terhadap penelitian yang dilakukan, seperti
satuan, size, harga jual, quantity, discount, harga satuan, sisa pesan, status retur  order,  dan  status  nota  kredit.  Pada  data  penjualan  mentah  yang
diperoleh dari perusahaan terdapat beberapa record yang mempunyai data yang tidak lengkap missing value. Jumlah data awal yang diperoleh
19 adalah 834 records untuk data penjualan yang telah berlangsung di tahun
2014 di atas dapat dilihat pada lampiran 3 dalam tugas akhir ini.
2. Seleksi data Data Selection dan Integrasi data Data Integration
Tahap  selanjutnya  akan  dilakukan  penyeleksian  terhadap  data-data penjualan yang kurang relevan dengan penelitian yang dilakukan. Setelah
dilakukan proses penyeleksian data kemudian tahap selanjutnya dilakukan penggabungan  seluruh  data  yang  telah  diperoleh  yang  dikenal  dengan
integrasi data. Data mentah yang diperoleh disajikan secara terpisah, yaitu data penjualan dan data  penjualan kanvaser.  Data penjualan  yang sama
disatukan  dalam  satu  file  yang  berekstensi  .csv  atau  .xls  sesuai  dengan atribut-atribut  yang sesuai dari penelitian. Setelah disatukan dalam satu
file, maka data penjualan dapat disimpan dalam tabel pada database. Hasil pada  tahap  ini  yaitu  sample  data  penjualan  tahun  2014  yang  telah
dilakukan  disimpan  dalam  file  dataTraining_dataSet.csv  atau dataTraining_dataSet.xls.
3. Transformasi data
Pada  tahap  transformasi  data,  data  penjualan  diklasifikasikan  menjadi wilayah-wilayah  tertentu  sesuai  dengan  hasil  yang  pernah  didapatkan.
Untuk memudahkan proses penambangan data,  maka  sample  data  yang telah  digabungkan  pada  proses  intergrasi  data  akan  dikelompokkan
berdasarkan wilayah atau daerah yang sudah ditetapkan oleh perusahaan.
4. Penerapan teknik data mining
Data-data  penjualan  yang  telah  diolah  pada  tahap  sebelumnya kemudian  akan  diolah  menggunakan  algoritma  naïve  bayesian.  Data
penjualan yang digunakan untuk penelitian terbatas pada beberapa hasil dari transaksi penjualan yang telah dilakukan oleh perusahaan XYZ.
a. Variabel Input
Variabel-variabel yang menjadi variable input dalam sistem ini, antara lain merk, tipe, dan warna dari produk suatu helm.
b. Variabel Output
Proses prediksi akan menghasilkan hasil prediksi wilayah atau daerah tertentu  yang  sesuai  dengan  produk  helm  yang  ditentukan.  Pada
20 penelitian ini, keterangan wilayah atau daerah akan menjadi hasil atau
keluaran yang berupa prediksi pendistribusian penjualan suatu produk helm.
5. Evaluasi pola yang ditemukan
Pada tahap ini akan dilakukan proses untuk mengukur akurasi sistem yang telah dibuat. Proses pengukuran akan dilakukan menggunakan teknik
k-fold  cross  validation.  K-fold  cross  validation  merupakan  salah  satu metode yang bisa digunakan untuk mengukur kinerja dari sebuah model
prediktif.  Dalam  k-fold  cross  validation,  data  akan  dikelompokkan  ke dalam k buah partisi atau kelompok dengan ukuran yang sama. Masing-
masing kelompok akan mengalami posisi sebagai data testing dan sebagai data training. HanKamber, 2001. Metode pengukuran cross validation
dengan nilai fold = 10.
Akhir  dari  tahap  ini  adalah  diperolehnya  presentase  akurasi  antara data  training  dengan  data  testing,  sehingga  dapat  ditentukan  tingkat
keberhasilan proses penambangan data yang telah dilakukan. Rumus untuk menghitung akurasi dapat dilihat pada rumus 3.1, sebagai berikut:
........... 3.1
21
3.3 Analisis Kebutuhan Pengguna