18
BAB III ANALISA DAN PERANCANGAN SISTEM
Pada bab ini dijelaskan analisis sistem yang akan dibuat dan perancangan untuk melakukan prediksi dalam pendistribusian produk helm di perusahaan XYZ dengan
menggunakan algoritma naïve bayesian.
3.1 Analisis Sistem
Sistem yang dibuat memiliki kemampuan untuk memprediksi pendistribusian suatu produk helm di perusahaan XYZ berdasarkan wilayah,
warna, merk, dan tipe. Sistem prediksi pendistribusian penjualan produk helm ini menggunakan algoritma naïve bayesian. Data penjualan yang dibutuhkan
adalah data penjualan helm di perusahaan XYZ di tahun 2014. Data-data penjualan ini akan diubah menjadi data berbentuk nominal pada saat tahap
pre-processing sehingga dapat diolah dengan teknik naïve bayesian. Selanjutnya, data penjualan akan masuk ke dalam proses training dan testing,
serta pada akhirnya akan mendapatkan keputusan atau output berupa daerah atau wilayah pemasaran dari suatu produk helm yang ditentukan. Sistem ini
akan diimplementasikan ke sebuah aplikasi dengan menggunakan bahasa pemrograman Java.
3.2 Tahap-Tahap KDD Knowledge Discovery in Database
Setelah data mentah diperoleh maka selanjutnya dilakukan proses KDD Knowledge Discovery in Database dengan tahapan seperti berikut ini:
1. Pembersihan data Data Cleaning
Pada tahap ini juga dilakukan penyeleksian atribut-atribut pada data penjualan yang tidak relevan terhadap penelitian yang dilakukan, seperti
satuan, size, harga jual, quantity, discount, harga satuan, sisa pesan, status retur order, dan status nota kredit. Pada data penjualan mentah yang
diperoleh dari perusahaan terdapat beberapa record yang mempunyai data yang tidak lengkap missing value. Jumlah data awal yang diperoleh
19 adalah 834 records untuk data penjualan yang telah berlangsung di tahun
2014 di atas dapat dilihat pada lampiran 3 dalam tugas akhir ini.
2. Seleksi data Data Selection dan Integrasi data Data Integration
Tahap selanjutnya akan dilakukan penyeleksian terhadap data-data penjualan yang kurang relevan dengan penelitian yang dilakukan. Setelah
dilakukan proses penyeleksian data kemudian tahap selanjutnya dilakukan penggabungan seluruh data yang telah diperoleh yang dikenal dengan
integrasi data. Data mentah yang diperoleh disajikan secara terpisah, yaitu data penjualan dan data penjualan kanvaser. Data penjualan yang sama
disatukan dalam satu file yang berekstensi .csv atau .xls sesuai dengan atribut-atribut yang sesuai dari penelitian. Setelah disatukan dalam satu
file, maka data penjualan dapat disimpan dalam tabel pada database. Hasil pada tahap ini yaitu sample data penjualan tahun 2014 yang telah
dilakukan disimpan dalam file dataTraining_dataSet.csv atau dataTraining_dataSet.xls.
3. Transformasi data
Pada tahap transformasi data, data penjualan diklasifikasikan menjadi wilayah-wilayah tertentu sesuai dengan hasil yang pernah didapatkan.
Untuk memudahkan proses penambangan data, maka sample data yang telah digabungkan pada proses intergrasi data akan dikelompokkan
berdasarkan wilayah atau daerah yang sudah ditetapkan oleh perusahaan.
4. Penerapan teknik data mining
Data-data penjualan yang telah diolah pada tahap sebelumnya kemudian akan diolah menggunakan algoritma naïve bayesian. Data
penjualan yang digunakan untuk penelitian terbatas pada beberapa hasil dari transaksi penjualan yang telah dilakukan oleh perusahaan XYZ.
a. Variabel Input
Variabel-variabel yang menjadi variable input dalam sistem ini, antara lain merk, tipe, dan warna dari produk suatu helm.
b. Variabel Output
Proses prediksi akan menghasilkan hasil prediksi wilayah atau daerah tertentu yang sesuai dengan produk helm yang ditentukan. Pada
20 penelitian ini, keterangan wilayah atau daerah akan menjadi hasil atau
keluaran yang berupa prediksi pendistribusian penjualan suatu produk helm.
5. Evaluasi pola yang ditemukan
Pada tahap ini akan dilakukan proses untuk mengukur akurasi sistem yang telah dibuat. Proses pengukuran akan dilakukan menggunakan teknik
k-fold cross validation. K-fold cross validation merupakan salah satu metode yang bisa digunakan untuk mengukur kinerja dari sebuah model
prediktif. Dalam k-fold cross validation, data akan dikelompokkan ke dalam k buah partisi atau kelompok dengan ukuran yang sama. Masing-
masing kelompok akan mengalami posisi sebagai data testing dan sebagai data training. HanKamber, 2001. Metode pengukuran cross validation
dengan nilai fold = 10.
Akhir dari tahap ini adalah diperolehnya presentase akurasi antara data training dengan data testing, sehingga dapat ditentukan tingkat
keberhasilan proses penambangan data yang telah dilakukan. Rumus untuk menghitung akurasi dapat dilihat pada rumus 3.1, sebagai berikut:
........... 3.1
21
3.3 Analisis Kebutuhan Pengguna