Analisis Sistem Tahap-Tahap KDD Knowledge Discovery in Database

18

BAB III ANALISA DAN PERANCANGAN SISTEM

Pada bab ini dijelaskan analisis sistem yang akan dibuat dan perancangan untuk melakukan prediksi dalam pendistribusian produk helm di perusahaan XYZ dengan menggunakan algoritma naïve bayesian.

3.1 Analisis Sistem

Sistem yang dibuat memiliki kemampuan untuk memprediksi pendistribusian suatu produk helm di perusahaan XYZ berdasarkan wilayah, warna, merk, dan tipe. Sistem prediksi pendistribusian penjualan produk helm ini menggunakan algoritma naïve bayesian. Data penjualan yang dibutuhkan adalah data penjualan helm di perusahaan XYZ di tahun 2014. Data-data penjualan ini akan diubah menjadi data berbentuk nominal pada saat tahap pre-processing sehingga dapat diolah dengan teknik naïve bayesian. Selanjutnya, data penjualan akan masuk ke dalam proses training dan testing, serta pada akhirnya akan mendapatkan keputusan atau output berupa daerah atau wilayah pemasaran dari suatu produk helm yang ditentukan. Sistem ini akan diimplementasikan ke sebuah aplikasi dengan menggunakan bahasa pemrograman Java.

3.2 Tahap-Tahap KDD Knowledge Discovery in Database

Setelah data mentah diperoleh maka selanjutnya dilakukan proses KDD Knowledge Discovery in Database dengan tahapan seperti berikut ini: 1. Pembersihan data Data Cleaning Pada tahap ini juga dilakukan penyeleksian atribut-atribut pada data penjualan yang tidak relevan terhadap penelitian yang dilakukan, seperti satuan, size, harga jual, quantity, discount, harga satuan, sisa pesan, status retur order, dan status nota kredit. Pada data penjualan mentah yang diperoleh dari perusahaan terdapat beberapa record yang mempunyai data yang tidak lengkap missing value. Jumlah data awal yang diperoleh 19 adalah 834 records untuk data penjualan yang telah berlangsung di tahun 2014 di atas dapat dilihat pada lampiran 3 dalam tugas akhir ini. 2. Seleksi data Data Selection dan Integrasi data Data Integration Tahap selanjutnya akan dilakukan penyeleksian terhadap data-data penjualan yang kurang relevan dengan penelitian yang dilakukan. Setelah dilakukan proses penyeleksian data kemudian tahap selanjutnya dilakukan penggabungan seluruh data yang telah diperoleh yang dikenal dengan integrasi data. Data mentah yang diperoleh disajikan secara terpisah, yaitu data penjualan dan data penjualan kanvaser. Data penjualan yang sama disatukan dalam satu file yang berekstensi .csv atau .xls sesuai dengan atribut-atribut yang sesuai dari penelitian. Setelah disatukan dalam satu file, maka data penjualan dapat disimpan dalam tabel pada database. Hasil pada tahap ini yaitu sample data penjualan tahun 2014 yang telah dilakukan disimpan dalam file dataTraining_dataSet.csv atau dataTraining_dataSet.xls. 3. Transformasi data Pada tahap transformasi data, data penjualan diklasifikasikan menjadi wilayah-wilayah tertentu sesuai dengan hasil yang pernah didapatkan. Untuk memudahkan proses penambangan data, maka sample data yang telah digabungkan pada proses intergrasi data akan dikelompokkan berdasarkan wilayah atau daerah yang sudah ditetapkan oleh perusahaan. 4. Penerapan teknik data mining Data-data penjualan yang telah diolah pada tahap sebelumnya kemudian akan diolah menggunakan algoritma naïve bayesian. Data penjualan yang digunakan untuk penelitian terbatas pada beberapa hasil dari transaksi penjualan yang telah dilakukan oleh perusahaan XYZ. a. Variabel Input Variabel-variabel yang menjadi variable input dalam sistem ini, antara lain merk, tipe, dan warna dari produk suatu helm. b. Variabel Output Proses prediksi akan menghasilkan hasil prediksi wilayah atau daerah tertentu yang sesuai dengan produk helm yang ditentukan. Pada 20 penelitian ini, keterangan wilayah atau daerah akan menjadi hasil atau keluaran yang berupa prediksi pendistribusian penjualan suatu produk helm. 5. Evaluasi pola yang ditemukan Pada tahap ini akan dilakukan proses untuk mengukur akurasi sistem yang telah dibuat. Proses pengukuran akan dilakukan menggunakan teknik k-fold cross validation. K-fold cross validation merupakan salah satu metode yang bisa digunakan untuk mengukur kinerja dari sebuah model prediktif. Dalam k-fold cross validation, data akan dikelompokkan ke dalam k buah partisi atau kelompok dengan ukuran yang sama. Masing- masing kelompok akan mengalami posisi sebagai data testing dan sebagai data training. HanKamber, 2001. Metode pengukuran cross validation dengan nilai fold = 10. Akhir dari tahap ini adalah diperolehnya presentase akurasi antara data training dengan data testing, sehingga dapat ditentukan tingkat keberhasilan proses penambangan data yang telah dilakukan. Rumus untuk menghitung akurasi dapat dilihat pada rumus 3.1, sebagai berikut: ........... 3.1 21

3.3 Analisis Kebutuhan Pengguna