Data yang Digunakan Praproses Data

BAB III ANALISIS DAN PERANCANGAN SISTEM

3.1 Data yang Digunakan

Pada penelitian ini data yang digunakan adalah dataset yang bertipe record, berupa data transaksi penjualan produk pada swalayan yang berbentuk struk belanjaan. Data awal yang didapat berupa data mentah sebanyak 1022 data atau 1022 struk belanjaan. Pada Gambar 3.1 dapat dilihat salah satu contoh dari struk belanjaan. Data mentah tersebut akan diubah kedalam bentuk record yang akan menjadi dataset sebanyak 1022 record. Dataset ini terdiri dari 7 atribut. Adapun atribut-atribut yang dimaksud yaitu nama produk, jumlah produk, harga produk, total harga, tunai dan kembalian. Seluruh atribut pada dataset selanjutnya akan diseleksi pada tahapan praproses data.

3.2 Praproses Data

Tahap praproses data merupakan tahap seleksi data yang bertujuan untuk mendapatkan data yang bersih dan siap untuk digunakan dalam penelitian. Tahapan yang dikerjakan adalah melakukan perubahan terhadap beberapa tipe data pada atribut dataset dengan tujuan untuk mempermudah pemahaman terhadap isi record dan juga melakukan seleksi dengan memperhatikan konsistensi data, missing value dan redundant data.

3.2.1 Penentuan Kelompok Jenis Produk

Seperti yang dapat dilihat pada Gambar 3.1, terdapat beberapa atribut yaitu nama produk, jumlah produk, harga produk, total harga, tunai dan kembalian. Dari semua atribut tersebut hanya beberapa yang akan digunakan dan dianggap cukup memenuhi untuk dilakukannya penelitian. Adapun atribut tersebut yaitu nama produk dan jumlah produk. Gambar 3.1 Contoh Struk Belanjaan Pada swalayan banyak sekali terdapat nama-nama produk ataupun merk-merk produk yang tidak bisa disebutkan satu-satu. Mulai dari jenis produk sampai kegunaan produk tersebut. Oleh karena itu penulis akan membuat pengelompokkan produk berdasarkan jenis-jenisnya. Adapun pengelompokkan produk sebagai berikut: 1. Makanan Ringan Disini semua jenis makanan ringan seperti chitato, roti tawar, keripik dan lain-lain akan dikelompokkan ke dalam atribut makanan ringan. 2. Minuman Semua jenis minuman mulai dari minuman botol,minuman kaleng, sirup dan juga termasuk semua jenis susu dikelompokkan ke dalam atribut minuman. 3. Buah-buahan Atribut ini berisi semua jenis buah-buahan. 4. Perawatan Yang termasuk pada atribut ini yaitu perawatan rambut seperti shampoo, conditioner, vitamin rambut dan lain-lain. Perawatan kulit seperti lotion, lulur, dan lain-lain. Perawatan mandi atau peralatan mandi seperti sabun, sikat gigi, pasta gigi dan lain-lain. 5. Bahan Dapur Bahan dapur seperti semua jenis indomie. Bumbu-bumbu dapur seperti kecap, saossambal, merica, ajinamoto, minyak goreng, gula, garam dan lain-lain dikelompokkan ke dalam atribut bahan dapur. 6. Bahan Makanan Semua jenis bahan makanan mulai dari sayur-sayuran, ayam, ikan, nugget dan juga sossis termasuk ke dalam atribut bahan makanan. 7. Perlengkapan Jenis produk yang termasuk pada atribut ini seperti pewangi baju, pewangi lantai, sabun pencuci piring, pengharum ruangan, baygon dan lain-lain. 8. Obat-obatan Segala jenis obat-obatan termasuk ke dalam atribut ini. 9. Rokok Pada atribut ini berisi semua jenis rokok.

3.2.2. Penentuan Record

Tahap selanjutnya adalah mengubah data mentah menjadi dataset yang berisikan semua kelompok jenis-jenis produk dalam bentuk record. Pada dataset ini nama kelompok produk diubah menjadi variabel sebagai berikut: 1. Makanan ringan diubah menjadi X 1 2. Minuman diubah menjadi X 2 3. Buah-buahan diubah menjadi X 3 4. Perawatan diubah menjadi X 4 5. Bahan dapur diubah menjadi X 5 6. Bahan makanan diubah menjadi X 6 7. Perlengkapan diubah menjadi X 7 8. Obat-obatan diubah menjadi X 8 9. Rokok diubah menjadi X 9

3.2.3. Penentuan Kelompok Berdasarkan Record

Setelah diubah ke dalam bentuk variabel, semua data mentah struk belanjaan dimasukkan ke dalam jenis-jenis kelompok produk sesuai dengan kelompoknya, dapat dilihat pada Tabel 3.1 berikut: Tabel 3.1 Dataset Penjualan Produk No Struk Ke- X 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 1 Struk 1 1 8 2 Struk 2 10 3 3 Struk 3 3 3 4 Struk 4 2 1 5 Struk 5 1 6 Struk 6 2 25 7 Struk 7 1 1 8 Struk 8 2 1 9 Struk 9 1 1 10 Struk 10 5 5 11 Struk 11 6 1 12 Struk 12 1 2 13 Struk 13 4 14 Struk 14 1 1 1 15 Struk 15 2 1 16 Struk 16 4 2 1 17 Struk 17 2 1 18 Struk 18 1 1 1 19 Struk 19 16 2 1 2 1 1 20 Struk 20 6 1 2 11 2 ⁞ 1022 Struk 1022 5 10 8 5 12 Didalam dataset ini data yang dimasukkan berupa berapa jumlah produk yang dibeli oleh konsumen didalam satu struk. Kemudian apabila didalam struk tersebut tidak terdapat atau tidak ada dibelinya produk yang tercantum pada dataset, maka jumlah produknya akan diisi dengan 0. Karena apabila data tersebut kosong, pada tahap pemrosesan akan mengalami eror atau kesalahan. Dataset berjumlah 1022 record dengan 9 atribut, selanjutnya akan diseleksi untuk mendapatkan atribut-atribut yang berisi nilai yang relevan, tidak missing value dan tidak mengalami redundant data. Ketiga syarat tersebut merupakan syarat awal yang harus dilakukan dalam dalam data mining sehingga akan diperoleh dataset yang bersih untuk digunakan pada tahap mining data. Dikatakan missing value jika atribut- atribut dalam dataset tidak berisi nilai atau kosong, sementara itu data dikatakan redundant jika dalam satu dataset yang sama terdapat lebih dari satu record yang berisi nilai yang sama. Berdasarkan Tabel 3.1, ada beberapa atribut yang harus dihilangkan karena atribut-atribut tersebut tidak berpengaruh terhadap hasil yang ingin dicapai. Atribut- atribut tersebut adalah X 8 obat-obatan dan X 9 rokok, karena pada atribut ini jarang sekali konsumen membelinya pada swalayan. Jadi atribut yang digunakan dalam penelitian ini adalah X 1 makanan ringan, X 2 minuman, X 3 buah-buahan, X 4 perawatan, X 5 bahan dapur, X 6 bahan makanan dan X 7 perlengkapan seperti yang dapat dilihat pada Tabel 3.2 berikut: Tabel 3.2 Dataset Penjualan Produk dengan 7 Atribut No Struk Ke- X 1 X 2 X 3 X 4 X 5 X 6 X 7 1 Struk 1 1 8 2 Struk 2 10 3 3 Struk 3 3 3 4 Struk 4 2 1 5 Struk 5 1 6 Struk 6 2 25 7 Struk 7 1 1 8 Struk 8 2 1 9 Struk 9 1 1 10 Struk 10 5 5 11 Struk 11 6 1 12 Struk 12 1 2 13 Struk 13 4 14 Struk 14 1 1 1 15 Struk 15 2 1 16 Struk 16 4 2 1 17 Struk 17 2 1 18 Struk 18 1 1 1 19 Struk 19 16 2 1 2 1 1 20 Struk 20 6 1 2 11 2 ⁞ 1022 Struk 1022 5 10 8 5 12

3.3. Cleaning Data