Cleaning Data Uji Coba dengan Algoritma K-Means Clustering

perawatan, X 5 bahan dapur, X 6 bahan makanan dan X 7 perlengkapan seperti yang dapat dilihat pada Tabel 3.2 berikut: Tabel 3.2 Dataset Penjualan Produk dengan 7 Atribut No Struk Ke- X 1 X 2 X 3 X 4 X 5 X 6 X 7 1 Struk 1 1 8 2 Struk 2 10 3 3 Struk 3 3 3 4 Struk 4 2 1 5 Struk 5 1 6 Struk 6 2 25 7 Struk 7 1 1 8 Struk 8 2 1 9 Struk 9 1 1 10 Struk 10 5 5 11 Struk 11 6 1 12 Struk 12 1 2 13 Struk 13 4 14 Struk 14 1 1 1 15 Struk 15 2 1 16 Struk 16 4 2 1 17 Struk 17 2 1 18 Struk 18 1 1 1 19 Struk 19 16 2 1 2 1 1 20 Struk 20 6 1 2 11 2 ⁞ 1022 Struk 1022 5 10 8 5 12

3.3. Cleaning Data

Tahap selanjutnya adalah melakukan cleaning data terhadap data yang memiliki missing value dan redundant data. Pada dataset penjualan produk ini tidak banyak terdapat data yang missing value dan redundant, jadi penulis melakukan pembersihan data seperti: 1. Dataset yang memiliki jumlah produk diatas 40 item. 2. Pada dataset hanya terdapat satu produk saja yang dibeli. Struk Ke X 1 X 2 X 3 X 4 X 5 X 6 X 7 Struk 5 1 Struk 13 4 Struk 46 10 Struk 48 5 3. Pada dataset hanya terdapat dua produk saja yang dibeli. Struk Ke- X 1 X 2 X 3 X 4 X 5 X 6 X 7 Struk 35 4 2 Struk 38 7 2 Struk 67 1 4 Struk 81 2 1 4. Pada dataset hanya terdapat tiga produk saja yang dibeli. Struk Ke- X 1 X 2 X 3 X 4 X 5 X 6 X 7 Struk 447 1 4 1 Struk 458 5 2 1 Struk 467 1 3 1 Struk 483 2 2 2 Setelah dilakukannya tahapan cleaning data terhadap dataset, maka didapat hasil akhir sebanyak 280 record dengan 7 atribut dan mempunyai isi data yang relevan yang dapat dilihat pada Tabel 3.3 berikut: Struk Ke- X 1 X 2 X 3 X 4 X 5 X 6 X 7 Struk 33 1 320 Struk 148 247 109 Struk 446 7 103 20 1 Struk 876 144 1 Tabel 3.3 Dataset yang Telah Dicleaning No Struk Ke- X 1 X 2 X 3 X 4 X 5 X 6 X 7 1 Struk 19 16 2 1 2 1 1 2 Struk 20 6 1 2 11 2 3 Struk 25 6 3 4 1 4 Struk 26 2 4 1 7 5 Struk 29 8 14 2 18 12 6 6 Struk 32 4 1 6 2 7 Struk 34 1 1 5 1 8 Struk 36 7 4 2 1 9 Struk 39 1 6 1 10 10 Struk 41 3 2 2 1 1 11 Struk 43 2 6 2 1 12 Struk 47 1 3 2 1 1 13 Struk 50 1 2 1 1 14 Struk 55 10 15 2 3 8 3 3 15 Struk 56 2 16 6 2 13 16 Struk 58 6 2 2 2 1 17 Struk 60 1 1 15 3 18 Struk 61 9 3 1 1 4 19 Struk 62 3 3 9 2 1 20 Struk 63 11 1 1 2 1 ⁞ 280 Struk 1022 5 10 8 5 12

3.4. Uji Coba dengan Algoritma K-Means Clustering

K-Means adalah salah satu metode data clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster. Metode ini mempartisi data ke dalam cluster sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam cluster yang lain. Tahapan clustering dengan menggunakan K-Means dimulai dengan pembentukan cluster, pembagian cluster ini dipilih secara random, penulis membentuk 5 cluster karena penulis menganggap pembentukan cluster ini sudah memenuhi dalam pembagian jumlah anggota cluster. Proses penghitungan centroid awal dimulai dengan pemberian nama awal cluster dari cluster pertama sampai dengan cluster kelima secara random pada data yang sudah dicleaning data 1-280 seperti pada Tabel 3.4 berikut: Tabel 3.4 Pemberian Nama Cluster Pada Masing-Masing Data No Struk Ke- Cluster Ke- X 1 X 2 X 3 X 4 X 5 X 6 X 7 1 Struk 19 C 16 2 1 2 1 1 2 Struk 20 C 1 6 1 2 11 2 3 Struk 25 C 2 6 3 4 1 4 Struk 26 C 3 2 4 1 7 5 Struk 29 C 4 8 14 2 18 12 6 6 Struk 32 C 4 1 6 2 7 Struk 34 C 1 1 1 5 1 8 Struk 36 C 2 7 4 2 1 9 Struk 39 C 3 1 6 1 10 10 Struk 41 C 4 3 2 2 1 1 11 Struk 43 C 2 6 2 1 12 Struk 47 C 1 1 3 2 1 1 13 Struk 50 C 2 1 2 1 1 14 Struk 55 C 3 10 15 2 3 8 3 3 15 Struk 56 C 4 2 16 6 2 13 16 Struk 58 C 6 2 2 2 1 17 Struk 60 C 1 1 1 15 3 18 Struk 61 C 2 9 3 1 1 4 19 Struk 62 C 3 3 3 9 2 1 20 Struk 63 C 4 11 1 1 2 1 ⁞ 280 Struk 1022 C 4 5 10 8 5 12 Setelah pemberian nama cluster untuk masing-masing data, selanjutnya akan dilakukan penghitungan untuk mendapatkan nilai centroid awal. Penghitungan dilakukan dengan menghitung mean rata-rata pada masing-masing cluster dengan membagi jumlah data yang didapatkan untuk setiap clusternya. Adapun tujuan dari penghitungan centroid awal dengan menggunakan mean rata-rata agar setiap cluster memiliki anggota data pada iterasi pertama yaitu dengan rumus berikut: � = 1 � + 2 � + 3 � + … + � dimana: : rata-rata dari setiap centroid n : jumlah data Adapun penghitungan nilai centroid awal pada masing-masing cluster sebagai berikut: 1. Untuk nilai centroid awal pada cluster pertama C � � � = 19 + 32 + 43 + ⋯ + 1014 56 � � � = 16 + 0 + 0 + ⋯ + 1 56 � � � = 2,91 2. Untuk nilai centroid awal pada cluster kedua C 1 � � � 1 = 20 + 34 + 47 + ⋯ + 1015 56 � � � 1 = 6 + 1 + 1 + ⋯ + 6 56 � � � 1 = 2,84 3. Untuk nilai centroid awal pada cluster ketiga C 2 � � � 2 = 25 + 36 + 50 + ⋯ + 1016 56 � � � 2 = 6 + 7 + 1 + ⋯ + 0 56 � � � 2 = 3,63 4. Untuk nilai centroid awal pada cluster keempat C 3 � � � 3 = 26 + 39 + 55 + ⋯ + 1021 56 � � � 3 = 0 + 0 + 10 + ⋯ + 0 56 � � � 3 = 2,84 5. Untuk nilai centroid awal pada cluster kelima C 4 � � � 4 = 29 + 41 + 56 + ⋯ + 1022 56 � � � 4 = 8 + 3 + 2 + ⋯ + 5 56 � � � 4 = 3,27 Adapun hasil dari centroid awal dari masing-masing cluster dapat dilihat pada Tabel 3.5 berikut: Tabel 3.5 Hasil Centroid Awal Masing-Masing Cluster X C C 1 C 2 C 3 C 4 X 1 2,91 2,84 3,63 2,84 3,27 X 2 2,59 2,32 2,18 2,77 4,14 X 3 0,88 0,77 0,68 0,64 0,75 X 4 2,21 1,5 1,86 1,88 2,23 X 5 5,2 4,86 4,68 5,36 5,3 X 6 1,54 1,7 1,36 1,14 1,5 X 7 2,29 2,14 2,18 2,21 2,43 Setelah penghitungan nilai centroid awal pada masing-masing cluster, tahap selanjutnya adalah melakukan penghitungan untuk menentukan jarak setiap data dengan centroid awal yang telah dibentuk dengan menggunakan rumus euclidiance distance. Hasil dari penghitungan jarak dengan rumus euclidiance distance ini akan berpengaruh pada penempatan setiap data ke cluster tertentu. Penghitungan jarak data awal terhadap nilai centroid masing-masing cluster menggunakan rumus 2.1 yaitu: 1. Jarak antara struk pertama dengan centroid pertama C 1,0 = 16 − 2,91 2 + 0 − 2,59 2 + 0 − 0,88 2 + … + 1 − 2,29 2 1,0 = 13,91 2. Jarak antara struk pertama dengam centroid kedua C 1 1,1 = 16 − 2,84 2 + 0 − 2,32 2 + 0 − 0,77 2 + … + 1 − 2,14 2 1,1 = 13,88 3. Jarak antara struk pertama dengan centroid ketiga C 2 1,2 = 16 − 3,63 2 + 0 − 2,18 2 + 0 − 0,68 2 + 1 − 2,18 2 1,2 = 13,04 4. Jarak antara struk pertama dengan centroid keempat C 3 1,3 = 16 − 2,84 2 + 0 − 2,77 2 + 0 − 0,64 2 + … + 1 − 2,21 2 1,3 = 13,99 5. Jarak antara struk pertama dengan centroid kelima C 4 1,4 = 16 − 3,27 2 + 0 − 4,14 2 + 0 − 0,75 2 + … + 1 − 2,43 2 1,4 = 13,77 Penghitungan jarak data awal dengan centroid masing-masing cluster pada 280 record selanjutnya akan disajikan dalam bentuk Tabel 3.6 berikut: Tabel 3.6 Hasil Penghitungan Jarak Setiap Data Masing-Masing cluster Struk Ke- C C 1 C 2 C 3 C 4 Struk 19 13,91 13,88 13,04 13,99 13,77 Struk 20 7,57 7,61 7,57 7,48 7,91 Struk 25 4,73 4,37 3,94 4,55 4,7 Struk 26 6,2 5,99 6,4 6,12 6,61 Struk 29 21,2 21,46 21,66 21,22 20,26 Struk 32 3,97 3,99 4,62 3,54 3,96 Struk 34 7,48 6,85 7,2 7,73 8,35 Struk 36 6,69 6,58 5,94 6,67 6.42 Struk 39 10,79 10,94 10,88 11,06 11,3 Struk 41 5,34 4,97 4,82 5,53 5,81 Struk 43 4,12 3,7 4,55 3,9 4,86 Struk 47 5,8 5,49 5,61 5,84 6,12 Struk 50 6,3 5,7 5,94 6,35 7,31 Struk 55 14,72 15,1 14,91 14,66 13,24 Struk 56 17,98 18,38 18,37 17,95 16,79 Struk 58 6,19 5,91 6,48 6,11 5,82 Struk 60 10.69 10,84 11,15 10,47 11,14 Struk 62 5,13 5,47 6,01 5,02 5,4 Struk 63 9,27 9,08 8,31 9,33 9,42 ⁞ Struk 1022 13,66 14,17 13,93 14,01 13,86 Setelah melakukan penghitungan jarak data dengan masing-masing cluster, tahap selanjutnya adalah mengelompokkan jarak terkecil disetiap masing-masing cluster. Seperti pada Tabel 3.6, untuk data yang pertama atau struk pertama jarak yang terkecil yaitu 13,04 dan terletak pada C 2 . Maka data pertama akan menjadi anggota dari cluster kedua. Untuk lebih jelasnya anggota data awal untuk masing-masing cluster akan disajikan pada Tabel 3.7 berikut: Tabel 3.7 Anggota Data Awal Masing-Masing Cluster Struk C C 1 C 2 C 3 C 4 Struk 19 Struk 20 Struk 25 Struk 26 Struk 29 Struk 32 Struk 34 Struk 36 Struk 39 Struk 41 Struk 43 Struk 47 Struk 50 Struk 55 Struk 56 Struk 58 Struk 60 Struk 61 Struk 62 Struk 63 ⁞ Struk 1022 Berdasarkan Tabel 3.7 diatas yang merupakan hasil iterasi pertama, jumlah anggota yang didapatkan oleh masing-masing cluster sebagai berikut: 1. Pada cluster pertama C memiliki jumlah anggota 21 data struk, yaitu struk 39, struk 88, struk 97, struk 110, struk 145, struk 162, struk 261, struk 338, struk 341, struk 385, struk 400, struk 414, struk 439, struk 453, struk 474, struk 681, struk 697, struk 841, struk 931, struk 937 dan struk 1022. 2. Pada cluster kedua C 1 memiliki jumlah anggota 87 data struk, yaitu struk 26, struk 34, struk 43, struk 47, struk 50, struk 65, struk 68, struk 80, struk 90, struk 99, struk 106, struk 115, struk 118, struk 119, struk 125, struk 133, struk 134, struk 143, struk 149, struk 150, struk 152, struk 170, struk 173, struk 177, struk 179, struk 182, struk 188, struk 190, struk 205, struk 218, struk 221, struk 225, struk 229, struk 236, struk 237, struk 239, struk 240, struk 264, struk 293, struk 307, struk 309, struk 318, struk 324, struk 351, struk 367, struk 373, struk 378, struk 383, struk 389, struk 404, struk 408, struk 422, struk 469, struk 481, struk 488, struk 504, struk 509, struk 511, struk 512, struk 514, struk 520, struk 536, struk 586, struk 669, struk 776, struk 784, struk 791, struk 811, struk 824, struk 834, struk 839, struk 844, struk 865, struk 874, struk 893, struk 910, struk 929, struk 930, struk 939, struk 943, struk 960, struk 969, struk 981, struk 987, struk 999, struk 1014 dan struk 1016. 3. Pada cluster ketiga C 2 memiliki jumlah anggota 80 data struk, yaitu struk 19, struk 25, struk 36, struk 41, struk 61, struk 63, struk 75, struk 78, struk 86, struk 89, struk 91, struk 100, struk 102, struk 108, struk 121, struk 135, struk 144, struk 155, struk 160, struk 164, struk 172, struk 192, struk 195, struk 203, struk 215, struk 255, struk 265, struk 291, struk 292, struk 313, struk 326, struk 327, struk 362, struk 370, struk 372, struk 376, struk 393, struk 403, struk 424, struk 449, struk 455, struk 472, struk 515, struk 533, struk 546, struk 549, struk 553, struk 560, struk 573, struk 582, struk 602, struk 607, struk 608, struk 621, struk 624, struk 634, struk 642, struk 654, struk 660, struk 667, struk 675, struk 680, struk 695, struk 701, struk 727, struk 729, struk 748, struk 767, struk 782, struk 801, struk 807, struk 815, struk 819, struk 842, struk 855, struk 900, struk 903, struk 985, struk 989 dan struk 1015. 4. Pada cluster keempat C 3 memiliki jumlah anggota 40 data struk, yaitu struk 20, struk 32, struk 60, struk 62, struk 79, struk 153, struk 167, struk 187, struk 198, struk 199, struk 204, struk 253, struk 306, struk 325, struk 378, struk 384, struk 391, struk 393, struk 409, struk 419, struk 433, struk 442, struk 487, struk 569, struk 571, struk 613, struk 614, struk 615, struk 661, struk 673, struk 729, struk 737, struk 765, struk 788, struk 808, struk 838, struk 857, struk 872, struk 921 dan struk 922. 5. Pada cluster kelima C 4 memiliki jumlah anggota 52 data struk, yaitu struk 29, struk 55, struk 56, struk 58, struk 71, struk 84, struk 98, struk 138, struk 146, struk 154, struk 161, struk 166, struk 181, struk 216, struk 226, struk 312, struk 330, struk 333, struk 355, struk 356, struk 363, struk 365, struk 369, struk 379, struk 380, struk 392, struk 399, struk 406, struk 418, struk 420, struk 434, struk 443, struk 451, struk 452, struk 476, struk 477, struk 513, struk 651, struk 688, struk 711, struk 736, struk 837, struk 840, struk 843, struk 861, struk 910, struk 957, struk 958, struk 984, struk 1009, struk 1013 dan 1021. Iterasi pada clustering ini akan berhenti, jika anggota data cluster pada iterasi sebelumnya sama dengan anggota data cluster pada iterasi selanjutnya. Untuk menemukan pada iterasi keberapa proses clustering ini akan berhenti, maka penulis membuat sebuah sistem untuk penggunaan Algoritma K-Means Clustering yang juga akan menghasilakn output berupa model tata letak produk berdasarkan cluster yang diperoleh. Pembahasan mengenai sistem akan dibahas lebih lanjut pada bab IV.

3.5. Perancangan Antarmuka Sistem