Data Prepocessing Landasan Teori

15 Beberapa kegiatan pada tahap penerapan adalah sebagai berikut, 1. Menentukan rencana penerapan hasil data mining, 2. Menentukan rencana pengawasan dan pemeliharaan, 3. Membuat laporan akhir, dan 4. Melakukan ulasan terhadap proyek yang telah dilakukan.

II.2.3. Data Prepocessing

Proses pemodelan pada data mining memerlukan data yang berkualitas. Namun data pada sebuah perusahaan sangat mungkin untuk tidak akurat, tidak lengkap dan tidak konsisten. Hal tersebut dapat disebabkan oleh banyak faktor, salah satunya adalah kesalahan manusia atau program saat proses memasukkan data. Data preprocessing dapat dilakukan untuk memperbaiki kualitas data, sehingga dapat meningkatkan akurasi dan efisiensi hasil data mining [6]. Beberapa kegiatan pada data preprocessing adalah sebagai berikut. a. Menangani nilai kosong Keberadaan nilai kosong pada data adalah masalah yang sering terjadi. Nilai kosong ini akan mempengaruhi hasil analisis data. Nilai kosong pada data biasanya disebabkan oleh kesalahan input atau suatu atribut yang memang tidak memiliki sebuah nilai. Oleh karena itu, nilai kosong pada data perlu ditangani dengan metode yang sesuai. Salah satu cara yang dapat digunakan adalah menghapus data yang memiliki nilai kosong [6]. Setiap objek yang mengandung nilai kosong akan dihapus agar tidak mempengaruhi informasi yang terdapat dalam data. Tabel II.1 merupakan contoh data yang memiliki nilai kosong. Tabel II.1 Data yang memiliki nilai kosong Pelanggan Item Custom_name Jumlah_item A Jersey Persib, Jersey Sriwijaya FC Gumbs 17 1 2 B Jersey PBR DEJAN No.punggung 12 1 1 C - 3 D Persipura Home Away Size M, Persib Home Size M 3 buah, Mitra Kukar Away Size S 6 E 1 16 Sedangkan Tabel II.2 merupakan contoh data setelah nilai kosong dihapus. Tabel II.2 Data setelah nilai kosong dihapus Pelanggan Item Custom_name Jumlah_item A Jersey Persib, Jersey Sriwijaya FC Gumbs 17 1 2 B Jersey PBR DEJAN No.punggung 12 1 1 D Persipura Home Away Size M, Persib Home Size M 3 buah, Mitra Kukar Away Size S 6 b. Menghapus noise Data yang salah, data yang tidak memiliki arti dan outliers dapat direpresentasikan sebagai noise. Seperti halnya nilai kosong, noise juga akan mempengaruhi hasil pemodelan data mining. Untuk itu noise perlu dihapus agar menghasilkan model yang berkualitas. Cara yang dapat digunakan untuk menghapus noise adalah dengan melakukan smoothing. Salah satu teknik untuk melakukan smoothing adalah dengan menggunakan metode binning [6]. Metode binning digunakan untuk membagi sekumpulan nilai numerik ke dalam beberapa partisi atau bin. Binning dimulai dengan mengurutkan setiap nilai pada sebuah atribut. Kemudian setiap nilai dipartisi ke dalam bin yang kurang lebih memiliki frekuensi yang sama equal-frequency partitioning. Setelah itu, data pada setiap bin diganti dengan nilai batas bin terdekat smoothing by bin boundaries. Nilai batas bin merupakan nilai minimum dan maksimum pada setiap bin. Sebagai contoh, atribut jumlah_produk memiliki 12 nilai yang telah diurutkan yaitu 1, 4, 6, 9, 12, 14, 17, 20, 22, 22, 23, 29. Sedangkan jumlah bin yang ditentukan adalah 3. Tabel II.3 merupakan hasil binning pada atribut jumlah_produk. Tabel II.3 Hasil binning pada sebuah atribut Bin ke- Nilai 1 1, 4, 6, 9 2 12, 14, 17, 20 3 22, 22, 23, 29 17 Untuk melakukan smoothing pada atribut jumlah_produk, maka semua nilai diganti dengan nilai batas terdekat setiap bin. Tabel II.4 merupakan hasil smoothing pada atribut jumlah_produk. Tabel II.4 Hasil smoothing pada sebuah atribut Bin ke- Nilai 1 1, 1, 9, 9 2 12, 12, 20, 20 3 22, 22, 22, 29 c. Pembangunan atribut Pembangunan atribut attribute construction merupakan proses pembentukan atribut-atribut baru dari atribut yang sudah ada. Teknik tersebut digunakan untuk membantu dalam proses pembentukan model. Penurunan atribut juga berguna untuk menyeragamkan tipe data atribut, sehingga akan lebih mudah dalam proses pemodelan. Tabel II.5 berisi atribut jumlah_produk yang akan diturunkan menjadi beberapa atribut. Tabel II.5 Data sebelum penurunan atribut Pelanggan Jumlah_produk A 3 B 2 C 1 D 3 E 1 Atribut jumlah_produk pada Tabel II.5 akan diturunkan menjadi beberapa atribut dengan tipe data biner. Untuk setiap nilai v buat sebuah variabel biner jumlah_produk_v, isi dengan nilai 1 jika jumlah_produk = v dan nilai 0 jika sebaliknya. Tabel II.6 merupakan data hasil penurunan atribut jumlah_produk menjadi beberapa atribut biner. 18 Tabel II.6 Data hasil penurunan atribut Pelanggan Jumlah_produk_1 Jumlah_produk_2 Jumlah_produk_3 A 1 B 1 C 1 D 1 E 1

II.2.4. Hierarchical Clustering