Metode Hashing atau Hashmap

6. Ukuran sel tunggal epitel Atribut ini menentukan apakah ephitelial cell cenderung membesar atau tidak. 1-10 7. Bare Nuclei Atribut ini menentukan apakah sel dikelilingi sitoplasma sisa sel atau tidak. 1-10 8. Bland Kromatin Atribut ini menentukan tingkat tekstur dari sel kromatin. 1-10 9. Nukleous Normal Atribut ini menentukan bentuk dari nucleoli. 1-10 10. Mitosis Atribut ini menentukan seberapa banyak sel kanker membagi, membelah atau memperbanyak dirinya. 1-10 11. Kelas Atribut ini menentukan kelas apakah tumor yang diderita jinak atau parah. 2 untuk Benign dan 4 untuk Malignant.

3.2 Analisis Pengolahan Data

Sebelum data diolah menggunakan sistem, dilakukan pemrosesan data awal terlebih dahulu sesuai dengan proses KDD. Ada empat langkah pemrosesan data yaitu 1 pembersihan data, 2 seleksi data, 3 transformasi data, dan 4 penambangan data.

3.2.1 Pembersihan Data

Pada tahap ini, dilakukan pembersihan terhadap data-data yang tidak lengkap, kosong atau null, data yang mengandung noise, dan data tidak konsisten. Pada tahap ini data yang bernilai null atau kosong, akan dibersihkan dengan cara dihapus secara manual, dan akan dilakukan penghapusan attribut ID serta akan mengganti . Pembersihan data dilakukan setelah proses integrasi dan seleksi data dilakukan. Proses integrasi akan memudahkan proses pencarian data, sementara seleksi data akan mengurangi jumlah data yang akan dibersihkan. Berikut rincian data yang akan dibersihkan: Tabel 3.2 Jumlah Data Hasil Pembersihan Jumlah data kanker payudara Data awal 699 Data tidak lengkap 16 Jumlah data bersih 683

3.2.2 Seleksi Data

Pada tahap ini akan dilakukan penyeleksian data untuk mengurangi data yang tidak relevan dan redundant. Menurut Tan, Steinbach, dan Kumar 2006, atribut yang tidak relevan adalah atribut yang berisi informasi yang tidak berguna untuk melakukan penambangan data, sedangkan atribut yang berlebihan redundant adalah atribut yang menduplikasi banyak atau semua informasi yang terdapat didalam satu atau lebih atribut lain. Pada data wisconsin diagnosis breast cancer berisi 11 atribut, dan tidak semua dipakai untuk mengklasifikasi kanker. Maka dari itu dilakukan penghapusan atribut yang tidak dipakai, atribut yang tidak terpakai adalah atribut id, sehingga atribut id dihapus.

3.2.3 Transformasi Data

Pada tahap ini akan dilakukan transformasi data kedalam format yang dapat dikelola oleh sistem. Data nilai kelas memiliki format 2 dan 4, format ini diubah yaitu 2 menjadi benign, dan 4 untuk menjadi malignant.

3.2.4 Penambangan Data

Pada tahap ini data teks akan ditambang dengan menggunakan sistem. Langkah awal dari pemrosesan input adalah membaca data teks ke dalam sistem. Setelah data dibaca data berupa data string dan data tercampur didalam satu baris data, sehingga data perlu dipisah kemudian diubah ke tipe data double, kecuali data kelas yaitu benign dan malignant, sehingga data dapat diproses ke dalam perhitungan klasifikasi. Untuk melakukan pemrosesan data tersebut maka sistem perlu menulis ulang data teks kanker, sehingga data teks kanker dapat diproses oleh sistem.

3.3 Perancangan Umum Sistem

Pada subbab ini akan dijelaskan gambaran yang dibangun, berupa diagram Use Case, Skenario Use Case, diagram aktifitas, dan desain antarmuka sistem. a. Diagram use case Aktor dari sistem ini hanya satu, yaitu peneliti, namun seterusnya akan disebut pengguna. Fungsi utama yang dapat dilakukan pengguna adalah melakukan klasifikasi. Selain itu pengguna dapat menentukan fold dan mengimpor data. Ketika fungsi melakukan klasifikasi dijalankan sistem akan menjalankan, sistem akan melakukan proses cross validation, menghitung akurasinya, kemudian menampilkan hasilnya. Output dari fungsi ini adalah hasil akurasi dan waktu proses dari algoritma. Gambar 3.1 Diagram use case b. Deskripsi Use Case Fungsi yang dapat dilakukan oleh Pengguna terhadap sistem digambarkan dengan diagram use case seperti pada Gambar 3.2. Berikut ini deskripsi atau penjelasan dari diagram tersebut: Tabel 3.3 Deskripsi use case No Nama Use Case Deskripsi Use Case 1. Menentukan Jumlah Fold Use case ini digunakan untuk menentukan jumlah fold yang akan Pengguna Menentukan Jumlah Fold Mengimpor data Melakukan klasifikasi depends on