6. Ukuran sel tunggal
epitel Atribut ini menentukan apakah
ephitelial cell cenderung membesar atau tidak.
1-10
7. Bare Nuclei
Atribut ini menentukan apakah sel dikelilingi sitoplasma sisa sel atau
tidak. 1-10
8. Bland Kromatin
Atribut ini menentukan tingkat tekstur dari sel kromatin.
1-10
9. Nukleous Normal
Atribut ini menentukan bentuk dari nucleoli.
1-10
10. Mitosis
Atribut ini menentukan seberapa banyak
sel kanker
membagi, membelah
atau memperbanyak
dirinya. 1-10
11. Kelas
Atribut ini menentukan kelas apakah tumor yang diderita
jinak atau parah. 2 untuk Benign
dan 4
untuk Malignant.
3.2 Analisis Pengolahan Data
Sebelum data diolah menggunakan sistem, dilakukan pemrosesan data awal terlebih dahulu sesuai dengan proses KDD. Ada empat langkah pemrosesan data yaitu
1 pembersihan data, 2 seleksi data, 3 transformasi data, dan 4 penambangan data.
3.2.1 Pembersihan Data
Pada tahap ini, dilakukan pembersihan terhadap data-data yang tidak lengkap, kosong atau null, data yang mengandung noise, dan data tidak konsisten. Pada tahap ini
data yang bernilai null atau kosong, akan dibersihkan dengan cara dihapus secara manual, dan akan dilakukan penghapusan attribut ID serta akan mengganti .
Pembersihan data dilakukan setelah proses integrasi dan seleksi data dilakukan. Proses integrasi akan memudahkan proses pencarian data, sementara seleksi data akan
mengurangi jumlah data yang akan dibersihkan. Berikut rincian data yang akan dibersihkan:
Tabel 3.2 Jumlah Data Hasil Pembersihan Jumlah data kanker payudara
Data awal
699
Data tidak lengkap
16
Jumlah data bersih
683
3.2.2 Seleksi Data
Pada tahap ini akan dilakukan penyeleksian data untuk mengurangi data yang tidak relevan dan redundant. Menurut Tan, Steinbach, dan Kumar 2006, atribut yang
tidak relevan adalah atribut yang berisi informasi yang tidak berguna untuk melakukan penambangan data, sedangkan atribut yang berlebihan redundant adalah atribut yang
menduplikasi banyak atau semua informasi yang terdapat didalam satu atau lebih atribut lain.
Pada data wisconsin diagnosis breast cancer berisi 11 atribut, dan tidak semua dipakai untuk mengklasifikasi kanker. Maka dari itu dilakukan penghapusan atribut
yang tidak dipakai, atribut yang tidak terpakai adalah atribut id, sehingga atribut id dihapus.
3.2.3 Transformasi Data
Pada tahap ini akan dilakukan transformasi data kedalam format yang dapat dikelola oleh sistem. Data nilai kelas memiliki format 2 dan 4, format ini diubah yaitu 2
menjadi benign, dan 4 untuk menjadi malignant.
3.2.4 Penambangan Data
Pada tahap ini data teks akan ditambang dengan menggunakan sistem. Langkah awal dari pemrosesan input adalah membaca data teks ke dalam sistem. Setelah data
dibaca data berupa data string dan data tercampur didalam satu baris data, sehingga data perlu dipisah kemudian diubah ke tipe data double, kecuali data kelas yaitu benign dan
malignant, sehingga data dapat diproses ke dalam perhitungan klasifikasi. Untuk melakukan pemrosesan data tersebut maka sistem perlu menulis ulang data teks kanker,
sehingga data teks kanker dapat diproses oleh sistem.
3.3 Perancangan Umum Sistem
Pada subbab ini akan dijelaskan gambaran yang dibangun, berupa diagram Use Case, Skenario Use Case, diagram aktifitas, dan desain antarmuka sistem.
a. Diagram use case Aktor dari sistem ini hanya satu, yaitu peneliti, namun seterusnya akan disebut
pengguna. Fungsi utama yang dapat dilakukan pengguna adalah melakukan klasifikasi. Selain itu pengguna dapat menentukan fold dan mengimpor data.
Ketika fungsi melakukan klasifikasi dijalankan sistem akan menjalankan, sistem akan melakukan proses cross validation, menghitung akurasinya, kemudian
menampilkan hasilnya. Output dari fungsi ini adalah hasil akurasi dan waktu proses dari algoritma.
Gambar 3.1 Diagram use case b. Deskripsi Use Case
Fungsi yang dapat dilakukan oleh Pengguna terhadap sistem digambarkan dengan diagram use case seperti pada Gambar 3.2. Berikut ini deskripsi atau penjelasan
dari diagram tersebut: Tabel 3.3 Deskripsi use case
No Nama Use Case
Deskripsi Use Case 1.
Menentukan Jumlah Fold
Use case ini digunakan untuk menentukan jumlah fold yang akan
Pengguna Menentukan
Jumlah Fold
Mengimpor data
Melakukan klasifikasi depends on