sebelumnya. Fitur tersebut adalah Quinlan, 2004:
1. C5.0 telah dirancang untuk dapat
menganalisis basis data substansial yang berisi puluhan sampai ratusan record
dan satuan hingga ratusan field numerik dan nominal.
2. Untuk memaksimumkan tingkat
penafsiran pengguna terhadap hasil yang disajikan, maka klasifikasi C5.0
disajikan dalam dua bentuk, menggunakan pohon keputusan dan
sekumpulan aturan IF-T HEN yang lebih mudah untuk dimengerti dibandingkan
neural network.
3. C5.0 mudah digunakan dan tidak
membutuhkan pengetahuan tinggi tentang statistik atau machine learning.
METODE PENELITIAN
3.1 Proses Dasar Sistem
Proses dasar sistem Gambar 1 mengacu pada proses dalam Knowledge
Discovery in Database KDD Han J dan Kamber, 2001.
Gambar 1 Tahapan dalam KDD 1.
Pembersihan Data Data Cleaning Pada tahap ini data yang tidak
konsisten, data yang mengandung nilai yang hilang dan data yang mengandung
noise kesalahan pada penulisan akan dihilangkan. Keluaran dari tahap ini
adalah data yang telah bersih dan siap untuk digunakan pada proses
selanjutnya.
2. Pemilihan Data Data selection
Pada tahap ini dilakukan pemilihan terhadap data yang dibutuhkan untuk
analisis. 3.
Reduksi Data Data Reduction Dalam tahap reduksi data, dilakukan
pengurangan variabel hingga mendapatkan variabel yang efektif
dengan melihat keterkaitan antarsatu variabel dengan variabel lainnya.
Analisis relevansi atribut dilakukan dengan menggunakan ukuran
information gain.
Hasil dari perhitungan akan dibandingkan dengan threshold yang
telah ditentukan. Apabila nilai gain lebih kecil dari nilai threshold maka
variabel tersebut akan dibuang, sehingga hanya variabel yang layak saja
yang akan diikutkan dalam proses selanjutnya.
4. Data Mining
Tahap ini merupakan inti dari tahapan KDD yang dilakukan untuk
menganalisis data yang telah dibersihkan. Teknik yang digunakan
adalah decision tree yang
dibagi menjadi 3 tahap, yaitu :
1. Pembentukan Pohon Pada tahap ini akan dibentuk suatu
pohon yang terdiri dari akar yang merupakan node paling awal, daun
sebagai distribusi kelas, dan batang yang menggambarkan hasil keluaran
dari pengujian. Pada pembentukan pohon ini dilakukan pemilihan atribut
untuk penentuan posisi dalam pembentukan pohon. Pemilihan atribut
dilakukan dengan menggunakan perhitungan yang sama dengan tahap
reduksi data, yaitu menggunakan information gain. Namun yang
membedakan dengan perhitungan dalam reduksi data adalah data yang akan
diproses menjadi pohon keputusan telah dilakukan generalisasi terlebih dahulu.
2. Pemangkasan Pohon Pemangkasan pohon dapat
dilakukan dengan metode prepruning atau postpruning. Namun alternatif lain
yang dapat dilakukan adalah mengkombinasikan
prepruning dan
postpruning untuk menghasilkan pohon yang lebih baik. Pada percobaan ini,
pemangkasan pohon tidak dilakukan karena jumlah atribut yang sedikit.
Data Cleaning
Data Integration
Database s
Data Warehouse
Task-relevant Data
Selection Data
Mining
Pattern Evaluation
3. Pembentukan Aturan Keputusan. Aturan yang dihasilkan dari
decision tree dapat ditampilkan dalam bentuk aturan IF-THEN. Aturan
dibentuk dari tiap path pada pohon. Setiap node yang bukan leaf node
berperan sebagai bagian IF sedangkan bagian THEN diambil dari leaf node
yang merupakan konsekuen dari aturan. Aturan IF-THEN lebih mudah dipahami
oleh pengguna apalagi jika pohonnya dalam ukuran besar.
5. Evaluasi Data Keluaran
Pada tahap ini dilakukan evaluasi terhadap kesimpulan atau informasi
yang diperoleh dari data. Informasi tersebut dapat digunakan oleh pengguna
sesuai kebutuhan dengan menggunakan modul pengguna untuk menampilkan
informasi yang sesuai dengan kebutuhan pengguna. Berdasar tahap
evaluasi data dan keluaran mungkin dilakukan perubahan-perubahan pada
tahap-tahap selanjutnya, atau pengulangan seluruh proses.
3.2 Lingkungan Pengembangan