Kelas Ekuivalensi Ruang Hampiran dan Himpunan Kasar

Kualitas hampiran dalam suatu ruang hampiran dinyatakan dengan suatu ukuran ketepatan. Bila , R X K  adalah suatu ruang hampiran dan A suatu himpunan bagian dari X, maka banyaknya atom dalam A K dan , A K yang disajikan dengan A  dan , A  berturut-turut disebut ukuran dalam dan ukuran luar dari A dalam K. Jika , A A    maka A dikatakan terukur dalam K. Ketepatan hampiran dari A dalam K didefinisikan sebagai bilangan real A A A K     di mana .  A  Jelas bahwa 1   A K  dan 1  A K  jika A terukur dalam K. Dalam kasus ini ketepatan hampiran dari A 1 dalam ruang hampiran K tersebut adalah 6 . 5 3    A A A K   

II.2.6 Discernibilty Matrix

Pada himpunan kasar discernibilty matrix digunakan untuk mengekstrak minimal reduct . Hasil dari reduct tersebut berupa atribut yang dapat digunakan untuk membuat sebuah decision rules. Discernibility matrix yang sesuai dengan contoh basis data dalam Tabel 2.5 dengan U = {X 1 , X 2 , …, X 7 }, C = {a, b, c, d}, D = {E} dimana U adalah himpunan Objek, C himpunan atribut kondisional dan E himpunan atribut keputusan ditunjukkan dalam Tabel 2.6. Tabel 2.5 Contoh basis data ID a b c d E X 1 1 2 1 1 X 2 1 2 1 X 3 1 2 2 X 4 1 2 2 1 X 5 2 1 2 X 6 2 1 1 2 X 7 2 1 2 1 1 ....................…2.3 ....................…2.4 M X1,X3 = {b, c, d}, X1 dan X3 mempunyai nilai keputusan yang berbeda, perbedaannya di atribut b, c dan d. Tabel 2.6 Discernibility matrix untuk data dalam Tabel 2.5 X 1 X 2 X 3 X 4 X 5 X 6 X 2 - X 3 b, c, d b, c X 4 b b, d c, d X 5 a, b, c, d a, b, c - a, b, c, d X 6 a, b, c, d a, b, c - a, b, c, d - X 7 - - a, b, c, d a, b c, d c, d Reduct untuk data dari tabel 2.4 adalah {b, c} dan {b, d}. Matriks Boolean MB untuk data pada Tabel 2.4 ditunjukkan pada Tabel 2.6 di bawah ini : Tabel 2.7 Matriks Boolean untuk data pada Tabel 2.5 a b c d X 1 X 3 1 1 1 X 1 X 4 1 X 1 X 5 1 1 1 1 X 1 X 6 1 1 1 1 X 2 X 3 1 1 X 2 X 4 1 1 X 2 X 5 1 1 1 X 2 X 6 1 1 1 X 3 X 4 1 1 X 3 X 7 1 1 1 1 X 4 X 5 1 1 1 1 X 4 X 6 1 1 1 1 X 4 X 7 1 1 X 5 X 7 1 1 X 6 X 7 1 1

II.3. Pohon Keputusan Decision Tree

II.3.1 Pengertian Pohon Keputusan

Pohon keputusan Decision Tree merupakan metode penambangan data model klasifikasi. Menurut Jiawei Han dan Micheline Kamber 2006, salah satu metode data mining yang umum digunakan adalah decision tree. Konsep decision tree adalah suatu struktur flowchart yang menyerupai tree pohon, dimana setiap simpul internal menandakan suatu tes pada atribut, setiap cabang merepresentasikan hasil tes, dan simpul daun merepresentasikan kelas atau distribusi kelas. Alur pada decision tree di telusuri dari simpul akar ke simpul daun yang memegang prediksi kelas untuk contoh tersebut. Gambar 2.3 berikut ini merupakan bentuk gambaran dari pohon keputusan. Gambar 2.3 Gambaran Pohon Keputusan. Pohon keputusan memiliki merupakan model keputusan yang banyak digunakan dalam proses penambangan data kerena memiliki beberapa kelebihan

II.3.2 Kelebihan Pohon Keputusan

Menurut Said, Fairuz. El. 2009 kelebihan dari metode pohon keputusan adalah : 1. Daerah pengambilan keputusan yang sebelumnya kompleks dan sangat global, dapat diubah menjadi lebih simpel dan spesifik. 2. Eliminasi perhitungan-perhitungan yang tidak diperlukan, karena ketika menggunakan metode pohon keputusan maka sample diuji hanya berdasarkan kriteria atau kelas tertentu. 3. Fleksibel untuk memilih fitur dari node internal yang berbeda, fitur yang terpilih akan membedakan suatu kriteria dibandingkan kriteria yang lain dalam node yang sama. Kefleksibelan metode pohon keputusan ini meningkatkan kualitas keputusan yang dihasilkan jika dibandingkan ketika menggunakan metode penghitungan satu tahap yang lebih konvensional 4. Dalam analisis multivariat, dengan kriteria dan kelas yang jumlahnya sangat banyak, seorang penguji biasanya perlu untuk mengestimasikan baik itu distribusi dimensi tinggi ataupun parameter tertentu dari distribusi kelas tersebut. Metode pohon keputusan dapat menghindari munculnya permasalahan ini dengan menggunakan criteria yang jumlahnya lebih sedikit pada setiap node internal tanpa banyak mengurangi kualitas keputusan yang dihasilkan. Pohon keputusan bukanlah satu-satunya model penambangan data yang paling baik karena selain memiliki kelebihan pohon keputusan juga memiliki kekurangan.

II.3.3 Kekurangan Pohon Keputusan

Menurut Said, Fairuz. El. 2009 kekurangan dari metode pohon keputusan adalah : 1. Terjadi overlap terutama ketika kelas-kelas dan criteria yang digunakan jumlahnya sangat banyak. Hal tersebut juga dapat menyebabkan meningkatnya waktu pengambilan keputusan dan jumlah memori yang diperlukan. 2. Pengakumulasian jumlah eror dari setiap tingkat dalam sebuah pohon keputusan yang besar. 3. Kesulitan dalam mendesain pohon keputusan yang optimal. 4. Hasil kualitas keputusan yang didapatkan dari metode pohon keputusan sangat tergantung pada bagaimana pohon tersebut didesain. Dari beberapa kekurangan tersebut pohon keputusan memiliki beberapa penyempurnaan dan pengembangan.

II.3.4 Jenis-jenis Pohon Keputusan

Beberapa jenis model pohon keputusan yang sudah dikembangkan antara lain ID3, C4.5 dan CART Classification and Regression Tree. 1. CART Dalam CART, setiap simpul dipecah menjadi 2 cabang. Ada dua langkah penting yang harus diikuti untuk mendapatkan pohon tree dengan performansi yang optimal. Yang pertama adalah pemecahan obyek secara berulang berdasarkan atribut tertentu. Yang kedua, pemangkasan pruning dengan menggunakan data validasi Santoso,2007. 2. ID3 dan C4.5 ID3 menggunakan kriteria information gain untuk memilih atribut yang akan digunakan untuk pemisahan obyek. Atribut yang mempunyai information gain paling tinggi dibanding atribut yang lain relatif terhadap set y dalam suatu data, dipilih untuk melakukan pemecahan. Sedangkan C4.5 merupakan pengembangan dari ID3. Perbaikan dilakukan dalam hal : 1. Dapat mengatasi data yang hilang 2. Dapat mengatasi data kontinyu. 3. Pemangkasan. 4. Aturan. Dalam penelitian Tugas akhir ini algoritma yang digunakan untuk membentuk pohon keputusan adalah algoritma C4.5.

II.4. Algoritma C4.5

Merupakan pengembangan dari dari algoritma ID3 Iterative Dichotomiser 3, Maka dari itu dalam membuat pohon keputusan algoritma C4.5 mempunyai langkah-langkah yang mirip dengan ID3. ID3 sendiri dikembangkan oleh J. Ross Quinlan. Sedangkan pada perangkat lunak open source WEKA mempunyai versi sendiri yang dikenal sebagai J48. Pada gambar 2.5 dibawah ini adalah gambar dari algoritma C4.5 itu sendiri.