Pengurangan Data Data Mining

pangan dan hortikultura setelah pembersihan data dapat dilihat pada L ampiran 3. Setelah dilakukan pembersihan data dan pemilihan data, kemudian dilakukan modifikasi tabel untuk mempermudah dalam proses selanjutnya, yaitu penerapan algoritme decision tree. Modifikasi dilakukan pada atribut indikator dan nilai. Atribut indikator yang terdiri dari produktivitas, luas panen, dan produksi dipecah menjadi atribut yang berbeda, sedangkan atribut nilai yang merupakan nilai dari indikator dimasukkan ke dalam atribut indikator yang telah dipecah sesuai dengan nilainya masing-masing. Jumlah record test setelah tabel dimodifikasi tabel bdsp2 sebanyak 30.976. Perubahan atribut yang dilakukan dapat dilihat pada Lampiran 4.

4.3 Pengurangan Data

Setelah dilakukan pemilihan atribut, maka dilakukan analisis terhadap atribut yang relevan. Analisis ini dilakukan dengan menggunakan perhitungan ukuran information gain. Kelas dalam perhitungan ini adalah atribut produksi. Jumlah kelas diperoleh dengan cara membagi data menjadi beberapa cluster dengan menggunakan algoritme K-Means. Untuk memperoleh jumlah cluster yang optimal, dilakukan evaluasi terhadap pembagian jumlah cluster dengan menggunakan SSE Sum Square of Error. Jumlah cluster dan nilai SSE dapat dili hat pada Tabel 1. Tabel 1 Jumlah cluster dan nilai SSE pada atribut produksi Jumlah cluster Nilai SSE 2 3.159.660.675.117.890 3 1.213.498.604.131.730 5 480.408.753.540.408 6 402.599.216.947.265 7 226.652.393.575.530 8 175.377.297.148.805 9 1.087.855 .866.516.561 10 116.496.067.329.026 11 120.006.404.477.267 Penentuan kelas data dilakukan berdasar jumlah cluster dengan nilai SSE terkecil. Pada atribut produksi, nilai SSE terkecil terdapat pada jumlah cluster 10. Kisaran nilai pada tiap cluster dapat dilihat pada Tabel 2. Tabel 2 Nilai yang terdapat pada kelas produksi cluster Nilai Produksi ton 1 0 – 110.975 2 6.740.333 – 8.803.878 3 1.505.706 – 2.369.841 4 400.581 – 884.273 5 111.110 – 398.824 6 336.756 – 4.531.510 7 886.756 – 1.497.379 8 4.680.567 – 6.594.514 9 8.943.392 – 10.863 .393 10 2.382.775 – 3.348.818 Nilai entropi yang didapatkan dari 10 kelas ini adalah 0.698, sedangkan hasil perhitungan gain yang didapatkan untuk atribut lainnya dapat dilihat pada Tabel 3. Tabel 3 Tabel p erhitungan information gain Atribut Nilai information gain komoditas 0.265 lokasi 0.097 produktivitas 0.080 luas_panen 0.123 Treshold yang digunakan dalam tahap ini adalah 0.01, maka berdasarkan perhitungan gain tidak ada atribut yang dihilangkan.

4.4 Data Mining

Tahap ini diawali dengan melakukan generalisasi pada tiga atribut, yaitu atribut tahun Tabel 4, atribut produktivitas Tabel 5 dan atribut luas_panen Tabel 6. Pada atribut tahun, data tahun dibagi menjadi delapan kelompok yang masing-masing terdiri dari lima tahun. Di sisi lain, pada atribut produktivitas dan luas_panen, atribut dibagi menjadi 10 kelompok untuk produktivitas dan 11 kelompok untuk luas panen berdasarkan hasil clustering data tersebut dengan menggunakan algoritme K- Mean. Tab el 4 Generalisasi atribut tahun Nilai Awal Nilai Generalisasi 1966-1970 1 1971-1975 2 1976-1980 3 1981-1985 4 1986-1990 5 1991-1995 6 1996-2000 7 2001-2005 8 Tabel 5 Generalisasi atribut produktivitas Nilai Awal Nilai Generalisasi 0 – 49 1 50 - 130 2 2.165 – 2.623 3 131 – 261 4 14.449 – 14.449 5 470 – 768 6 4.675 – 4.675 7 262 – 468 8 781 – 1.306 9 1.443 – 1.931 10 Tabel 6 Generalisasi atribut luas panen Nilai Awal Nilai Generalisasi 0 – 27.951 1 1.043.285 – 1.415.449 2 177.346 – 275.581 3 521.575 – 696.441 4 276.890 – 384.007 5 1.425.609 – 1.772.046 6 91.259 – 176.767 7 706.058 – 1.012.051 8 27.993 – 90.800 9 1.792.320 – 2.188.479 10 384.756 – 519.380 11 Data yang telah digeneralisasi kemudian dipecah berdasarkan kelompok tahun dasar menjadi 8 data set. Jumlah record pada setiap data set ditunjukkan dalam Tabel 7. Tabel 7 Nama dan ukuran data set Nama data set Jumlah record bdspfixT1 734 bdspfixT2 3705 bdspfixT3 3875 bdspfixT4 4308 bdspfixT5 4824 bdspfixT6 5131 bdspfixT7 5854 bdspfixT8 2545 Nama data set menunjukkan kelompok tahun yang terdapat pada data set tersebut. Sebagai contoh, bdspfixT7 menunjukan data set sektor pertanian bdsp pada kelompok tahun ke tujuh 1996-2000. M asing-masing tabel data set tersebut dibagi kembali secara acak menjadi 2 bagian, yaitu training set sebesar 75 dan test set sebesar 25. Jumlah record masing- masing tabel dapat dilihat pada Tabel 8. Tabel 8 Jumlah record training set dan test set Nama Data set Data set Training set Test set bdspfixT1 734 551 183 bdspfixT2 3.705 2.779 926 bdspfixT3 3.875 2.907 968 bdspfixT4 4.308 3.231 1.077 bdspfixT5 3.824 2.618 1.206 bdspfixT6 5.131 3.849 1.282 bdspfixT7 5.854 4.391 1.463 bdspfixT8 2.545 1.909 636 Dari masing-masing training s et akan dibentuk suatu model pohon yang akan diujikan terhadap test set untuk diukur kevalidan dari model tersebut. Dalam pembentukan model pohon, langkah utama yang dilakukan adalah melakukan perhitungan nilai information gain untuk training set. Perhitungan ini digunakan untuk melihat tingkatan dari masing-masing atribut untuk menentukan akar dari pohon yang akan dibentuk. Setelah akar diperoleh dari atribut dengan nilai information gain tertinggi, perhitungan akan dilanjutkan untuk mencari node selanjutnya menggunakan training set yang sama namun telah dikurangi oleh atribut yang telah menjadi akar. Perhitungan akan dilakukan berulang-ulang hingga seluruh atribut telah menjadi node. Pada Gambar 2 dapat dilihat contoh bagian pohon yang akan terbentuk pada data tanaman pangan dan hortikultura tabel bdspT7, yaitu tabel dengan kelompok tahun 1996-2000. Gambar 2 Pohon yang terbentuk pada tabel bdspT7 Setelah pohon terbentuk, dihasilkan sejumlah aturan dari path dalam pohon tersebut. Contoh aturan yang dapat terbentuk dari pohon pada Gambar 2 adalah sebagai berikut: “JIKA komoditas = Jagung DAN lokasi = Bali DAN luas panen 6 DAN produktivitas = 6 MAKA produksi = 1” ”JIKA komoditas = Jagung DAN lokasi = Bengkulu MAKA produksi = 1” ”JIKA komoditas = Melon DAN lokasi = Jawa Tengah DAN luas panen = 6 AND produktivitas = 6 MAKA produksi = 1” ”JIKA komoditas = Melon DAN lokasi = Timortimur MAKA produksi = 1” ”JIKA komoditas = Nenas DAN lokasi = Jawa Barat DAN produktivitas = 6 MAKA produksi = 5” ”JIKA komoditas = Nenas DAN lokasi = Jawa Barat DAN produktivitas 6 MAKA produksi = 1” ”JIKA komoditas = Nenas DAN lokasi = Jawa Timur MAKA produksi = 1” Aturan selengkapnya yang diperoleh dari tabel bdspT7 dapat dilihat pada Lampiran 5. Rasio aturan yang terbentuk terhadap ukuran kedelapan training set dapat dilihat pada Tabel 9 dan grafik dari rasio tiap tabel dapat dilihat pada Gambar 3. Tabel 9 Rasio aturan pada training set Training set Ukuran Training set Jumlah aturan yang terbentuk Rasio bdspT1 551 161 29.22 bdspT2 2779 340 12.23 bdspT3 2907 305 10.49 bdspT4 3231 390 12.07 bdspT5 3618 579 16.00 bdspT6 3849 756 19.64 bdspT7 4391 782 17.81 bdspT8 1909 644 33.73 Gambar 3 Grafik rasio pada delapan tabel bdsp Dari kedelapan tabel bdsp yang ada, nilai rasio terbesar pada training set bdspT8 sebesar 33.73, sedangkan rasio terkecil pada tabel bdspT3 sebesar 10.49.

4.5 Evaluasi Data Keluaran