pangan dan hortikultura setelah pembersihan data dapat dilihat pada L ampiran 3.
Setelah dilakukan pembersihan data dan pemilihan data, kemudian dilakukan
modifikasi tabel untuk mempermudah dalam proses selanjutnya, yaitu penerapan
algoritme decision tree.
Modifikasi dilakukan pada atribut indikator dan nilai.
Atribut indikator yang terdiri dari produktivitas, luas panen, dan produksi
dipecah menjadi atribut yang berbeda, sedangkan atribut nilai yang merupakan nilai
dari indikator dimasukkan ke dalam atribut indikator yang telah dipecah sesuai dengan
nilainya masing-masing. Jumlah record test setelah tabel dimodifikasi tabel bdsp2
sebanyak 30.976. Perubahan atribut yang dilakukan dapat dilihat pada Lampiran 4.
4.3 Pengurangan Data
Setelah dilakukan pemilihan atribut, maka dilakukan analisis terhadap atribut
yang relevan. Analisis ini dilakukan dengan menggunakan perhitungan ukuran
information gain. Kelas dalam perhitungan ini adalah atribut produksi. Jumlah kelas
diperoleh dengan cara membagi data menjadi beberapa
cluster dengan menggunakan algoritme K-Means. Untuk
memperoleh jumlah cluster yang optimal, dilakukan evaluasi terhadap pembagian
jumlah cluster dengan menggunakan SSE Sum Square of Error. Jumlah cluster dan
nilai SSE dapat dili hat pada Tabel 1.
Tabel 1 Jumlah cluster dan nilai SSE pada atribut produksi
Jumlah cluster Nilai SSE
2 3.159.660.675.117.890
3 1.213.498.604.131.730
5 480.408.753.540.408
6 402.599.216.947.265
7 226.652.393.575.530
8 175.377.297.148.805
9 1.087.855 .866.516.561
10 116.496.067.329.026
11 120.006.404.477.267
Penentuan kelas data dilakukan berdasar jumlah cluster dengan nilai SSE terkecil.
Pada atribut produksi, nilai SSE terkecil terdapat pada jumlah cluster 10. Kisaran
nilai pada tiap cluster dapat dilihat pada Tabel 2.
Tabel 2 Nilai yang terdapat pada kelas produksi
cluster Nilai Produksi ton
1 0 – 110.975
2 6.740.333 – 8.803.878
3 1.505.706 – 2.369.841
4 400.581 – 884.273
5 111.110 – 398.824
6 336.756 – 4.531.510
7 886.756 – 1.497.379
8 4.680.567 – 6.594.514
9 8.943.392 – 10.863 .393
10 2.382.775 – 3.348.818
Nilai entropi yang didapatkan dari 10 kelas ini adalah 0.698, sedangkan hasil
perhitungan gain yang didapatkan untuk atribut lainnya dapat dilihat pada Tabel 3.
Tabel 3 Tabel p erhitungan information gain Atribut
Nilai information
gain komoditas
0.265 lokasi
0.097 produktivitas
0.080 luas_panen
0.123 Treshold yang digunakan dalam tahap
ini adalah 0.01, maka berdasarkan perhitungan gain tidak ada atribut yang
dihilangkan.
4.4 Data Mining
Tahap ini diawali dengan melakukan generalisasi pada tiga atribut, yaitu atribut
tahun Tabel 4, atribut produktivitas Tabel 5 dan atribut luas_panen Tabel 6. Pada
atribut tahun, data tahun dibagi menjadi delapan kelompok yang masing-masing
terdiri dari lima tahun. Di sisi lain, pada atribut produktivitas dan luas_panen, atribut
dibagi menjadi 10 kelompok untuk produktivitas dan 11 kelompok untuk luas
panen berdasarkan hasil clustering data tersebut dengan menggunakan algoritme K-
Mean.
Tab el 4 Generalisasi atribut tahun Nilai Awal
Nilai Generalisasi
1966-1970 1
1971-1975 2
1976-1980 3
1981-1985 4
1986-1990 5
1991-1995 6
1996-2000 7
2001-2005 8
Tabel 5 Generalisasi atribut produktivitas Nilai Awal
Nilai Generalisasi
0 – 49 1
50 - 130 2
2.165 – 2.623 3
131 – 261 4
14.449 – 14.449 5
470 – 768 6
4.675 – 4.675 7
262 – 468 8
781 – 1.306 9
1.443 – 1.931 10
Tabel 6 Generalisasi atribut luas panen Nilai Awal
Nilai Generalisasi
0 – 27.951 1
1.043.285 – 1.415.449 2
177.346 – 275.581 3
521.575 – 696.441 4
276.890 – 384.007 5
1.425.609 – 1.772.046 6
91.259 – 176.767 7
706.058 – 1.012.051 8
27.993 – 90.800 9
1.792.320 – 2.188.479 10
384.756 – 519.380 11
Data yang telah digeneralisasi kemudian dipecah berdasarkan kelompok tahun dasar
menjadi 8 data set. Jumlah record pada setiap data set ditunjukkan dalam Tabel 7.
Tabel 7 Nama dan ukuran data set Nama data set
Jumlah record bdspfixT1
734 bdspfixT2
3705 bdspfixT3
3875 bdspfixT4
4308 bdspfixT5
4824 bdspfixT6
5131 bdspfixT7
5854 bdspfixT8
2545 Nama data set menunjukkan kelompok
tahun yang terdapat pada data set tersebut. Sebagai contoh, bdspfixT7 menunjukan data
set sektor pertanian bdsp pada kelompok tahun ke tujuh 1996-2000.
M asing-masing tabel data set tersebut dibagi kembali secara acak menjadi 2
bagian, yaitu training set sebesar 75 dan test set sebesar 25. Jumlah record masing-
masing tabel dapat dilihat pada Tabel 8.
Tabel 8 Jumlah record training set dan test set
Nama Data set
Data set Training
set Test set
bdspfixT1 734
551 183
bdspfixT2 3.705
2.779 926
bdspfixT3 3.875
2.907 968
bdspfixT4 4.308
3.231 1.077
bdspfixT5 3.824
2.618 1.206
bdspfixT6 5.131
3.849 1.282
bdspfixT7 5.854
4.391 1.463
bdspfixT8 2.545
1.909 636
Dari masing-masing training s et akan dibentuk suatu model pohon yang akan
diujikan terhadap test set untuk diukur kevalidan dari model tersebut.
Dalam pembentukan model pohon, langkah utama yang dilakukan adalah
melakukan perhitungan nilai information gain untuk training set. Perhitungan ini
digunakan untuk melihat tingkatan dari masing-masing atribut untuk menentukan
akar dari pohon yang akan dibentuk. Setelah akar diperoleh dari atribut dengan nilai
information gain tertinggi, perhitungan akan dilanjutkan untuk mencari node selanjutnya
menggunakan training set yang sama namun telah dikurangi oleh atribut yang telah
menjadi akar. Perhitungan akan dilakukan berulang-ulang hingga seluruh atribut telah
menjadi node.
Pada Gambar 2 dapat dilihat contoh bagian pohon yang akan terbentuk pada data
tanaman pangan dan hortikultura tabel bdspT7, yaitu tabel dengan kelompok tahun
1996-2000.
Gambar 2 Pohon yang terbentuk pada tabel bdspT7
Setelah pohon terbentuk, dihasilkan sejumlah aturan dari path dalam pohon
tersebut. Contoh aturan yang dapat terbentuk dari pohon pada Gambar 2 adalah sebagai
berikut:
“JIKA komoditas = Jagung DAN lokasi = Bali DAN luas panen 6
DAN produktivitas = 6 MAKA produksi = 1”
”JIKA komoditas = Jagung DAN lokasi = Bengkulu MAKA produksi =
1” ”JIKA komoditas = Melon DAN
lokasi = Jawa Tengah DAN luas panen = 6 AND produktivitas = 6
MAKA produksi = 1”
”JIKA komoditas = Melon DAN lokasi = Timortimur MAKA produksi
= 1” ”JIKA komoditas = Nenas DAN
lokasi = Jawa Barat DAN produktivitas = 6 MAKA produksi
= 5” ”JIKA komoditas = Nenas DAN
lokasi = Jawa Barat DAN produktivitas 6 MAKA produksi =
1”
”JIKA komoditas = Nenas DAN lokasi = Jawa Timur MAKA produksi
= 1”
Aturan selengkapnya yang diperoleh dari tabel bdspT7 dapat dilihat pada
Lampiran 5. Rasio aturan yang terbentuk terhadap
ukuran kedelapan training set dapat dilihat pada Tabel 9 dan grafik dari rasio tiap tabel
dapat dilihat pada Gambar 3. Tabel 9 Rasio aturan pada training set
Training set
Ukuran Training
set Jumlah
aturan yang terbentuk
Rasio bdspT1
551 161
29.22 bdspT2
2779 340
12.23 bdspT3
2907 305
10.49 bdspT4
3231 390
12.07 bdspT5
3618 579
16.00 bdspT6
3849 756
19.64 bdspT7
4391 782
17.81 bdspT8
1909 644
33.73
Gambar 3 Grafik rasio pada delapan tabel bdsp
Dari kedelapan tabel bdsp yang ada, nilai rasio terbesar pada training set bdspT8
sebesar 33.73, sedangkan rasio terkecil pada tabel bdspT3 sebesar 10.49.
4.5 Evaluasi Data Keluaran