Perbandingan Metode Diskretisasi Data Partisi Intuitif dan K-Means Clustering terhadap Pembuatan Pohon Keputusan

ABSTRAK
LIESCA LEVY SHANDY. Perbandingan Metode Diskretisasi Data Partisi Intuitif Dan
Clustering Terhadap Pembuatan Pohon Keputusan. Dibimbing oleh IMAS S. SITANGGANG.
Data sektor pertanian yang dimiliki Departemen Pertanian selalu bertambah setiap tahun
sehingga menghasilkan sekumpulan data berukuran besar. Data tesebut mengandung informasi
yang masih harus ditambang. Dalam penelitian ini, dibandingkan hasil pembentukan pohon
keputusan menggunakan algoritme ID3 dengan metode diskretisasi Partisi Intuitif dan algoritme
K-Means Clustering dengan jumlah cluster 4 dan 5 cluster
Pohon keputusan dibentuk menggunakan algoritme ID3 yang sudah tersedia dalam
perangkat lunak WEKA (Waikato Environment Knowledge Analysis). Berdasarkan keluaran dari
WEKA, aturan yang dihasilkan oleh metode Partisi Intuitif berjumlah 63 dengan akurasi sebesar
84,54%. Aturan yang dihasilkan oleh algoritme K-Means clustering dengan 4 cluster berjumlah 49
dengan akurasi sebesar 87.40% dan aturan yang dihasilkan menggunakan algoritme K-Means
clustering dengan jumlah cluster 5 berjumlah 59 dengan akurasi sebesar 76.87%. Nilai Root
Means Square Error (RMSE) yang dihasilkan oleh masing masing metode yaitu Partisi Intuitif
sebesar 0.12, algoritme K-Means clustering dengan jumlah cluster 4 sebesar 0.2 dan algoritme KMeans clustering dengan jumlah cluster 5 sebesar 0.24. Nilai RMSE dari hasil percobaan
menunjukkan bahwa hasil terbaik terdapat pada pohon keputusan yang dibentuk dengan metode
diskretisasi data partisi intuitif.
Kata Kunci : diskretisasi, partisi intuitif, clustering

PERBANDINGAN METODE DISKRETISASI DATA

PARTISI INTUITIF DAN K-MEANS CLUSTERING TERHADAP
PEMBUATAN POHON KEPUTUSAN

LIESCA LEVY SHANDY

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2008

PERBANDINGAN METODE DISKRETISASI DATA
PARTISI INTUITIF DAN K-MEANS CLUSTERING TERHADAP
PEMBUATAN POHON KEPUTUSAN

LIESCA LEVY SHANDY

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR

BOGOR
2008

ABSTRAK
LIESCA LEVY SHANDY. Perbandingan Metode Diskretisasi Data Partisi Intuitif Dan
Clustering Terhadap Pembuatan Pohon Keputusan. Dibimbing oleh IMAS S. SITANGGANG.
Data sektor pertanian yang dimiliki Departemen Pertanian selalu bertambah setiap tahun
sehingga menghasilkan sekumpulan data berukuran besar. Data tesebut mengandung informasi
yang masih harus ditambang. Dalam penelitian ini, dibandingkan hasil pembentukan pohon
keputusan menggunakan algoritme ID3 dengan metode diskretisasi Partisi Intuitif dan algoritme
K-Means Clustering dengan jumlah cluster 4 dan 5 cluster
Pohon keputusan dibentuk menggunakan algoritme ID3 yang sudah tersedia dalam
perangkat lunak WEKA (Waikato Environment Knowledge Analysis). Berdasarkan keluaran dari
WEKA, aturan yang dihasilkan oleh metode Partisi Intuitif berjumlah 63 dengan akurasi sebesar
84,54%. Aturan yang dihasilkan oleh algoritme K-Means clustering dengan 4 cluster berjumlah 49
dengan akurasi sebesar 87.40% dan aturan yang dihasilkan menggunakan algoritme K-Means
clustering dengan jumlah cluster 5 berjumlah 59 dengan akurasi sebesar 76.87%. Nilai Root
Means Square Error (RMSE) yang dihasilkan oleh masing masing metode yaitu Partisi Intuitif
sebesar 0.12, algoritme K-Means clustering dengan jumlah cluster 4 sebesar 0.2 dan algoritme KMeans clustering dengan jumlah cluster 5 sebesar 0.24. Nilai RMSE dari hasil percobaan
menunjukkan bahwa hasil terbaik terdapat pada pohon keputusan yang dibentuk dengan metode

diskretisasi data partisi intuitif.
Kata Kunci : diskretisasi, partisi intuitif, clustering

PERBANDINGAN METODE DISKRETISASI DATA
PARTISI INTUITIF DAN K-MEANS CLUSTERING TERHADAP
PEMBUATAN POHON KEPUTUSAN

Skripsi
sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer
pada Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor

LIESCA LEVY SHANDY

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2008

Judul Skripsi

Nama
NRP

: PERBANDINGAN METODE DISKRETISASI DATA
PARTISI INTUITIF DAN K-MEANS CLUSTERING
TERHADAP PEMBUATAN POHON KEPUTUSAN
: Liesca Levy Shandy
: G64101069

Menyetujui:

Pembimbing

Imas S. Sitanggang, S.Si, M.Kom
NIP 132206235

Mengetahui:
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Dr. Drh. Hasim, DEA
NIP 131578806

Tanggal Lulus :

PRAKATA
Puji syukur Penulis panjatkan ke hadirat Allah SWT atas segala curahan rahmat dan
karunia-Nya sehingga penulis dapat menyelesaikan tugas akhir ini.
Penulis mengucapkan terima kasih kepada Ibu Imas S. Sitanggang, S.Si, M.Kom selaku
pembimbing yang telah begitu sabar dalam memberi saran, masukan, dan ide-ide kepada Penulis
saat menyusun skripsi ini. Terima kasih juga Penulis ucapkan kepada Bapak Hari Agung Adrianto,
S.Kom, M.Si selaku penguji yang telah memberi saran dan masukan kepada Penulis. Penulis juga
mengucapkan terima kasih kepada:
1 Ibu dan Bapak yang selalu memberikan doa, nasihat, dukungan, semangat, dan kasih sayang
yang luar biasa kepada Penulis sehingga Penulis dapat menyelesaikan tugas akhir ini. Kedua
kakakku dan keluarganya yang selalu memberikan perhatian dan dukungan.
2 Mas Totok, Dina, dan Mba’E sahabat terbaik yang terus memberikan motivasi kepada Penulis
dalam mengerjakan tugas akhir.

3 Segenap keluarga besar staf ekstensi Agribisnis IPB yang telah memberikan bantuan, semangat
dan doa pada Penulis untuk bertahan sampai tetes tinta terakhir
4 Wina dan kru Az Zahra, Kiki dan kru M-17, Dyah, Yani, Mus, Aisyah, Rio dan Pipin yang
memberikan keceriaan dan senyuman saat kejenuhan melanda.
5 Mbak Matus, Shandra dan Bembi atas pinjaman komputernya sehingga skripsi ini
terselesaikan.
6 Kawan-kawan Ilkom angkatan 38 yang telah banyak membantu Penulis selama menjalani
waktu di IPB terutama pada G64101038 atas solusi terbaliknya.
7 Departemen Ilmu Komputer, staf, dan dosen yang telah banyak membantu baik selama
penelitian maupun pada masa perkuliahan.
Kepada semua pihak lainnya yang telah memberikan kontribusi yang besar selama
pengerjaan penelitian ini yang tidak dapat disebutkan satu-persatu, Penulis ucapkan terima kasih
banyak.
Semoga penelitian ini dapat memberikan manfaat.

Bogor, Agustus 2008

Liesca Levy Shandy

RIWAYAT HIDUP

Penulis dilahirkan di Kediri pada tanggal 9 April 1982 dari ayah Suroso dan ibu Sri
Hartatik. Penulis merupakan anak ketiga dari tiga bersaudara.
Tahun 2000 Penulis lulus dari SMU Negeri 2 Kediri dan pada tahun yang sama lulus
seleksi masuk UNIBRAW melalui jalur Ujian Masuk Perguruan Tinggi Negeri. Penulis mengikuti
seleksi yang sama tahun berikutnya dan diterima di IPB pada Program Studi Ilmu Komputer,
Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam IPB. Pada akhir
masa kuliah, Penulis diberi kesempatan untuk melakukan Praktik Kerja Lapangan di Balai Besar
Biogenetika, Bogor.

DAFTAR ISI
Halaman
DAFTAR TABEL ............................................................................................................................ vi
DAFTAR GAMBAR ....................................................................................................................... vi
DAFTAR LAMPIRAN .................................................................................................................... vi
PENDAHULUAN
Latar Belakang .......................................................................................................................... 1
Tujuan ....................................................................................................................................... 1
Ruang Lingkup .......................................................................................................................... 1
TINJAUAN PUSTAKA
Data Mining .............................................................................................................................. 1

Praproses Data .......................................................................................................................... 2
Diskretisasi................................................................................................................................ 3
Algoritme K-Means .................................................................................................................. 3
Algoritme ID3 ........................................................................................................................... 4
Pohon Keputusan ...................................................................................................................... 4
Root Means Square Error (RMSE) ........................................................................................... 4
Cross Validation ....................................................................................................................... 5
METODE PENELITIAN
Proses Dasar Sistem .................................................................................................................. 5
Lingkungan Pengembangan ...................................................................................................... 6
HASIL DAN PEMBAHASAN
Metode Partisi Intuitif ............................................................................................................... 7
Algoritme K-Means dengan 4 cluster ....................................................................................... 8
Algoritme K-Means dengan 5 cluster ....................................................................................... 9
Perbandingan Metode Partisi Intuitif dengan Algoritme K-Means ........................................... 9
KESIMPULAN ...............................................................................................................................10
DAFTAR PUSTAKA .....................................................................................................................11
LAMPIRAN.................................................................................................................................... 13

DAFTAR TABEL

1
2
3
4
5
6
7
8
9

Halaman
Nilai pada atribut produksi ....................................................................................................... 7
Nilai pada atribut luas_panen................................................................................................... 8
Interval atribut produksi untuk setiap cluster dengan jumlah cluster 4 .................................... 8
Interval atribut luas_panen untuk setiap cluster dengan jumlah cluster 4 ................................ 8
Matriks confusion untuk algoritme K-Means dengan 4 cluster ............................................... 9
Interval atribut produksi untuk setiap cluster dengan jumlah cluster 5.................................... 9
Interval atribut luas_panen untuk setiap cluster dengan jumlah cluster 5 ................................ 9
Matriks confusion untuk algoritme K-Means dengan 5 cluster ............................................... 9
Perbandingan hasil pohon keputusan metode Partisi Intuitif dengan algoritme K-Means ....... 10

DAFTAR LAMPIRAN
1
2
3
4
5
6
7
8
9

Halaman
Pohon keputusan menggunakan metode Partisi Intuitif ...........................................................13
Aturan yang terbentuk menggunakan metode Partisi Intuitif ..................................................20
Matriks confusion pohon keputusan dengan metode Partisi Intuitif ........................................22
Pohon keputusan menggunakan algoritme K-Means clustering dengan 4 cluster ...................22
Aturan yang terbentuk menggunakan algoritme K-Means clustering dengan 4 cluster ..........23
Matriks confusion pohon keputusan dengan Algoritme K-Means clustering
untuk 4 cluster..........................................................................................................................25

Pohon keputusan menggunakan algoritme K-Means clustering dengan 5 cluster ...................25
Aturan yang terbentuk menggunakan algoritme K-Means clustering dengan 5 cluster ..........26
Matriks confusion pohon keputusan dengan Algoritme K-Means clustering
untuk 5 cluster..........................................................................................................................27

PENDAHULUAN
Latar Belakang
Basis data saat ini telah berkembang
sangat cepat. Di dalam tumpukan data
tersebut mungkin terdapat informasi
tersembunyi yang sangat penting atau
menjadi penting pada saat dibutuhkan.
Penumpukan data tersebut dialami pula oleh
beberapa organisasi termasuk Departemen
Pertanian yang telah mengumpulkan data
sektor pertanian selama bertahun-tahun.
Data tersebut terdiri dari berbagai subsektor,
yang salah satunya adalah data tanaman
pangan dan hortikultura, dan telah tersimpan
sejak tahun 1963. Pertumbuhan yang pesat
dari akumulasi data itu telah menciptakan
kondisi yang sering disebut sebagai “rich of
data but poor of information”. Oleh karena
itu, diperlukan suatu cara agar kumpulan
data tersebut tidak hanya dibiarkan
menggunung namun dapat di’tambang’
untuk mencari informasi yang berguna bagi
organisasi yang bersangkutan.
Data tanaman pangan dan hortikultura
yang dimiliki Departemen Pertanian telah
dianalisis pada penelitian sebelumnya
dengan menerapkan teknik klasifikasi
menggunakan metode pohon keputusan
dengan algoritme C5.0 (Purnamasari 2006).
Tahap preprocessing adalah salah satu
langkah yang perlu dilakukan agar data
dapat sesuai untuk data mining. Strategi
atau pendekatan yang sering digunakan
adalah
agregasi,
sampling,
reduksi
dimensional, feature subset selection,
pembuatan fitur, diskretisasi dan binerisasi,
serta transformasi variabel. Pendekatanpendekatan ini dapat dikelompokkan ke
dalam dua kategori, yaitu seleksi objekobjek data dan atribut-atribut untuk analisis
atau pembuatan/perubahan atribut. Tujuan
dari kedua kategori tersebut adalah untuk
meningkatkan analisis data mining terhadap
waktu, biaya dan kualitas (Tan et al. 2005).
Pendiskretan atribut merupakan salah
satu aspek yang penting dalam data mining
salah satunya dalam metode klasifikasi. Ada
beberapa metode untuk mendiskretkan data
yaitu
binning,
analisis
histogram,
diskretisasi berbasis entropy, 2- merging,
analisis cluster, dan diskretisasi dengan
Partisi Intuitif. (Han & Kamber 2006).
Dalam penelitian ini tahapan praproses data

akan menggunakan teknik diskretisasi
Partisi Intuitif dan clustering menggunakan
algoritme K-means yang diaplikasikan pada
Data Tanaman Padi, Tanaman Pangan dan
Hortikultura, Departemen Pertanian.
Tujuan
Tujuan penelitian ini adalah :
Menerapkan teknik Partisi Intuitif dan
clustering dengan algoritme K-Means
dalam diskretisasi atribut.
• Menerapkan hasil diskretisasi pada
teknik klasifikasi dengan metode pohon
keputusan menggunakan algoritme ID3
yang diaplikasikan pada data tanaman
padi, tanaman pangan dan hortikultura,
Departemen Pertanian.
• Membandingkan akurasi pohon yang
dihasilkan dengan Partisi Intuitif dan
clustering sebagai metode diskretisasi
atribut.

•

Ruang Lingkup
Dalam penelitian ini pohon keputusan
dibuat menggunakan algoritme ID3 yang
tersedia dalam perangkat lunak WEKA
(Waikato Environment for Knowledge
Analysis).
Data yang digunakan dalam penelitian
ini adalah data komoditas pertanian
khususnya data tanaman padi, tanaman
pangan dan hortikultura, Departemen
Pertanian dari tahun 1970 – 2003 (data
berasal dari Badan Pusat Statistik)

TINJAUAN PUSTAKA
Data Mining
Data mining
merupakan proses
ekstraksi informasi data berukuran besar
(Han & Kamber 2006). Data mining
merupakan
keseluruhan
proses
mengaplikasikan komputer dan bermacammacam teknik untuk menemukan informasi
dari sekumpulan data. Dari sudut pandang
analisis
data,
data
mining
dapat
diklasifikasikan
menjadi
dua
yaitu
descriptive data mining dan predictive data
mining.
Descriptive
data
mining
menjelaskan sekumpulan data dalam cara
yang lebih ringkas. Ringkasan tersebut
menjelaskan sifat sifat yang menarik dari
data. Predictive data mining menganalisis
data dengan tujuan mengkonstruksi satu atau
sekumpulan model dan melakukan prediksi

perilaku dari kumpulan data yang baru.(Tan
et al 2005). Aplikasi data mining telah
banyak diterapkan pada berbagai bidang,
seperti analisis pasar dan manajemen resiko,
telekomunikasi, asuransi dan keuangan.
Praproses Data
Hal yang sering ditemui pada basis data
adalah data tidak lengkap (terdapat data
yang bernilai null atau hanya berisi data
agregat), mengandung noise (terdapat error,
atau berisi nilai yang tidak semestinya), dan
tidak konsisten. Pemrosesan data dengan
teknik praproses data dapat memperbaiki
kualitas data, dengan demikian membantu
memperbaiki akurasi dan efisiensi proses
pengolahan data selanjutnya (Han &
Kamber 2006). Tahapan praproses data
adalah (Han & Kamber 2006):
1 Pembersihan data (cleaning)
Pada proses ini data kotor dihilangkan
dan diperbaiki. Pembersihan dilakukan
dengan mengisi nilai yang kosong,
mengurangi atau menghilangkan noise dan
memperbaiki ketidakkonsistenan dalam data.
Permasalahan data kotor dan cara
membersihkannya yaitu:
Nilai yang kosong (hilang)
Untuk mengatasi nilai yang kosong
dalam data dapat dilakukan penghapusan
tuple, mengganti nilainya secara manual,
isi dengan konstanta global seperti
’unknown’ atau ’∞’, menggunakan nilai
rata-rata dari atribut yang kosong, isi
dengan nilai rata-rata dari kelas yang
sama, dan isi nilai yang mungkin melalui
metode regresi, induksi pohon keputusan
dan lain sebagainya.
Nilai mengandung noise
Data dengan nilai yang mengandung
noise dapat diganti dengan nilai hasil
perhitungan dengan metode binning
(mengelompokkan nilai), metode regresi,
atau dengan cara clustering.
Data tidak konsisten
Data tidak konsisten diperbaiki
dengan menyeragamkan data dengan
menggunakan referensi eksternal.
2 Integrasi data
Integrasi data adalah penggabungan data
dari berbagai sumber penyimpanan data.
Proses integrasi mungkin akan menimbulkan
beberapa
masalah
seperti
masalah
identifikasi entitas misalnya pada entitas

yang sama terdapat nama yang berbeda.
Redudansi juga menjadi salah satu masalah,
terdapat lebih dari satu tuple untuk satu data
unik. Masalah lainnya yang timbul adalah
konflik nilai data, disebabkan oleh
perbedaan representasi nilai, misal pada satu
data menggunakan satuan kilogram sedang
pada data lain menggunakan satuan ton.
3 Transformasi data (transformation)
Tahap transformasi data dilakukan agar
data tetap konsisten yaitu setelah dilakukan
integrasi dengan sumber data yang lain,
tampilan dan isi tetap sama. Data dari
bermacam sumber diberi format dan nama
yang umum. Transformasi yang penting
adalah transformasi nama agar tidak ada
nama atribut yang sama atau atribut yang
sama memiliki nama yang berbeda pada
basis data yang berbeda (Kantardzic 2003).
Transformasi data mencakup hal berikut:
Smoothing.
Dilakukan
untuk
menghilangkan
noise
dari
data.
Tekniknya meliputi binning, regresi, dan
clustering.
Agregasi. Peringkasan dan agregasi
diterapkan pada data, misalnya data
penjualan harian bisa diagregasi menjadi
data penjualan bulanan.
Generalisasi. Data tingkat rendah
digantikan dengan tingkat yang lebih
tinggi menggunakan konsep hirarki.
Misalkan
kategori
jalan
bisa
digeneralisasikan
menjadi
kategori
tingkat lebih tinggi yaitu kota atau
negara.
Normalisasi yaitu proses dimana data
sebuah atribut diskalakan ke dalam
rentang (kecil) yang ditentukan.
Konstruksi atribut. Atribut baru dibuat
dan ditambah dari atribut-atribut yang
ada untuk membantu proses pengolahan
data selanjutnya.
4 Reduksi data
Teknik reduksi data diterapkan untuk
memperoleh representasi tereduksi dari
sejumlah data yang berimplikasi pada
volume yang jauh lebih kecil. Strategi
mereduksi data meliputi:
Agregasi kubus data. Operasi agregasi
diterapkan pada data dalam konstruksi
kubus data.
Reduksi dimensi. Penghilangan atribut
atau dimensi yang tidak relevan,
relevansinya tidak kuat, atau redundan.

Kompresi data, mereduksi ukuran data
dengan mekanisme encoding.
Numerosity reduction. Data diganti atau
diestimasikan dengan alternatifnya.
Diskretisasi dan generasi konsep hirarki.
Nilai-nilai data tingkat rendah diganti
dengan tingkat konseptual yang lebih
tinggi. Diskretisasi merupakan bentuk
dari numerosity reduction yang berguna
untuk membangkitkan konsep hirarki
secara otomatis.
Dijelaskan oleh Han & Kamber (2006)
bahwa tahapan praproses data tidak terpisah
sendiri-sendiri (not mutually exclusive).
Mungkin saja saat proses pembersihan
dilakukan,
proses
transformasi
juga
dilakukan di dalamnya.
Diskretisasi
Teknik diskretisasi digunakan untuk
mengurangi jumah nilai pada atribut yang
diberikan, dengan membagi kisaran nilai
atribut ke dalam sejumlah interval. Label
interval tersebut kemudian dapat digunakan
untuk menggantikan nilai data yang aktual.
Metode diskretisasi diantaranya: binning,
analisis histogram, diskretisasi berbasis
entropy, 2-merging, analisis cluster, dan
diskretisasi dengan Partisi Intuitif (Han &
Kamber 2006).
- Binning
Metode ini menghaluskan nilai yang
telah terurut dengan nilai di sekitarnya, nilai
tersebut didistribusikan ke dalam sejumlah
bucket atau bins. Data yang telah terurut tadi
dipartisi ke dalam bins dengan kedalaman
yang sama, misal 3 maka setiap bins akan
berisi 3 nilai.
-

Analisis Histogram
Seperti binning, analisis histogram
adalah metode diskretisasi yang tidak
’terawasi’ karena dia tidak menggunakan
informasi kelas. Histogram mempartisi nilai
dari atribut ke dalam bucket. Secara khas
lebar masing masing bucket adalah seragam.
Setiap bucket ditampilkan melalui histogram
yang tingginya mewakili frekuensi dari nilai
setiap bucket.
- Diskretisasi berbasis entropy
Entropy adalah salah satu metode
diskretisasi
yang
sering
digunakan.
Diskretisasi berbasis entropy adalah teknik
partisi top-down. Untuk mendiskretkan
atribut numerik, metode ini memilih nilai
dari atribut yang memiliki entropy minimum

sebagai split-point, dan secara rekursif
mempartisi hasil interval yang dihasilkan.

-

2

-merging

Dasar metode diskretisasi ini adalah
ChiMerge. Ide dasar untuk diskretisasi
akurat adalah nilai yang mirip secara
konsisten digabungkan ke dalam sebuah
interval. Jika ada dua interval yang
bersebelahan dan mempunyai distribusi nilai
yang mirip, maka intervalnya bisa digabung.
Selainnya interval yang lain tetap harus
dipisahkan.
- Analisis cluster
Analisis cluster juga metode diskretisasi
yang
cukup
populer.
Metode
ini
mengelompokkan nilai nilai yang sama ke
dalam sebuah group (cluster)
-

Diskretisasi dengan Partisi Intuitif
Metode ini digunakan karena banyak
pengguna yang menginginkan setiap range
dipartisi menjadi interval yang cukup
seragam, dan setiap interval mudah dibaca
karena terlihat intuitif atau natural.
Aturan 3-4-5 dapat digunakan untuk
membagi data numerik menjadi data yang
cukup seragam. Secara umum, aturan partisi
membagi kisaran data menjadi 3, 4 atau 5
interval yang lebarnya cukup sama, rekursif,
dan setiap tingkatan berdasar pada kisaran
nilai dengan angka yang paling signifikan.
Penjelasan mengenai aturan ini adalah
sebagai berikut :
Jika interval mencakup 3, 6, 7, 9 nilai
yang berbeda dari angka signifikan maka
rentang nilai dipartisi menjadi 3 interval.
Untuk nilai 3, 6, dan 9, interval dibagi
menjadi 3 dengan lebar yang sama
sedangkan untuk nilai 7, interval akan
dikelompokkan dengan perbandingan lebar
2-3-2. Jika interval mencakup 2, 4, atau 8
nilai yang berbeda dari angka signifikan
maka rentang nilai dipartisi menjadi 4
interval dengan lebar yang sama. Jika
interval mencakup 1,5 atau 10 nilai yang
berbeda dari angka signifikan maka rentang
nilai dipartisi menjadi 5 interval dengan
lebar yang sama.
Algoritme K-Means
Dasar dari teknik clustering adalah
membentuk suatu level partisi pada suatu
objek data. Clustering memiliki bermacammacam teknik, namun dua teknik yang

banyak digunakan adalah K-Means dan KMedoid (Tan et al. 2005).
K-Means
merupakan
algoritme
clustering yang sederhana. K-Means
membagi data menjadi beberapa cluster,
setiap cluster memiliki nilai tengah yang
disebut dengan centroid.
Setiap nilai
dimasukkan ke dalam cluster yang dekat
dengan centroid. Jumlah cluster pada
algoritme ini tergantung kepada masukan
dari penggunanya. Algoritme dasar dari KMeans adalah (Tan et al. 2005):
Select K points as the initial
centroids
Repeat
From K cluster by assigning
all points to the closest
centroids
Recomputed the centroids of
each cluster
Until
change

the

centroids

don’t

Algoritme ID3
Algoritme ID3 diperkenalkan dan
dikembangkan pertama kali oleh Ross
Quinlan. Algoritme ID3 membentuk pohon
keputusan dengan metode divide-andconquer data secara rekursif dari atas ke
bawah. Strategi pembentukan Decision Tree
dengan algoritme ID3 adalah (Quinlan,
2008):
1 Pohon dimulai sebagai node tunggal
(akar/root) yang merepresentasikan
semua data.
2 Sesudah node akar dibentuk, maka data
pada node akar akan diukur dengan
information gain untuk dipilih atribut
mana yang akan dijadikan atribut
pembaginya.
3 Sebuah cabang dibentuk dari atribut yang
dipilih menjadi pembagi dan data akan
didistribusikan ke dalam cabang masingmasing.
4 Algoritme ini akan terus menggunakan
proses yang sama atau bersifat rekursif
untuk dapat membentuk sebuah pohon
keputusan. Ketika sebuah atribut telah
dipilih menjadi node pembagi atau
cabang, maka atribut tersebut tidak
diikutkan lagi dalam penghitungan nilai
information gain.
5 Proses pembagian rekursif akan berhenti
jika salah satu dari kondisi di bawah ini
terpenuhi:

a Semua data dari anak cabang telah
termasuk dalam kelas yang sama.
b Semua atribut telah dipakai, tetapi
masih tersisa data dalam kelas yang
berbeda. Dalam kasus ini, diambil
data yang mewakili kelas yang
terbanyak untuk menjadi label kelas
pada node daun.
c Tidak terdapat data pada anak cabang
yang baru. Dalam kasus ini, node
daun akan dipilih pada cabang
sebelumnya dan diambil data yang
mewakili kelas terbanyak untuk
dijadikan label kelas.
Pohon Keputusan
Decision Tree adalah salah satu teknik
klasifikasi
sederhana
yang
banyak
digunakan. Masalah klasifikasi diselesaikan
dengan mengajukan serangkaian pertanyaan
tentang atribut dari test record. Rangkaian
pertanyaan
tersebut
dan
jawabanjawabannya diorganisasikan ke dalam
bentuk pohon keputusan, yang merupakan
struktur hirarki yang terdiri dari node-node
dan edge-edge berarah. Dalam pohon
keputusan, leaf node diberikan sebuah label
kelas. Non-terminal node, yang terdiri dari
root dan internal node lainnya, mengandung
kondisi-kondisi
uji
atribut
untuk
memisahkan
record
yang
memiliki
karakteristik yang berbeda. Setelah pohon
keputusan dikonstruksi, test record dapat
diklasifikasi. Bermula dari root, kondisi tes
diaplikasikan ke record dan mengikuti
cabang yang sesuai berdasarkan keluaran
dari tes. Hal ini akan membawa kita ke
internal node yang lain, dimana kondisi tes
yang baru diaplikasikan, atau ke leaf node
(Tan et al. 2005).
Root Means Square Error (RMSE)
(Meese dan Rogoff 1983, diacu dalam
Wibowo dan Amir 2005) menyatakan
beberapa metode dapat digunakan untuk
menunjukkan kesalahan dari suatu teknik
prakiraan. Metode yang digunakan adalah
menggunakan analisis residual yaitu melihat
kesalahan atau perbedaan antara nilai hasil
prakiraan dengan nilai yang sebenarnya
terjadi. Kesalahan prakiraan pada periode t
dapat dirumuskan

e t = Yt − Yˆt
di mana:
et = kesalahan prakiraan pada periode t

Yt = nilai sebenarnya pada periode t
Yˆt = nilai prakiraan pada periode t

Salah satu metode yang sering digunakan
adalah Root Mean Square Error (RMSE).
Metode prakiraan yang mempunyai RMSE
terkecil adalah metode yang terbaik. RMSE
didefinisikan sebagai akar dari MSE.
n

∑ (Y − Yˆ )
t

MSE =

t

2

t =1

METODE PENELITIAN
Proses Dasar Sistem
Proses dasar sistem mengacu pada proses
dalam Knowledge Discovery in Database
(KDD) (Tan et al. 2005). Proses ini dapat
dilihat pada gambar berikut:

n

RMSE = MSE

Cross Validation
Cross validation adalah metode yang
umum digunakan untuk mengevaluasi
kinerja classifier. Dalam pendekatan crossvalidation,
setiap
record
digunakan
beberapa kali dalam jumlah yang sama
untuk training dan tepat sekali untuk testing.
Metode ini mempartisi data ke dalam dua
subset yang berukuran sama. Pilih satu dari
kedua subset tersebut untuk training dan
satu lagi untuk testing. Kemudian dilakukan
pertukaran fungsi dari subset sedemikian
sehingga subset yang sebelumnya sebagai
training set menjadi test set demikian
sebaliknya. Pendekatan ini dinamakan twofold cross-validation. Total error diperoleh
dengan menjumlahkan error-error untuk
kedua proses tersebut. Dalam contoh ini,
setiap record digunakan tepat satu kali untuk
training dan satu kali untuk testing. Metode
k-fold cross-validation men-generalisasi
pendekatan ini dengan mensegmentasi data
ke dalam k partisi berukuran sama. Selama
proses, salah satu dari partisi dipilih untuk
testing, sedangkan sisanya digunakan untuk
training. Prosedur ini diulangi k kali
sedemikian
sehingga
setiap
partisi
digunakan untuk testing tepat satu kali.
Total
error
ditentukan
dengan
menjumlahkan error untuk semua k proses
tersebut. Kasus khusus untuk metode k-fold
cross-validation menetapkan k = N, ukuran
dari data set. Metode ini dinamakan
pendekatan leave-one-out, setiap test set
hanya mengandung satu record. Pendekatan
ini memiliki keuntungan dalam penggunaan
sebanyak mungkin data untuk training. Test
set bersifat mutually exclusive dan secara
efektif mencakup keseluruhan data set.
Kekurangan dari pendekatan ini adalah
banyaknya komputasi untuk mengulangi
prosedur sebanyak N kali (Tan et al. 2005).

Gambar Tahapan dalam KDD
1 Praproses Data
Praproses data meliputi pembersihan
data, integrasi data, transformasi dan seleksi
data. Pembersihan data dilakukan untuk
menghilangkan data yang tidak konsisten
dan mengandung noise. Proses pembersihan
data pada penelitian ini merujuk kepada
penelitian sebelumnya (Purnamasari 2006).
Transformasi
dilakukan
untuk
membentuk data menjadi bentuk yang tepat
untuk di-tambang. Pada proses ini dilakukan
diskretisasi atribut data pada data tanaman
padi.
Praproses dimulai dengan memisahkan
data tanaman padi dari seluruh propinsi.
Baru kemudian dilakukan proses diskretisasi
menggunakan Partisi Intuitif. Metode ini
menggunakan aturan 3-4-5 sebagai dasar
untuk membagi data. Dari setiap atribut
diambil nilai maksimum (MAX) dan
minimum (MIN) sebagai batas interval.
Setelah itu dicari nilai 5 persentil (LOW) dan
nilai 95 persentil (HIGH). Nilai persentil ini
sebagai acuan menentukan MSD (Most
Significant Digit), setelahnya nilai 5
persentil dibulatkan kebawah sesuai satuan
MSD menjadi LOW’ dan 95 persentil
dibulatkan ke atas sesuai dengan satuan
MSD menjadi HIGH’. Nilai yang didapat
akan digunakan untuk mencari jumlah
interval dengan aturan (HIGH’-LOW’)/MSD.
Angka yang didapatkan disesuaikan dengan

aturan 3-4-5 untuk menentukan interval akan
dibagi menjadi berapa kelompok. Hasilnya
akan menjadi hirarki paling atas. Kemudian
nilai maksimum dan nilai minimum
diperiksa apakah nilainya masuk ke dalam
partisi level pertama. Jika interval pertama
mencakup
nilai
minimum
maka
LOW’ HIGH’ maka perlu interval
baru untuk menutupnya. Nilai MAX
dibulatkan ke atas pada satuan MSD dan
akan didapatkan interval yang baru. Langkah
langkah ini diulangi lagi pada level hirarki
yang lebih rendah.
2 Data Mining
Tahap ini merupakan inti dari tahapan
KDD yang dilakukan untuk menganalisis
data yang telah dibersihkan. Teknik yang
digunakan adalah decision tree yang dibagi
menjadi 3 tahap, yaitu :
a Pembentukan Pohon
Pada tahap ini akan dibentuk suatu
pohon yang terdiri dari akar yang
merupakan node paling awal, daun
sebagai distribusi kelas, dan batang yang
menggambarkan hasil keluaran dari
pengujian. Pada pembentukan pohon ini
dilakukan pemilihan atribut untuk
penentuan posisi dalam pembentukan
pohon. Pemilihan atribut dilakukan
dengan menggunakan perhitungan yang
sama dengan tahap reduksi data, yaitu
menggunakan information gain. Namun
yang membedakan dengan perhitungan
dalam reduksi data adalah data yang
akan diproses menjadi pohon keputusan
telah dilakukan diskretisasi terlebih
dahulu.
b Pemangkasan Pohon
Pemangkasan pohon dapat dilakukan
dengan
metode
prepruning
atau
postpruning. Namun alternatif lain yang
dapat
dilakukan
adalah
mengkombinasikan prepruning dan
postpruning untuk menghasilkan pohon
yang lebih baik. Pada percobaan ini,
pemangkasan pohon tidak dilakukan
karena jumlah atribut yang sedikit.
c Pembentukan Aturan Keputusan,
aturan yang dihasilkan dari pohon

keputusan dapat ditampilkan dalam
bentuk aturan IF-THEN. Aturan dibentuk
dari tiap path pada pohon. Setiap node
yang bukan leaf node berperan sebagai
bagian IF sedangkan bagian THEN
diambil dari leaf node yang merupakan
konsekuen dari aturan. Aturan IF-THEN
lebih mudah dipahami oleh pengguna
apalagi jika pohonnya dalam ukuran
besar.
3 Evaluasi Data Keluaran
Pada tahap ini dilakukan evaluasi
terhadap kinerja classifier sehingga bisa
diambil kesimpulan atau informasi dari data.
Metode evaluasi yang digunakan adalah
metode cross validation.
Lingkungan Pengembangan
Lingkungan
pengembangan
sistem
dalam penelitian ini meliputi:
Perangkat lunak:
Windows XP Profesional sebagai sistem
operasi.
WEKA 3-5-7 untuk membentuk pohon
keputusan.
MS. Excel sebagai pengolah data.
Matlab 7 sebagai pengolah data
Perangkat keras yang digunakan adalah
komputer personal dengan spesifikasi
sebagai berikut:
Prosesor Intel Pentium IV 3.00 GHz.
Memori 1.49 Gb.
Harddisk 40 GB
Monitor 15 inchi, mouse dan keyboard.

HASIL DAN PEMBAHASAN
Sebelum proses data mining dilakukan,
dilakukan tahapan praproses pada data
tanaman pangan dan hortikultura. Tahap
pembersihan data dan integrasi data telah
dilakukan
oleh
peneliti
sebelumnya
(Purnamasari 2006).
Sebelum tahap
praproses selanjutnya, dari data yang ada
diambil data tanaman padi dari seluruh
propinsi. Data tanaman padi didiskretisasi
menggunakan 2 metode yaitu metode
Partisi Intuitif sesuai dengan aturan 3-4-5
serta metode K-means clustering dengan
jumlah cluster adalah 4 dan 5.
Data yang telah didiskretkan kemudian
disimpan kedalam file berekstensi csv. File
csv ini diubah menjadi file berekstensi arff

yang merupakan file khusus untuk perangkat
lunak WEKA. WEKA akan memproses
masukan dan membentuk pohon keputusan.
Pohon keputusan dihasilkan berdasarkan
algoritme ID3 dengan metode 10-fold cross
validation sebagai model pengujian.
Metode Partisi Intuitif
Metode diskretisasi yang digunakan
adalah Partisi Intuitif dengan aturan 3-4-5.
Dari atribut produksi diambil nilai
maksimum (MAX) yaitu 21.579.444 ton
dan minimum (MIN) sebesar 961 ton
sebagai batas interval awal. Kemudian dicari
nilai 5 persentil (LOW) dan nilai 95 persentil
(HIGH). Dari seluruh nilai produksi
didapatkan nilai LOW =17.340,5 dan nilai
HIGH = 8.233.619. Nilai persentil ini
sebagai acuan menentukan MSD (Most
Significant Digit). Karena rentang nilai LOW
dan HIGH terletak pada satuan juta maka
ditetapkan
MSD
sebesar
1.000.000
setelahnya nilai 5 persentil dibulatkan ke
bawah sesuai satuan MSD menjadi LOW’
sebesar 0 dan 95 persentil dibulatkan ke atas
sesuai dengan satuan MSD menjadi HIGH’
sebesar 9.000.000. Nilai yang didapat akan
digunakan untuk mencari jumlah interval
dengan aturan (HIGH’-LOW’)/MSD. Angka
yang didapatkan adalah 9, sesuai dengan
aturan 3-4-5 maka akan didapatkan tiga
interval, yaitu (0 ... 3.000.000], (3.000.000
... 6.000.000], dan (6.000.000 ... 9.000.000].
Hasil interval ini akan menjadi hirarki paling
atas. Kemudian nilai maksimum dan nilai
minimum diperiksa apakah nilainya masuk
kedalam partisi level pertama. Karena
interval pertama mencakup nilai minimum
maka 0

Perbandingan Metode Diskretisasi Data Partisi Intuitif dan K-Means Clustering terhadap Pembuatan Pohon Keputusan

Dokumen yang terkait

Perbandingan Metode K Nearest Neighbor dan K Means Clustering Dalam Segmentasi Warna Pada Citra.

DATA MINING PENERAPAN K-MEANS ALGORITM CLUSTERING

Optimasi K Means Clustering Menggunakan

PENERAPAN METODE CLUSTERING K MEANS UNTU

Penerapan Metode K Means Clustering Data (1)

SEGMENTASI BUAH MENGGUNAKAN METODE K-MEANS CLUSTERING DAN IDENTIFIKASI KEMATANGANNYA MENGGUNAKAN METODE PERBANDINGAN KADAR WARNA

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

Perbandingan K-Means dan K-Medoids Clustering terhadap Kelayakan Puskesmas di DIY Tahun 2015

Clustering Data Polutan Udara Kota Pekanbaru dengan Menggunakan Metode K-Means Clustering

Kata kunci : Data Mining, K-Means Clustering,

Dukungan

Links

Perbandingan Metode Diskretisasi Data Partisi Intuitif dan K-Means Clustering terhadap Pembuatan Pohon Keputusan

Dokumen yang terkait

Perbandingan Metode K Nearest Neighbor dan K Means Clustering Dalam Segmentasi Warna Pada Citra.

DATA MINING PENERAPAN K-MEANS ALGORITM CLUSTERING

Optimasi K Means Clustering Menggunakan

PENERAPAN METODE CLUSTERING K MEANS UNTU

Penerapan Metode K Means Clustering Data (1)

SEGMENTASI BUAH MENGGUNAKAN METODE K-MEANS CLUSTERING DAN IDENTIFIKASI KEMATANGANNYA MENGGUNAKAN METODE PERBANDINGAN KADAR WARNA

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

Perbandingan K-Means dan K-Medoids Clustering terhadap Kelayakan Puskesmas di DIY Tahun 2015

Clustering Data Polutan Udara Kota Pekanbaru dengan Menggunakan Metode K-Means Clustering

Kata kunci : Data Mining, K-Means Clustering,

Dokumen yang Anda mencari sudah siap untuk unduhkan