ANALISIS OPTIMASI PEMBENTUKAN TREE PADA

Tugas Akhir - 2008

ANALISIS OPTIMASI PEMBENTUKAN TREE PADA ALGORITMA C&RT DALAM
KLASIFIKASI DATA
R Denny Prasetyadi Utomo¹, Retno Novi Dayawati², Kemas Rahmat Saleh Wiharja³
¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
Abstrak
Data Mining merupakan solusi yang mampu menemukan pola dan aturan (rule) dari sekumpulan
data yang besar. Dari aspek bisnis, data mining mempunyai kandungan informasi yang potensial.
Data mining mampu menemukan informasi yang tersembunyi.
C&RT (Classification and Regression Trees) merupakan salah satu metode atau algoritma dari
salah satu teknik eksplorasi data yaitu teknik pohon keputusan atau disebut juga decision tree.
Decision tree merupakan salah satu metode klasifikasi yang menarik karena mudah
diinterpretasikan oleh manusia, dapat dibentuk relatif cepat dibanding metode lain, dan memiliki
akurasi yang baik pada hasil klasifikasinya.
C&RT memiliki waktu Pembentukan Tree yang relatif lebih Lama dibandingkan dengan metode
klasifikasi menggunakan decision tree yang lainnya. Karena akurasi dari C&RT yang baik dalam
klasifikasi data, pada Tugas Akhir ini dilakukan penelitian untuk mengoptimasi pembentukan
tree pada C&RT. Optimasi dilakukan dengan cara sampling data latih untuk mempercepat split
pada pembentukan tree.
Kata Kunci : data mining, klasifikasi, decision tree, C&RT


Abstract
Data Mining is a solution that can find patern and rule from large data. From bussiness aspect,
data mining have a potential information. Data mining can discover hidden information.
C&RT (Classification and Regression Tree) is a method or algorithm from one of the data
exploration technique that is decision tree. Decision tree is a interesting classification method
because easy to understand by people, constructed more fast, and have good accuration on the
classification result.
If it compared with other classification method, C&RT is need long time in tree construction.
Because the accuration of C&RT is good for data classification, on this final poject will do a
research to optimize tree construction on C&RT. Sampling the data is used to accelerate splitting
root of tree in tree construction.
Keywords : data mining, classification, decision tree, C&RT

Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)

Program Studi S1 Teknik Informatika

Tugas Akhir - 2008


1. Pendahuluan

1.1

Latar belakang

Perkembangan jumlah data dalam sektor industri semakin lama semakin
bertambah besar. Dimana banyak perusahaan atau organisasi
telah
mengumpulkan data sekian tahun lamanya (data pembelian, data penjualan, data
nasabah, data transaksi dsb.). Hampir semua data tersebut dimasukkan dengan
menggunakan aplikasi komputer yang digunakan untuk menangani transaksi
sehari-hari yang kebanyakan adalah OLTP (On Line Transaction Processing).
Setelah berjalan beberapa tahun kemudian muncul pertanyaan, akan kita apakan
data tersebut? Haruskah kita buang? Dapatkah data history tersebut kita
manfaatkan?
Data mining merupakan solusi yang mampu menemukan pola dan aturan
(rule) dari sekumpulan data yang besar. Dari aspek bisnis, data mining
mempunyai kandungan informasi yang potensial. Data mining mampu

menemukan informasi yang tersembunyi.
Salah satu task data mining adalah teknik klasifikasi. Klasifikasi
merupakan suatu proses untuk menemukan sekumpulan model (fungsi) yang
menggambarkan dan membedakan kelas-kelas atau konsep data yang bertujuan
untuk memudahkan penggunaan model dalam memprediksi kelas-kelas objek,
dimana label-label kelas tidak diketahui sebelumnya.
C&RT (Classification and Regression Trees) merupakan salah satu metode
atau algoritma dari salah satu teknik eksplorasi data yaitu teknik pohon keputusan
atau disebut juga decision tree. Decision tree merupakan salah satu metode
klasifikasi yang menarik karena mudah diinterpretasikan oleh manusia, dapat
dibentuk relatif cepat dibanding metode lain, dan memiliki akurasi yang baik pada
hasil klasifikasinya. Pembentukan pohon pada algoritma C&RT dilakukan dengan
cara memecahkan subset dari data set menggunakan semua variabel prediktor
untuk menciptakan dua node anak secara berulang-ulang. Algoritma ini mampu
melakukan klasifikasi pada data yang bertipe categorical maupun continuous.
Pada tugas akhir ini akan dilakukan optimasi pembentukan tree pada
algoritma C&RT dengan cara melakukan sampling pada data training. Optimasi
ini dilakukan untuk memperbaiki performansinya. Setelah itu akan dilakukan
analisis terhadap hasil optimasi algoritma tersebut.


1.2

Perumusan masalah

Dengan mengacu pada latar belakang masalah diatas, maka permasalahan
yang akan dibahas dan diteliti adalah :
1. Bagaimana cara kerja untuk mengoptimasi pembentukan decision tree
pada C&RT dalam klasifikasi data.
2. Bagaimana menerapkan optimasi pembentukan decision tree pada
C&RT dalam klasifikasi data.
3. Bagaimana cara kerja algoritma C&RT dalam klasifikasi data.
4. Bagaimana menerapkan algoritma C&RT dalam klasifikasi data.

1

Fakultas Teknik Informatika

Program Studi S1 Teknik Informatika

Tugas Akhir - 2008


5. model sistem yang digunakan pada Tugas Akhir ini sebagai berikut:

Data
Training

Sampling

Build Tree

Build Final
Tree

Gambar 2-1 Model Sistem
Berdasarkan gambar diatas, langkah pertama yaitu mengambil sampling dari
data training, kemudian dibangun tree untuk klasifikasi dengan
menggunakan algoritma C&RT. Setelah itu dibentuk Final Tree dengan cara
mengiriskan semua tree yang terbentuk pada langkah sebelumnya dan juga
mengacu pada data training yang ada.
Batasan masalah untuk Tugas Akhir ini adalah sebagai berikut :

1. Data yang digunakan adalah data kategorik (bukan numerik).
2. Data yang digunakan merupakan data UCI.
3. Tidak menangani preprocessing.

1.3

Tujuan

Berdasarkan rumusan masalah di atas, maka tujuan dari tugas akhir ini
adalah:
1. menghasikan perangkat lunak untuk mengoptimasi pembentukan
decision tree pada C&RT.

2

Fakultas Teknik Informatika

Program Studi S1 Teknik Informatika

Tugas Akhir - 2008


2. Menganalisis performansi algoritma C&RT yang telah dilakukan
optimasi.
Hipotesa Awal : waktu yang dibutuhkan untuk pembentukan tree pada hasil
optimasi lebih cepat dibandingkan dengan algoritma C&RT yang tidak
dilakukan optimasi.

1.4

Metodologi penyelesaian masalah

Metode yang digunakan dalam penyelesaian tugas akhir ini adalah
menggunakan metode studi pustaka atau studi literatur dan analisis dengan
langkah kerja sebagai berikut :
1. Studi Literatur :
a. Pencarian referensi, mencari referensi dan sumber-sumber lain yang
layak yang berhubungan dengan data mining, decision tree, C&RT.
b. Pendalaman materi, mempelajari dan memahami materi yang
berhubungan dengan tugas akhir.
2. Mempelajari konsep dari decision tree yang akan digunakan dalam

implementasi perangkat lunak.
3. Melakukan analisis klasifikasi pada data mining dalam perancangan
perangkat lunak
4. Melakukan implementasi perancangan perangkat lunak
5. Melakukan pengujian perangkat lunak dengan memasukkan data serta
mencatat hasil keluaran program.
6. Pengambilan kesimpulan dan penyusunan laporan tugas akhir.

3

Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)

Program Studi S1 Teknik Informatika

Tugas Akhir - 2008

PENUTUP
5.1


KESIMPULAN

5.1.1 Sehubungan Dengan Hasil Penelitian
1. Penggunaan algoritma BOAT mampu meningkatkan performansi waktu
pada saat proses klasifikasi menggunakan metode C&RT tanpa
mengurangi akurasinya.
2. Nilai bagsize (prosentase ukuran sampling) yang efektif meningkatkan
performansi metode C&RT adalah ≤ 12 % dan numbag ( banyaknya
sampling yang digunakan) yang paling baik adalah 2
3. Menurut hasil percobaan yang dilakukan terhadap 5 data yang digunakan,
optimasi C&RT dapat mempercepat waktu pembentukan tree sebesar
74.5% dan memiliki rata-rata hasil optimasi C&RT terbesar lebih cepat
47.24 % dibandingkan dengan C&RT normal dalam pembentukan tree.

5.2

SARAN

Untuk pengembangan selanjutnya, optimasi algoritma C&RT dapat
diterapkan dengan data riil yang ada di perusahaan.


38

Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)

Program Studi S1 Teknik Informatika

Tugas Akhir - 2008

Daftar Pustaka
[1]

[2]

[3]
[4]

[5]
[6]


[7]

[8]

[9]
[10]
[11]

A.C.Davison and D.V.Hinkley. Bootstrap Methods and their Application.
Cambridge Series in Statisticaland Probabilistic Mathematics. Cambridge
University Press, 1997.
Alwi, Hasan, et al. 2003. Tata Bahasa Buku Bahasa Indonesia. Edisi
Ketiga. Jakarta: Balai Pustaka.Alwi, Hasan, et al. 2003. Tata Bahasa
Buku Bahasa Indonesia. Edisi Ketiga. Jakarta: Balai Pustaka.
Andrea Tettamanzi and Marco Tomassini. Soft Computing. Springer
2001.
Breiman, L., Friedman, J. H., Olshen, R. A., & Stone, C. J. (1984).
Classification and Regression Trees. Wadsworth International
Group,Belmont,California.
F. Olken. Random Sampling from Databases. PhD thesis, University of
California at Berkeley, 1993.
Jiawei Han and Micheline Kamber. Data Mining : Concepts and
Techniques. Intelligent Database Systems Research Lab, School of
Computing Science, Simon Fraser University.
Johannes Gehrke, Venkatesh Ganti, Raghun Ramakrishnan and Wei-Yin
Loh. BOAT-Optimistic Decision Tree Construction. Departement of
Computer Science and Departement of Statistics, University of
Wisconsin-Madison.
Johannes Gehrke, Venkatesh Ganti and Raghun Ramakrishnan. Rain
Forest-A Framework for Fast Decision Tree Construction of Large
Dataset. Departement of Computer Science and Departement of
Statistics, University of Wisconsin-Madison.
J.Ross Quinlan. Induction of decision trees. Machine Learning, 1:81 –
106,1986.
Kusumadewi, Sri. Artificial Intellegence (Teknik dan Aplikasi. edisi
pertama). Graha Ilmu. Jogjakarta. 2003.[hal. 279-331]
Pang-Ning Tan, Michael Steinbach and Vipin Kumar. Introduction to
Data Mining. University of Minnesota and Army High Performance
Computing Research Center.

39

Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)

Program Studi S1 Teknik Informatika

Dokumen yang terkait

ANALISIS KOMPARATIF PENDAPATAN DAN EFISIENSI ANTARA BERAS POLES MEDIUM DENGAN BERAS POLES SUPER DI UD. PUTRA TEMU REJEKI (Studi Kasus di Desa Belung Kecamatan Poncokusumo Kabupaten Malang)

23 307 16

FREKUENSI KEMUNCULAN TOKOH KARAKTER ANTAGONIS DAN PROTAGONIS PADA SINETRON (Analisis Isi Pada Sinetron Munajah Cinta di RCTI dan Sinetron Cinta Fitri di SCTV)

27 310 2

MANAJEMEN PEMROGRAMAN PADA STASIUN RADIO SWASTA (Studi Deskriptif Program Acara Garus di Radio VIS FM Banyuwangi)

29 282 2

ANALISIS ISI LIRIK LAGU-LAGU BIP DALAM ALBUM TURUN DARI LANGIT

22 212 2

ANALISIS SISTEM PENGENDALIAN INTERN DALAM PROSES PEMBERIAN KREDIT USAHA RAKYAT (KUR) (StudiKasusPada PT. Bank Rakyat Indonesia Unit Oro-Oro Dowo Malang)

160 705 25

ANALISIS PROSPEKTIF SEBAGAI ALAT PERENCANAAN LABA PADA PT MUSTIKA RATU Tbk

273 1263 22

PENERIMAAN ATLET SILAT TENTANG ADEGAN PENCAK SILAT INDONESIA PADA FILM THE RAID REDEMPTION (STUDI RESEPSI PADA IKATAN PENCAK SILAT INDONESIA MALANG)

43 322 21

KONSTRUKSI MEDIA TENTANG KETERLIBATAN POLITISI PARTAI DEMOKRAT ANAS URBANINGRUM PADA KASUS KORUPSI PROYEK PEMBANGUNAN KOMPLEK OLAHRAGA DI BUKIT HAMBALANG (Analisis Wacana Koran Harian Pagi Surya edisi 9-12, 16, 18 dan 23 Februari 2013 )

64 565 20

PEMAKNAAN BERITA PERKEMBANGAN KOMODITI BERJANGKA PADA PROGRAM ACARA KABAR PASAR DI TV ONE (Analisis Resepsi Pada Karyawan PT Victory International Futures Malang)

18 209 45

STRATEGI KOMUNIKASI POLITIK PARTAI POLITIK PADA PEMILIHAN KEPALA DAERAH TAHUN 2012 DI KOTA BATU (Studi Kasus Tim Pemenangan Pemilu Eddy Rumpoko-Punjul Santoso)

119 459 25