PERBANDINGAN PENANGANAN DATA KUANTITATIF, KUALITATIF DAN CAMPURAN DALAM PEMBUATAN POHON KEPUTUSAN DENGAN MENGGUNAKAN ALGORITMA ID3 SKRIPSI Diajukan Untuk Memenuhi Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika
PERBANDINGAN PENANGANAN DATA KUANTITATIF, KUALITATIF DAN CAMPURAN DALAM PEMBUATAN POHON KEPUTUSAN DENGAN MENGGUNAKAN ALGORITMA ID3 SKRIPSI Diajukan Untuk Memenuhi Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika Oleh : CAECILIA NOVA PATRIANA NIM : 065314019 JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2012
COMPARISON OF THE HANDLING OF QUANTITATIVE
DATA, QUALITATIVE DATA AND MIXED IN MAKING A
DECISION TREE USING ID3 ALGORITHM
A THESIS
Presented as Partial Fulfillment of the Requirements to Obtain Sarjana
Komputer Degree in Informatics Engineering Department
By :
CAECILIA NOVA PATRIANA
NIM : 065314019
DEPARTMENT OF INFORMATICS ENGINEERING
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2012
HALAMAN MOTTO
Jika kenyataan tidak sesuai dengan apa yang kamu inginkan,
jangan pernah menyerah, teruslah berjuang, berdoa dan
pasrahkanlah semua pada Tuhan, karena pasti Tuhan
memberikan yang terbaik untukmu. Ingatlah bahwa setiap
rancangan Tuhan itu indah dan penuh makna.Jangan pernah pelit untuk saling berbagi dalam hal apapun, karena rejeki selalu berputar dan suatu saat itu akan kembali kepadamu.
Lakukanlah semua hal atas dasar cinta karena dengan itu akan
membuat semuanya menjadi indah.Jangan pernah menunda pekerjaan, lakukanlah sekarang juga karena waktu tidak akan pernah kembali sebelum kau menyesal nantinya. Jangan pernah merasa dirimulah yang paling hebat atau yang paling lemah, karena di atas langit masih ada langit.
“God is Good…”
HALAMAN PERSEMBAHAN
Tidak ada sesuatu yang didapatkan tanpa perjuangan dan kerja keras Kupersembahkan karyaku ini untuk : Papa dan Mama tercinta
Adikku tersayang Orang-orang yang aku cintai dan mencintaiku I love You Forever All
ABSTRAK
Permasalahan dalam tugas akhhir ini adalah bagaimana algoritma ID3membantu pengolahan data tipe data kuantitatif (interval, rasio), kualitatif
(nominal, ordinal) dan campuran sehingga diperoleh suatu pola dalam bentuk
pohon keputusan yang dapat membantu dalam mengambil keputusan. Tujuan
pembuatan tugas akhir ini agar tersedianya aplikasi atau model pengolahan data
yang mampu menganalisis sekumpulan data dengan tipe data kuantitatif (interval,
rasio), kualitatif (nominal, ordinal) dan campuran sehingga ditemukan suatu pola
atau aturan yang dapat membantu dalam mengambil keputusan untuk suatu
permasalahan klasifikasi serta memberikan pemodelan pengolahan data dalam
menangani data kuantitatif (interval, rasio), kualitatif (nominal, ordinal) dan
campuran dengan menggunakan algoritma ID3.Decision tree adalah sebuah metode untuk memperkirakan fungsi target nilai-
diskrit , dimana fungsi yang dipelajari ditampilkan dengan pohon keputusan.
Dalam ID3 mengunakan kriteria information gain untuk memilih atribut. Akurasi
yang didapat untuk data kuantitatif (interval, rasio) adalah 72.4%, data kualitatif
(nominal, ordinal) adalah 72.92% dan data campuran adalah 77.9%
ABSTRACT
Problems in this thesis is how the algorithm helps ID3 data processing type ofquantitative (interval, ratio), qualitative (nominal, ordinal) and mixed to obtain a
pattern in the form of a decision tree that can assist in making decisions. Purpose
of making this thesis will provide the application or the data processing model
that is able to analyze a set of data with the type of quantitative (interval, ratio),
qualitative (nominal, ordinal) and mixed so found a pattern or rule that can help in
making decisions for a classification problem and provide a data processing
modeling in dealing with quantitative (interval, ratio), qualitative (nominal,
ordinal) and mixed using ID3 algorithm.Decision tree is a method to estimate the target function of discreate values,
where the functions being studied displayed with the decision tree. In the decicion
tree using information gain criterion to select attributes. Accuracy is obtained for
72.4% of quantitative (interval, ratio) data, qualitative (nominal, ordinal) data was
72.92% and 77.9% are mixed data.
KATA PENGANTAR
Puji syukur kepada Tuhan Yang Maha Esa karena atas segala berkat dan
rahmat-Nya penulis dapat menyelesaikan skripsi dengan judul “Perbandingan
Penanganan Data Kuantitatif, Kualitatif Dan Campuran Dalam Pembuatan Pohon
Keputusan Dengan Menggunakan Algoritma ID3”.Penulisan skripsi ini diajukan untuk memenuhi salah satu syarat
memperoleh gelar Sarjana Komputer Program Studi Teknik informatika
Universitas Sanata Dharma Yogyakarta.Dengan terselesaikannya penulisan skripsi ini, penulis mengucapkan
terima kasih kepada pihak-pihak yang telah membantu memberikan dukungan
baik berupa masukan ataupun berupa saran. Oleh karena itu, penulis
menyampaikan ucapan terima kasih yang sebesar-besarnya kepada :
1. Romo Dr. Cyprianus Kuntoro Adi, SJ, MA, M.Sc., selaku dosen
pembimbing, atas kesabaran, pengarahan, dan saran yang diberikan kepada penulis selama penyusunan skripsi ini.
2. Ibu P.H. Prima Rosa, S.Si, M.Sc., selaku Dekan Fakultas Sains dan
Teknologi Universitas Sanata Dharma Yogyakarta serta selaku dosen penguji atas kritik dan saran yang membangun dalam perbaikan skripsi ini.
3. Ibu Ridowati Gunawan, S.Kom., M.T., selaku Ketua Jurusan Teknik
Informatika Universitas Sanata Dharma Yogyakarta serta selaku dosenpenguji atas kritik dan saran yang membangun dalam perbaikan skripsi ini.
4. Bapak Puspaningtyas Sanjaya Adi, S.T.,M.T. selaku dosen pembimbing
akademik atas bantuan dan saran yang diberikan kepada penulis selama penyusunan skripsi ini.
5. Dosen-dosen Teknik Informatika Universitas Sanata Dharma. Terima kasih
atas ilmu yang telah diajarkan selama ini.6. Bapak Bele yang turut mendukung dalam persiapan ujian pendadaran.
7. Seluruh staff Fakultas Sains dan Teknologi Universitas Sanata Dharma yang
banyak membantu penulis dalam urusan administratsi akademik terutama menjelang ujian tugas akhir dan yudisium.
8. Papaku FX. Harjanto dan Mamaku Agnes Dwi Sayekti tercinta yang
menyertai, mendoakan dan merestui penulis selalu selama masa studi.
9. Adikku Vinsensius Nugroho Wicaksono tersayang atas doa dan
dukungannya.10. Orang-orang yang aku cintai dan mencintaiku atas doa dan dukungannya.
11. Teman-teman Teknik Informatika angkatan 2006, terima kasih atas semangat
dan bantuan yang sangat berarti sehingga akhirnya skripsi ini dapat terselesaikan.
12. Dan Semua pihak yang tidak bisa penulis sebutkan satu per satu, yang telah
memberikan bantuan, bimbingan, kritik dan saran dalam penyusunan skripsi ini.Dalam penulisan skripsi ini, pastilah masih banyak kekurangan dan hal
yang perlu diperbaiki. Oleh karena itu saran dan kritik dari pembaca yang
sekiranya dapat membangun sangat penulis harapkan.Akhir kata, semoga penulisan skripsi ini berguna untuk menambah
wawasan ataupun menjadi referensi bagi para pembaca sekalian khususnya pada
mahasiswa Teknik Informatika.Yogyakarta, Mei 2012 Penulis
DAFTAR ISI
HALAMAN SAMPUL (BAHASA INDONESIA) ........................................................... i
HALAMAN SAMPUL (BAHASA INGGRIS) ............................................................... ii
HALAMAN PERSETUJUAN PEMBIMBING ............................................................ iii
HALAMAN PENGESAHAN .......................................................................................... iv
HALAMAN MOTTO ....................................................................................................... v
HALAMAN PERSEMBAHAN ...................................................................................... vi
ABSTRAK ....................................................................................................................... vii
ABSTRACT .................................................................................................................... viii
PERNYATAAN KEASLIAN KARYA .......................................................................... ix
PERNYATAAN PERSETUJUAN PUBLIKASI ............................................................ x
KATA PENGANTAR ...................................................................................................... xi
DAFTAR ISI ................................................................................................................... xiv
DAFTAR GAMBAR ..................................................................................................... xvii
DAFTAR TABEL .......................................................................................................... xix
BAB I. PENDAHULUAN ................................................................................................. 1
1.1. Latar Belakang.......................................................................................................... 1
1.2. Rumusan Masalah .................................................................................................... 2
1.3. Tujuan ....................................................................................................................... 3
1.4. Batasan Masalah ...................................................................................................... 3
1.5. Kegunaan .................................................................................................................. 4
1.6. Sistematika Penulisan ............................................................................................... 4
BAB II. LANDASAN TEORI. ......................................................................................... 6
2.1. Pengertian Data Mining ............................................................................................ 6
xiv
2.2. Pengelompokan Data Mining ................................................................................... 7
2.3. Tahap-Tahap Data Mining ...................................................................................... 10
2.4. Jenis Atribut Suatu Data ......................................................................................... 13
2.5. Metode Pelatihan .................................................................................................... 14
2.6. Pohon Keputusan (Decision Tree).......................................................................... 14
2.6.1. Macam-Macam Pohon Keputusan ................................................................ 16
2.6.2. Algoritma ID3 ................................................................................................ 18
2.6.2.1. 1-Rule ..................................................................................................... 20
2.6.2.2. Entropi ................................................................................................... 21
2.6.2.3. Information Gain ................................................................................... 22
2.6.3. Kelebihan dan Kekurangan Pohon Keputusan .............................................. 23
BAB III. METODOLOGI PENELITIAN . .................................................................. 25
3.1. Data Histori ............................................................................................................ 25
3.1.1. Data Kuantitatif. ............................................................................................ 25
3.1.2. Data Kualitatif ............................................................................................... 26
3.1.3. Data Campuran .............................................................................................. 26
3.2. Training dan Testing .............................................................................................. 27
3.3. Akurasi ................................................................................................................... 28
3.4. Contoh Perhitungan Manual ID3............................................................................ 29
3.4.1. Proses Pengolahan Data Campuran ............................................................... 29
3.4.1.1. Data Training Campuran ....................................................................... 32
3.4.1.2. Data Testing Campuran .......................................................................... 67
3.5. Desain Interface...................................................................................................... 69
3.6. Spesifikasi Perangkat Lunak .................................................................................. 75 xv
xvi
BAB IV. HASIL DAN ANALISIS. ................................................................................ 76
4.1. Prepocessing........................................................................................................... 76
4.1.1. Pembersihan Data .......................................................................................... 76
4.1.2. Transformasi Data ......................................................................................... 77
4.2. Seleksi Atribut ........................................................................................................ 77
4.3. Hasil dan Analisis ................................................................................................... 79
4.3.1. Data Kuantitatif ............................................................................................. 79
4.3.2. Data Kualitatif ............................................................................................... 82
4.3.2. Data Campuran. ............................................................................................. 85
4.4. Implementasi Antarmuka ....................................................................................... 91
BAB V. PENUTUP. ....................................................................................................... 101
5.1. Kesimpulan ........................................................................................................... 101
5.2. Saran ..................................................................................................................... 102
DAFTAR PUSTAKA .................................................................................................... 103
DAFTAR GAMBAR
Gambar 2.1. Tahapan Dalam KDD. .................................................................................. 10Gambar 2.2. Contoh Pohon Keputusan. ............................................................................ 15Gambar 3.1. Root Yang Terpilih Untuk Tree Campuran.................................................. 53Gambar 3.2. Cabang Yang Terpilih Jika fnlwgt >71420 dan ≤113317 ........................... 57Gambar 3.3. Cabang Yang Terpilih Jika fnlwgt >154856.5 ............................................. 62Gambar 3.4. Tree Yang Terbentuk Untuk Data Campuran. ............................................. 66Gambar 3.5. Desain Form Utama ..................................................................................... 69Gambar 3.6. Desain Form Training dan Testing Data Kuantitatif (Bagian 1) ................. 70Gambar 3.7. Desain Form Training dan Testing Data Kuantitatif (Bagian 2) ................. 70Gambar 3.8. Desain Form Training dan Testing Data Kualitatif (Bagian 1) ................... 71Gambar 3.9. Desain Form Training dan Testing Data Kualitatif (Bagian 2) ................... 71Gambar 3.10. Desain Form Training dan Testing Data Campuran (Bagian 1) ................ 72Gambar 3.11. Desain Form Training dan Testing Data Campuran (Bagian 2) ................ 72Gambar 3.12. Desain Form Pengenalan Data Tunggal Data Kuantitatif .......................... 73Gambar 3.13. Desain Form Pengenalan Data Tunggal Data Kualitatif ............................ 73Gambar 3.14. Desain Form Pengenalan Data Tunggal Data Campuran .......................... 74Gambar 4.1. Sebagian Tree Yang Terbentuk Untuk Data Kuantitatif .............................. 81Gambar 4.2. Sebagian Tree Yang Terbentuk Untuk Data Kualitatif ................................ 84Gambar 4.3. Sebagian Tree Yang Terbentuk Untuk Data Campuran ............................... 90Gambar 4.4. Form Utama ................................................................................................. 92Gambar 4.5. Form Training dan Testing Data Kuantitatif (Bagian 1) ............................. 93Gambar 4.6. Form Training dan Testing Data Kuantitatif (Bagian 2) ............................. 93Gambar 4.7. Form Training dan Testing Data Kualitatif (Bagian 1)................................ 94Gambar 4.8. Form Training dan Testing Data Kualitatif (Bagian 2)................................ 95Gambar 4.9. Form Training dan Testing Data Campuran (Bagian 1) .............................. 96Gambar 4.10. Form Training dan Testing Data Campuran (Bagian 2) ............................ 97Gambar 4.11. Form Pengenalan Data Tunggal Data Kuantitatif ...................................... 98Gambar 4.12. Form Pengenalan Data Tunggal Data Kualitatif ........................................ 99 xvii Gambar 4.13. Form Pengenalan Data Tunggal Data Campuran .................................... 100
xviii
DAFTAR TABEL
Tabel 3.1. Data Cencus Income......................................................................................... 29Tabel 3.2. Data Testing Cencus Income ............................................................................ 67Tabel 3.3. Confusion Matriks Data Cencus Income .......................................................... 68Tabel 4.1. Hasil Perhitungan Proses Training Untuk Data Kuantitatif............................. 80Tabel 4.2. Confusion Matriks Untuk Data Kuantitatif ...................................................... 82Tabel 4.3. Hasil Perhitungan Proses Training Untuk Data Kualitatif............................... 83Tabel 4.4. Confusion Matriks Untuk Data Kualitatif ........................................................ 85Tabel 4.5. Hasil Perhitungan Proses Training Untuk Data Campuran Kuantitatif ........... 87Tabel 4.6. Hasil Perhitungan Proses Training Untuk Data Campuran Kualitatif ............. 88Tabel 4.7. Hasil Perhitungan Proses Training Untuk Keseluruhan Data Campuran ........ 89Tabel 4.8. Confusion Matriks Untuk Data Campuran ...................................................... 91
xix
BAB I PENDAHULUAN Pada bab ini akan dibahas hal-hal yang berkaitan dengan latar belakang, rumusan masalah, tujuan, batasan masalah, kegunaan dan sistematika penulisan.
1.1 Latar Belakang
Ukuran database dalam sebuah organisasi atau institusi boleh jadi
berkembang menjadi semakin besar seiring perkembangan jaman. Akan tetapi
yang menjadi masalah bukan besarnya timbunan data tersebut, melainkan
bagaimana supaya aset mentah tadi menjadi sesuatu yang lebih berarti, informasi
atau kesimpulan yang lebih berguna dari hasil analisis kumpulan data.Di lain pihak, data statistika tertentu seperti rekaman hasil observasi atau
pencatatan rutin sebuah institusi maupun perorangan yang dapat direpresentasikan
dalam sebuah database dengan table tunggal atau database flat, disertai atribut
yang cukup banyak ratusan atau bahkan ribuan baris data, akan sulit dipahami
tanpa indikator-indikator yang memadai atau pengelompokkan tertentu.Data mining adalah analisa otomatis dari data yang berjumlah besar atau
kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting
yang sebelumnya tidak diketahui. Dengan menggunakan data mining dapat
memprediksikan prilaku dan trend yang akan terjadi kemudian, sehingga dapat
mengambil keputusan dengan benar. Keluaran dari data mining ini bisa dipakai
untuk memperbaiki pengambilan keputusan di masa depan. Ada banyak model
data mining untuk permasalahan yang berbeda. Beberapa diantaranya berdasarkan
gagasan klasifikasi, association rule, clustering, dan sebagainya. Salah satu model
yang cukup luas digunakan adalah model pohon keputusan (decision tree). Model
ini didasarkan pada gagasan klasifikasi. Beberapa aplikasi dengan model ini
diterapkan untuk prediksi dalam permasalahan tertentu.Decision tree adalah sebuah metode untuk memperkirakan fungsi target nilai
diskrit, dimana fungsi yang dipelajari ditampilkan dengan pohon keputusan
(decision tree). Dalam decision tree, ID3 (Iterative Dichotomiser 3) adalah
algoritma yang digunakan untuk menghasilkan pohon keputusan. Decision tree
ditemukan oleh Ross Quinlan. Dalam ID3 mengunakan kriteria information gain
untuk memilih atribut yang akan digunakan untuk pemisahan obyek. Atribut yang
mempunyai information gain paling tinggi dibanding atribut yang lain dalam
suatu data, dipilih untuk melakukan pemecahan. (Mitchell,1997) Melihat ukuran database yang semakin besar seiring perkembangan jaman,maka penulis membuat suatu aplikasi atau model pengolahan data yang mampu
menangani sekumpulan data dengan tipe data kuantitatif (interval, rasio), kualitatif
(nominal, ordinal) dan campuran yang ditampilkan dalam bentuk pohon
keputusan untuk membantu dalam mengambil keputusan.1.2 Rumusan Masalah
Berdasarkan latar belakang yang telah dipaparkan, didapatkan suatu rumusan
masalah yaitu bagaimana algoritma ID3 membantu pengolahan data dalam
menangani tipe data kuantitatif (interval, rasio), kualitatif (nominal, ordinal) dan
campuran sehingga diperoleh suatu pola dalam bentuk pohon keputusan yang
dapat membantu dalam mengambil keputusan.1.3 Tujuan
Tujuan dibuatnya aplikasi ini yaitu :
1. Tersedianya aplikasi atau model pengolahan data yang mampu menganalisis
sekumpulan data dengan tipe data kuantitatif (interval, rasio), kualitatif (nominal, ordinal) dan campuran sehingga ditemukan suatu pola atau aturan yang dapat membantu dalam mengambil keputusan untuk suatu permasalahan klasifikasi.2. Memberikan pemodelan pengolahan data dalam menangani data kuantitatif
(interval, rasio), kualitatif (nominal, ordinal) dan campuran dengan menggunakan algoritma ID3.
1.4 Batasan Masalah
Adapun batasan-batasan masalah yang terdapat dalam pembuatan aplikasi ini
adalah :
1. Data yang digunakan berupa tiga jenis tipe data yaitu data kuantitatif (data
blood transfusion ), data kualitatif (data car), dan data campuran (data cencus income ).2. Model yang digunakan adalah decision tree.
3. Database yang digunakan adalah MySQL.
4. Algoritma yang digunakan adalah ID3.
5. Pembuatan aplikasi atau model pengolahan data dengan menggunakan Visual
Basic 6.0.
1.5 Kegunaan Aplikasi atau model pengolahan data ini nantinya untuk membandingkan
penanganan data kuantitatif (interval, rasio), kualitatif (nominal, ordinal) dan
campuran dalam pembuatan pohon keputusan dengan menggunakan algoritma
ID3.1.6 Sistematika Penulisan Sistematika yang digunakan dalam penulisan tugas akhir ini adalah sebagai berikut :
BAB I. PENDAHULUAN Bab ini terdiri atas bagian latar belakang, rumusan masalah, tujuan, batasan masalah, metodologi penelitian, dan sistematika penulisan
BAB II. LANDASAN TEORI Bab ini menjelaskan mengenai teori yang berkaitan dengan judul/masalah di tugas akhir. BAB III. METODOLOGI PENELITIAN Bab ini berisi tentang penjelasan alur rancangan program yang akan dibuat dan metode-metode yang digunakan dalam merancang program.
BAB IV. HASIL DAN ANALISIS Bab ini menyajikan gambaran mengenai cara implementasi dan
pengoperasian aplikasi, serta hasil pengujian yang dilakukan terhadap aplikasi
tersebut.BAB V. PENUTUP Bab ini berisi kesimpulan dari pembahasan tugas akhir secara keseluruhan
yang tentunya berkaitan dengan rumusan masalah dan tujuan tugas akhir. Bab ini
juga akan berisi saran dari penulis untuk pengembangan lebih lanjut aplikasi yang dibuat.
BAB II LANDASAN TEORI Pada bab ini akan dibahas hal-hal yang berkaitan dengan pengertian data mining,
6
pengelompokan data mining, tahap-tahap data mining, jenis atribut suatu data,
metode pelatihan, pohon keputusan (decision tree), macam-macam pohon keputusan,
algoritma ID3, 1-rule, entropi, information gain, kelebihan dan kekurangan pohon
keputusan.2.1 Pengertian Data Mining
Beberapa pengertian data mining dari beberapa pendapat adalah sebagai berikut :
1. Secara sederhana dapat didefinisikan bahwa data mining adalah ekstraksi
informasi atau pola yang penting atau menarik dari data yang ada di databaseyang besar sehingga menjadi informasi yang sangat berharga. (Larose, 2005)
2. Data mining merupakan proses semi otomatik yang menggunakan teknik
statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial danberguna yang bermanfaat yang tersimpan di dalam database. (Turban, 2005 )
3. Data mining adalah suatu pola yang menguntungkan dalam melakukan pencarian
pada sebuah database yang terdapat pada sebuah model. Proses ini dilakukan berulang-ulang (iterasi) hingga didapat satu set pola yang memuaskan yang dapat berfungsi sesuai yang diharapkan. (Fairuz, 1996)4. Data mining adalah sebuah class dari suatu aplikasi database yang mencari pola- pola yang tersembunyi di dalam sebuah group data yang dapat digunakan untuk memprediksi prilaku yang akan datang. (Thomas, 2004) Berdasarkan beberapa pengertian diatas dapat ditarik kesimpulan bahwa data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks dengan
tujuan untuk menemukan pola atau kecenderungan yang penting yang sebelumnya
tidak diketahui. Istilah data mining sering disalahgunakan untuk menggambarkan
perangkat lunak yang mengolah data dengan cara yang baru. Sebenarnya perangkat
lunak data mining bukan hanya mengganti presentasi, tetapi benar-benar menemukan
sesuatu yang sebelumnya belum diketahui menjadi muncul diantara sekumpulan data
yang ada. Bahkan dengan menggunakan data mining dapat memprediksikan prilaku
dan trend yang akan terjadi kemudian, sehingga dapat mengambil keputusan dengan
benar.2.2 Pengelompokan Data Mining
Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu (Larose, 2005) :
1. Description Terkadang peneliti dan analis hanya mencoba mencari cara untuk mendeskripsikan pola dan trend yang dimiliki oleh data tersebut. Deksripsi pola dan trend seringkali memberikan penjelasan yang masuk akal untuk pola dan
7
trend . Model data mining harus dibuat sejelas (transparan) mungkin, yang berarti hasil dari model data mining harus mendeskripsikan pola jelas yang sesuai dengan interpretasi dan penjelasan intuitif. Metode data mining tertentu lebih sesuai dari metode lain dalam hal interpretasi transparan. Deskripsi yang berkualitas tinggi seringkali diperoleh melalui exploratory data analysis, metode grafis dalam eksplorasi data dalam pencarian pola dan trend.
2. Estimation Estimasi hampir sama dengan klasifikasi kecuali bahwa variabel targetnya berupa numerik bukan kategori. Metode estimasi pada umumnya menggunakan analisis statistik termasuk point estimation dan confidence interval estimation, simple linear regression and correlation dan multiple regression.
3. Prediction Prediksi hampir sama dengan klasifikasi dan estimasi. Perbedaan mendasar yaitu, hasil dari prediksi adalah di masa depan. Contoh dari prediksi adalah memprediksi harga saham selama 3 bulan mendatang. Semua metode dan teknik yang digunakan untuk klasifikasi dan estimasi dapat pula digunakan untuk prediksi dalam situasi yang sesuai.
4. Classification Dalam klasifikasi terdapat sebuah target variabel kategori, misalnya income bracket
, dimana misalnya dapat dipartisi menjadi 3 kelas atau kategori: high income, middle income, dan low income. Model data mining meneliti set record dalam jumlah besar, dimana tiap record berisi informasi mengenai variable
8
target serta satu set input. Metode data mining yang umum untuk klasifikasi adalah k‐nearest neighbor, decision tree, dan neural network.
5. Clustering
Clustering merupakan pengelompokkan record, observasi, atau kasus ke dalam kelas‐kelas dengan objek yang serupa. Sebuah cluster adalah koleksi record yang sama satu sama lain, dan tidak sama dengan record di cluster lain. Clustering berbeda dengan classification karena tidak ada variabel target dalam clustering.
Clustering tidak mengklasifikasi, estimasi ataupun prediksi nilai dari variabel target. Akan tetapi algoritma clustering mencari segmen dari keseluruhan set data ke dalam subgrup yang relatif homogen atau cluster di mana keserupaan (similarity) record dalam cluster adalah maksimal dan keserupaan record di luar cluster adalah minimal. Contoh clustering adalah target pemasaran produk dari bisnis kecil dengan budget marketing yang terbatas.
6. Assosiation Tugas asosiasi atau sering disebut juga sebagai “market basket analysis” dalam data mining adalah menemukan relasi atau korelasi diantara himpunan item-item dan menemukan atribut yang muncul dalam satu waktu. Asosiasi menggunakan unsupervised learning.
Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support dan confidence.
9
2.3 Tahap-Tahap Data Mining
Istilah data mining dan Knowledge Discovery in Database (KDD) sering kali
digunakan secara bergantian untuk menjelaskan proses penggalian informasi
tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut
memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Dan salah satu
tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara
garis besar dapat diilustrasikan pada Gambar 2.1. (Fayyad, 1996)Knowledge Evaluation and
Presentation Data Mining
Patterns Selection and
Transformation Data
Cleaning and warehouse Integration
Databases Flat files
Gambar 2.1. Tahapan Dalam KDD
10
1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise) Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak relevan dengan hipotesa data mining yang kita miliki. Pembersihan data yang tidak relevan akan mempengaruhi performasi dari sistem data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.
2. Integrasi data (penggabungan data dari beberapa sumber) Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas- entitas yang unik. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Dalam integrasi data ini juga perlu dilakukan transformasi dan pembersihan data karena seringkali data dari dua database berbeda tidak sama cara penulisannya atau bahkan data yang ada di satu database ternyata tidak ada di database lainnya. Hasil integrasi data sering diwujudkan dalam sebuah data warehouse.
3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining) Beberapa teknik data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Transformasi dan pemilihan data ini juga menentukan kualitas dari hasil data mining nantinya karena ada beberapa karakteristik dari teknik-teknik data mining tertentu yang tergantung pada tahapan ini.
11
4. Aplikasi teknik data mining
Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari proses data mining. Beberapa teknik data mining sudah umum dipakai. Ada kalanya teknik-teknik data mining umum yang tersedia di pasar tidak mencukupi untuk melaksanakan data mining di bidang tertentu atau untuk data tertentu.
5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai) Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti : menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba teknik data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat.
6. Presentasi pola yang ditemukan untuk menghasilkan aksi Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisa yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami data mining. Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami
semua orang adalah satu tahapan yang diperlukan dalam proses data mining.
12
2.4 Jenis Atribut Suatu Data
Atribut suatu data berdasarkan jenisnya dapat dikelompokkan sebagai berikut
(Tan, Steinbach, Kumar, 2006) :1. Kualitatif Nominal Variabel yang nilainya berupa simbol, nilainya sendiri hanya berfungsi sebagai label atau memberi nama, tidak ada hubungan antar nilai nominal, tidak bisa diurutkan atau diukur jaraknya dan hanya uji persamaan yang bisa dilakukan. Contoh data nominal adalah kode pos, nomor ID pegawai, warna mata, jenis kelamin.
Ordinal Nilai dari suatu atribut ordinal memberikan informasi yang cukup untuk urutan objek. Contoh data ordinal adalah nilai.
2. Kuantitatif Interval Variabel yang nilainya bisa diurutkan, dan diukur dengan tetap dan unit yang sama. Contoh data interval adalah kalender, temperatur dalam Celcius atau Fahrenheit.
Rasio Variabel yang mempunyai nilai nol yang mutlak. Nilai variable rasio diperlakukan sebagai bilangan riil. Semua operasi matematika, seperti
13
penjumlahan, pengurangan, pembagian dan sebagainya, bisa dilakukan terhadap nilai rasio. Contoh data rasio adalah temperatur dalam Kelvin, umur.
2.5 Metode Pelatihan Metode pelatihan adalah cara berlangsungnya pembelajaran atau pelatihan dalam
data mining. Secara garis besar metode pelatihan dibedakan ke dalam dua
pendekatan:1. Pelatihan yang terawasi (Supervised Learning) Pada pembelajaran terawasi, kumpulan input yang digunakan, output-outputnya telah diketahui.
2. Pelatihan Tak terawasi (Unsupervised Learning) Dalam pelatihan tak terawasi, metode diterapkan tanpa adanya latihan (training) dan tanpa ada guru (teacher). Guru disini adalah label dari data.
2.6 Pohon Keputusan (Decision Tree) Decision tree merupakan salah satu model dalam data mining. Decision tree
adalah sebuah metode untuk memperkirakan fungsi target nilai diskrit, dimana fungsi
yang dipelajari ditampilkan dengan pohon keputusan (decision tree).Decision tree merupakan salah satu metode klasifikasi yang menggunakan
representasi struktur pohon (tree) dimana setiap node merepresentasikan atribut,
cabangnya merepresentasikan nilai dari atribut, dan daun merepresentasikan kelas.
Node yang paling atas dari pohon keputusan disebut sebagai root.
14
Pohon keputusan merupakan metode klasifikasi yang paling populer digunakan.
Selain karena pembangunannya relatif cepat, hasil dari model yang dibangun mudah
untuk dipahami. Pada pohon keputusan terdapat 3 jenis node , yaitu :1. Root Node (akar) Merupakan node paling atas, pada node ini tidak ada input dan bisa tidak mempunyai output atau mempunyai output lebih dari satu.
2. Internal Node (simpul anak) Merupakan node percabangan, pada node ini hanya terdapat satu input dan mempunyai output minimal dua.
3. Leaf node atau terminal node (daun) Merupakan node akhir, pada node ini hanya terdapat satu input dan tidak mempunyai output Cuaca
Akar Cerah Hujan
Cabang Mendung
Simpul Anak Kelembaban Ya
Angin Tinggi
Normal Kuat Lemah Daun
Tidak Ya Tidak Ya
Gambar 2.2. Contoh Pohon Keputusan
15
Pembentukan pohon keputusan terdiri dari beberapa tahap, yaitu (Han & Kamber 2001) :
1. Konstruksi pohon, yaitu pembuatan pohon yang diawali dengan pembentukan
bagian akar, kemudian data terbagi berdasarkan atribut – atribut yang cocok untuk dijadikan leaf node.
2. Pemangkasan pohon (tree pruning), yaitu mengidentifikasi dan membuang
cabang yang tidak diperlukan pada pohon yang telah terbentuk. Ada dua metode dalam melakukan pemangkasan dalam pohon keputusan, yaitu : a. prepruning : pemangkasan dilakukan sejak awal pembentukan pohon.
b. postpruning : pemangkasan dilakukan saat pohon telah terbentuk secara utuh
3. Pembentukan aturan keputusan, yaitu membuat aturan keputusan dari pohon yang telah dibentuk.
2.6.1 Macam-Macam Pohon Keputusan
Macam-macam pohon keputusan adalah : 1.
ID3 (Iterative Dichotomiser 3) Dalam ID3 (Iterative Dichotomiser 3) mengunakan kriteria information gain untuk memilih atribut yang akan digunakan untuk pemisahan obyek. Atribut yang mempunyai information gain paling tinggi dibanding atribut yang lain
relatif terhadap set y dalam suatu data, dipilih untuk melakukan pemecahan.
2. CART (Classification And Regresion Trees)
16
CART (Classification And Regresion Trees) merupakan metode partisi rekursif yang digunakan baik untuk regresi maupun klasifikasi. CART dibangun dengan melakukan pemecahan subset-subset dari dataset menggunakan variable prediktor untuk membuat dua child node secara berulang, dimulai dari keseluruhan dataset. Tujuannya adalah menghasilkan subset data yang sehomogen mungkin untuk mengklasifikasikan variable target.
3. CHAID (Chi-Squared Automatic Interaction Detection)
Metode CHAID (Chi-Squared Automatic Interaction Detection) adalah berdasarkan tes chi-square terhadap asosiasi. Pohon CHAID adalah decision tree yang dibangun dengan memecah/splitting subset-subset secara berulang ke dalam dua atau lebih child node yang dimulai dari keseluruhan dataset.