PERBANDINGAN PENANGANAN DATA KUANTITATIF, KUALITATIF DAN CAMPURAN DALAM PEMBUATAN POHON KEPUTUSAN DENGAN MENGGUNAKAN ALGORITMA ID3 SKRIPSI Diajukan Untuk Memenuhi Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika

  PERBANDINGAN PENANGANAN DATA KUANTITATIF, KUALITATIF DAN CAMPURAN DALAM PEMBUATAN POHON KEPUTUSAN DENGAN MENGGUNAKAN ALGORITMA ID3 SKRIPSI Diajukan Untuk Memenuhi Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika Oleh : CAECILIA NOVA PATRIANA NIM : 065314019 JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2012  

  

COMPARISON OF THE HANDLING OF QUANTITATIVE

DATA, QUALITATIVE DATA AND MIXED IN MAKING A

DECISION TREE USING ID3 ALGORITHM

A THESIS

  

Presented as Partial Fulfillment of the Requirements to Obtain Sarjana

Komputer Degree in Informatics Engineering Department

By :

CAECILIA NOVA PATRIANA

  

NIM : 065314019

DEPARTMENT OF INFORMATICS ENGINEERING

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

  

2012  

HALAMAN MOTTO

  

Jika kenyataan tidak sesuai dengan apa yang kamu inginkan,

jangan pernah menyerah, teruslah berjuang, berdoa dan

pasrahkanlah semua pada Tuhan, karena pasti Tuhan

memberikan yang terbaik untukmu. Ingatlah bahwa setiap

rancangan Tuhan itu indah dan penuh makna.

  Jangan pernah pelit untuk saling berbagi dalam hal apapun, karena rejeki selalu berputar dan suatu saat itu akan kembali kepadamu.

  

Lakukanlah semua hal atas dasar cinta karena dengan itu akan

membuat semuanya menjadi indah.

  Jangan pernah menunda pekerjaan, lakukanlah sekarang juga karena waktu tidak akan pernah kembali sebelum kau menyesal nantinya. Jangan pernah merasa dirimulah yang paling hebat atau yang paling lemah, karena di atas langit masih ada langit.

  “God is Good…”  

HALAMAN PERSEMBAHAN

  Tidak ada sesuatu yang didapatkan tanpa perjuangan dan kerja keras Kupersembahkan karyaku ini untuk : Papa dan Mama tercinta

  Adikku tersayang Orang-orang yang aku cintai dan mencintaiku I love You Forever All

     

  

ABSTRAK

Permasalahan dalam tugas akhhir ini adalah bagaimana algoritma ID3

membantu pengolahan data tipe data kuantitatif (interval, rasio), kualitatif

  

(nominal, ordinal) dan campuran sehingga diperoleh suatu pola dalam bentuk

pohon keputusan yang dapat membantu dalam mengambil keputusan. Tujuan

pembuatan tugas akhir ini agar tersedianya aplikasi atau model pengolahan data

yang mampu menganalisis sekumpulan data dengan tipe data kuantitatif (interval,

rasio), kualitatif (nominal, ordinal) dan campuran sehingga ditemukan suatu pola

atau aturan yang dapat membantu dalam mengambil keputusan untuk suatu

permasalahan klasifikasi serta memberikan pemodelan pengolahan data dalam

menangani data kuantitatif (interval, rasio), kualitatif (nominal, ordinal) dan

campuran dengan menggunakan algoritma ID3.

  Decision tree adalah sebuah metode untuk memperkirakan fungsi target nilai-

diskrit , dimana fungsi yang dipelajari ditampilkan dengan pohon keputusan.

  

Dalam ID3 mengunakan kriteria information gain untuk memilih atribut. Akurasi

yang didapat untuk data kuantitatif (interval, rasio) adalah 72.4%, data kualitatif

(nominal, ordinal) adalah 72.92% dan data campuran adalah 77.9%

   

  

ABSTRACT

Problems in this thesis is how the algorithm helps ID3 data processing type of

quantitative (interval, ratio), qualitative (nominal, ordinal) and mixed to obtain a

pattern in the form of a decision tree that can assist in making decisions. Purpose

of making this thesis will provide the application or the data processing model

that is able to analyze a set of data with the type of quantitative (interval, ratio),

qualitative (nominal, ordinal) and mixed so found a pattern or rule that can help in

making decisions for a classification problem and provide a data processing

modeling in dealing with quantitative (interval, ratio), qualitative (nominal,

ordinal) and mixed using ID3 algorithm.

  Decision tree is a method to estimate the target function of discreate values,

where the functions being studied displayed with the decision tree. In the decicion

tree using information gain criterion to select attributes. Accuracy is obtained for

72.4% of quantitative (interval, ratio) data, qualitative (nominal, ordinal) data was

72.92% and 77.9% are mixed data.

     

KATA PENGANTAR

  Puji syukur kepada Tuhan Yang Maha Esa karena atas segala berkat dan

rahmat-Nya penulis dapat menyelesaikan skripsi dengan judul “Perbandingan

Penanganan Data Kuantitatif, Kualitatif Dan Campuran Dalam Pembuatan Pohon

Keputusan Dengan Menggunakan Algoritma ID3”.

  Penulisan skripsi ini diajukan untuk memenuhi salah satu syarat

memperoleh gelar Sarjana Komputer Program Studi Teknik informatika

Universitas Sanata Dharma Yogyakarta.

  Dengan terselesaikannya penulisan skripsi ini, penulis mengucapkan

terima kasih kepada pihak-pihak yang telah membantu memberikan dukungan

baik berupa masukan ataupun berupa saran. Oleh karena itu, penulis

menyampaikan ucapan terima kasih yang sebesar-besarnya kepada :

  

1. Romo Dr. Cyprianus Kuntoro Adi, SJ, MA, M.Sc., selaku dosen

pembimbing, atas kesabaran, pengarahan, dan saran yang diberikan kepada penulis selama penyusunan skripsi ini.

  

2. Ibu P.H. Prima Rosa, S.Si, M.Sc., selaku Dekan Fakultas Sains dan

Teknologi Universitas Sanata Dharma Yogyakarta serta selaku dosen penguji atas kritik dan saran yang membangun dalam perbaikan skripsi ini.

  

3. Ibu Ridowati Gunawan, S.Kom., M.T., selaku Ketua Jurusan Teknik

Informatika Universitas Sanata Dharma Yogyakarta serta selaku dosen

penguji atas kritik dan saran yang membangun dalam perbaikan skripsi ini.

  

4. Bapak Puspaningtyas Sanjaya Adi, S.T.,M.T. selaku dosen pembimbing

akademik atas bantuan dan saran yang diberikan kepada penulis selama penyusunan skripsi ini.

  

5. Dosen-dosen Teknik Informatika Universitas Sanata Dharma. Terima kasih

atas ilmu yang telah diajarkan selama ini.

  6. Bapak Bele yang turut mendukung dalam persiapan ujian pendadaran.

  

7. Seluruh staff Fakultas Sains dan Teknologi Universitas Sanata Dharma yang

banyak membantu penulis dalam urusan administratsi akademik terutama menjelang ujian tugas akhir dan yudisium.

  

8. Papaku FX. Harjanto dan Mamaku Agnes Dwi Sayekti tercinta yang

menyertai, mendoakan dan merestui penulis selalu selama masa studi.

  

9. Adikku Vinsensius Nugroho Wicaksono tersayang atas doa dan

dukungannya.

  10. Orang-orang yang aku cintai dan mencintaiku atas doa dan dukungannya.

  

11. Teman-teman Teknik Informatika angkatan 2006, terima kasih atas semangat

dan bantuan yang sangat berarti sehingga akhirnya skripsi ini dapat terselesaikan.

  

12. Dan Semua pihak yang tidak bisa penulis sebutkan satu per satu, yang telah

memberikan bantuan, bimbingan, kritik dan saran dalam penyusunan skripsi ini.

  Dalam penulisan skripsi ini, pastilah masih banyak kekurangan dan hal

yang perlu diperbaiki. Oleh karena itu saran dan kritik dari pembaca yang

sekiranya dapat membangun sangat penulis harapkan.

  Akhir kata, semoga penulisan skripsi ini berguna untuk menambah

wawasan ataupun menjadi referensi bagi para pembaca sekalian khususnya pada

mahasiswa Teknik Informatika.

  Yogyakarta, Mei 2012 Penulis

     

   

  DAFTAR ISI

HALAMAN SAMPUL (BAHASA INDONESIA) ........................................................... i

HALAMAN SAMPUL (BAHASA INGGRIS) ............................................................... ii

HALAMAN PERSETUJUAN PEMBIMBING ............................................................ iii

HALAMAN PENGESAHAN .......................................................................................... iv

HALAMAN MOTTO ....................................................................................................... v

HALAMAN PERSEMBAHAN ...................................................................................... vi

ABSTRAK ....................................................................................................................... vii

ABSTRACT .................................................................................................................... viii

PERNYATAAN KEASLIAN KARYA .......................................................................... ix

PERNYATAAN PERSETUJUAN PUBLIKASI ............................................................ x

KATA PENGANTAR ...................................................................................................... xi

DAFTAR ISI ................................................................................................................... xiv

DAFTAR GAMBAR ..................................................................................................... xvii

DAFTAR TABEL .......................................................................................................... xix

BAB I. PENDAHULUAN ................................................................................................. 1

  1.1. Latar Belakang.......................................................................................................... 1

  

1.2. Rumusan Masalah .................................................................................................... 2

  

1.3. Tujuan ....................................................................................................................... 3

  

1.4. Batasan Masalah ...................................................................................................... 3

  

1.5. Kegunaan .................................................................................................................. 4

  1.6. Sistematika Penulisan ............................................................................................... 4

  

BAB II. LANDASAN TEORI. ......................................................................................... 6

  

2.1. Pengertian Data Mining ............................................................................................ 6

xiv  

  

2.2. Pengelompokan Data Mining ................................................................................... 7

  

2.3. Tahap-Tahap Data Mining ...................................................................................... 10

  2.4. Jenis Atribut Suatu Data ......................................................................................... 13

  

2.5. Metode Pelatihan .................................................................................................... 14

  

2.6. Pohon Keputusan (Decision Tree).......................................................................... 14

  2.6.1. Macam-Macam Pohon Keputusan ................................................................ 16

  2.6.2. Algoritma ID3 ................................................................................................ 18

2.6.2.1. 1-Rule ..................................................................................................... 20

  2.6.2.2. Entropi ................................................................................................... 21

  

2.6.2.3. Information Gain ................................................................................... 22

  2.6.3. Kelebihan dan Kekurangan Pohon Keputusan .............................................. 23

  

BAB III. METODOLOGI PENELITIAN . .................................................................. 25

  3.1. Data Histori ............................................................................................................ 25

  3.1.1. Data Kuantitatif. ............................................................................................ 25

  3.1.2. Data Kualitatif ............................................................................................... 26

  3.1.3. Data Campuran .............................................................................................. 26

  

3.2. Training dan Testing .............................................................................................. 27

  

3.3. Akurasi ................................................................................................................... 28

  3.4. Contoh Perhitungan Manual ID3............................................................................ 29

  3.4.1. Proses Pengolahan Data Campuran ............................................................... 29

  3.4.1.1. Data Training Campuran ....................................................................... 32

  

3.4.1.2. Data Testing Campuran .......................................................................... 67

  

3.5. Desain Interface...................................................................................................... 69

  3.6. Spesifikasi Perangkat Lunak .................................................................................. 75 xv  

  xvi  

  

BAB IV. HASIL DAN ANALISIS. ................................................................................ 76

  

4.1. Prepocessing........................................................................................................... 76

  4.1.1. Pembersihan Data .......................................................................................... 76

  4.1.2. Transformasi Data ......................................................................................... 77

  4.2. Seleksi Atribut ........................................................................................................ 77

  4.3. Hasil dan Analisis ................................................................................................... 79

  4.3.1. Data Kuantitatif ............................................................................................. 79

  4.3.2. Data Kualitatif ............................................................................................... 82

  4.3.2. Data Campuran. ............................................................................................. 85

  4.4. Implementasi Antarmuka ....................................................................................... 91

  

BAB V. PENUTUP. ....................................................................................................... 101

  5.1. Kesimpulan ........................................................................................................... 101

  

5.2. Saran ..................................................................................................................... 102

DAFTAR PUSTAKA .................................................................................................... 103

  DAFTAR GAMBAR

Gambar 2.1. Tahapan Dalam KDD. .................................................................................. 10Gambar 2.2. Contoh Pohon Keputusan. ............................................................................ 15Gambar 3.1. Root Yang Terpilih Untuk Tree Campuran.................................................. 53Gambar 3.2. Cabang Yang Terpilih Jika fnlwgt >71420 dan ≤113317 ........................... 57Gambar 3.3. Cabang Yang Terpilih Jika fnlwgt >154856.5 ............................................. 62Gambar 3.4. Tree Yang Terbentuk Untuk Data Campuran. ............................................. 66Gambar 3.5. Desain Form Utama ..................................................................................... 69Gambar 3.6. Desain Form Training dan Testing Data Kuantitatif (Bagian 1) ................. 70Gambar 3.7. Desain Form Training dan Testing Data Kuantitatif (Bagian 2) ................. 70Gambar 3.8. Desain Form Training dan Testing Data Kualitatif (Bagian 1) ................... 71Gambar 3.9. Desain Form Training dan Testing Data Kualitatif (Bagian 2) ................... 71Gambar 3.10. Desain Form Training dan Testing Data Campuran (Bagian 1) ................ 72Gambar 3.11. Desain Form Training dan Testing Data Campuran (Bagian 2) ................ 72Gambar 3.12. Desain Form Pengenalan Data Tunggal Data Kuantitatif .......................... 73Gambar 3.13. Desain Form Pengenalan Data Tunggal Data Kualitatif ............................ 73Gambar 3.14. Desain Form Pengenalan Data Tunggal Data Campuran .......................... 74Gambar 4.1. Sebagian Tree Yang Terbentuk Untuk Data Kuantitatif .............................. 81Gambar 4.2. Sebagian Tree Yang Terbentuk Untuk Data Kualitatif ................................ 84Gambar 4.3. Sebagian Tree Yang Terbentuk Untuk Data Campuran ............................... 90Gambar 4.4. Form Utama ................................................................................................. 92Gambar 4.5. Form Training dan Testing Data Kuantitatif (Bagian 1) ............................. 93Gambar 4.6. Form Training dan Testing Data Kuantitatif (Bagian 2) ............................. 93Gambar 4.7. Form Training dan Testing Data Kualitatif (Bagian 1)................................ 94Gambar 4.8. Form Training dan Testing Data Kualitatif (Bagian 2)................................ 95Gambar 4.9. Form Training dan Testing Data Campuran (Bagian 1) .............................. 96Gambar 4.10. Form Training dan Testing Data Campuran (Bagian 2) ............................ 97Gambar 4.11. Form Pengenalan Data Tunggal Data Kuantitatif ...................................... 98Gambar 4.12. Form Pengenalan Data Tunggal Data Kualitatif ........................................ 99 xvii  Gambar 4.13. Form Pengenalan Data Tunggal Data Campuran .................................... 100

                                                 

  xviii  

  DAFTAR TABEL

Tabel 3.1. Data Cencus Income......................................................................................... 29Tabel 3.2. Data Testing Cencus Income ............................................................................ 67Tabel 3.3. Confusion Matriks Data Cencus Income .......................................................... 68Tabel 4.1. Hasil Perhitungan Proses Training Untuk Data Kuantitatif............................. 80Tabel 4.2. Confusion Matriks Untuk Data Kuantitatif ...................................................... 82Tabel 4.3. Hasil Perhitungan Proses Training Untuk Data Kualitatif............................... 83Tabel 4.4. Confusion Matriks Untuk Data Kualitatif ........................................................ 85Tabel 4.5. Hasil Perhitungan Proses Training Untuk Data Campuran Kuantitatif ........... 87Tabel 4.6. Hasil Perhitungan Proses Training Untuk Data Campuran Kualitatif ............. 88Tabel 4.7. Hasil Perhitungan Proses Training Untuk Keseluruhan Data Campuran ........ 89Tabel 4.8. Confusion Matriks Untuk Data Campuran ...................................................... 91

         

  xix  

BAB I PENDAHULUAN Pada bab ini akan dibahas hal-hal yang berkaitan dengan latar belakang, rumusan masalah, tujuan, batasan masalah, kegunaan dan sistematika penulisan.

1.1 Latar Belakang

  Ukuran database dalam sebuah organisasi atau institusi boleh jadi

berkembang menjadi semakin besar seiring perkembangan jaman. Akan tetapi

yang menjadi masalah bukan besarnya timbunan data tersebut, melainkan

bagaimana supaya aset mentah tadi menjadi sesuatu yang lebih berarti, informasi

atau kesimpulan yang lebih berguna dari hasil analisis kumpulan data.

  Di lain pihak, data statistika tertentu seperti rekaman hasil observasi atau

pencatatan rutin sebuah institusi maupun perorangan yang dapat direpresentasikan

dalam sebuah database dengan table tunggal atau database flat, disertai atribut

yang cukup banyak ratusan atau bahkan ribuan baris data, akan sulit dipahami

tanpa indikator-indikator yang memadai atau pengelompokkan tertentu.

  Data mining adalah analisa otomatis dari data yang berjumlah besar atau

kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting

yang sebelumnya tidak diketahui. Dengan menggunakan data mining dapat

memprediksikan prilaku dan trend yang akan terjadi kemudian, sehingga dapat

mengambil keputusan dengan benar. Keluaran dari data mining ini bisa dipakai

untuk memperbaiki pengambilan keputusan di masa depan. Ada banyak model

  

data mining untuk permasalahan yang berbeda. Beberapa diantaranya berdasarkan

gagasan klasifikasi, association rule, clustering, dan sebagainya. Salah satu model

yang cukup luas digunakan adalah model pohon keputusan (decision tree). Model

ini didasarkan pada gagasan klasifikasi. Beberapa aplikasi dengan model ini

diterapkan untuk prediksi dalam permasalahan tertentu.

  Decision tree adalah sebuah metode untuk memperkirakan fungsi target nilai

diskrit, dimana fungsi yang dipelajari ditampilkan dengan pohon keputusan

(decision tree). Dalam decision tree, ID3 (Iterative Dichotomiser 3) adalah

algoritma yang digunakan untuk menghasilkan pohon keputusan. Decision tree

ditemukan oleh Ross Quinlan. Dalam ID3 mengunakan kriteria information gain

untuk memilih atribut yang akan digunakan untuk pemisahan obyek. Atribut yang

mempunyai information gain paling tinggi dibanding atribut yang lain dalam

suatu data, dipilih untuk melakukan pemecahan. (Mitchell,1997) Melihat ukuran database yang semakin besar seiring perkembangan jaman,

maka penulis membuat suatu aplikasi atau model pengolahan data yang mampu

menangani sekumpulan data dengan tipe data kuantitatif (interval, rasio), kualitatif

(nominal, ordinal) dan campuran yang ditampilkan dalam bentuk pohon

keputusan untuk membantu dalam mengambil keputusan.

1.2 Rumusan Masalah

  Berdasarkan latar belakang yang telah dipaparkan, didapatkan suatu rumusan

masalah yaitu bagaimana algoritma ID3 membantu pengolahan data dalam

menangani tipe data kuantitatif (interval, rasio), kualitatif (nominal, ordinal) dan

  

campuran sehingga diperoleh suatu pola dalam bentuk pohon keputusan yang

dapat membantu dalam mengambil keputusan.

1.3 Tujuan

  Tujuan dibuatnya aplikasi ini yaitu :

  

1. Tersedianya aplikasi atau model pengolahan data yang mampu menganalisis

sekumpulan data dengan tipe data kuantitatif (interval, rasio), kualitatif (nominal, ordinal) dan campuran sehingga ditemukan suatu pola atau aturan yang dapat membantu dalam mengambil keputusan untuk suatu permasalahan klasifikasi.

2. Memberikan pemodelan pengolahan data dalam menangani data kuantitatif

  (interval, rasio), kualitatif (nominal, ordinal) dan campuran dengan menggunakan algoritma ID3.

1.4 Batasan Masalah

  

Adapun batasan-batasan masalah yang terdapat dalam pembuatan aplikasi ini

adalah :

  

1. Data yang digunakan berupa tiga jenis tipe data yaitu data kuantitatif (data

blood transfusion ), data kualitatif (data car), dan data campuran (data cencus income ).

  2. Model yang digunakan adalah decision tree.

  3. Database yang digunakan adalah MySQL.

  4. Algoritma yang digunakan adalah ID3.

5. Pembuatan aplikasi atau model pengolahan data dengan menggunakan Visual

  Basic 6.0.

  1.5 Kegunaan Aplikasi atau model pengolahan data ini nantinya untuk membandingkan

penanganan data kuantitatif (interval, rasio), kualitatif (nominal, ordinal) dan

campuran dalam pembuatan pohon keputusan dengan menggunakan algoritma

ID3.

  1.6 Sistematika Penulisan Sistematika yang digunakan dalam penulisan tugas akhir ini adalah sebagai berikut :

  BAB I. PENDAHULUAN Bab ini terdiri atas bagian latar belakang, rumusan masalah, tujuan, batasan masalah, metodologi penelitian, dan sistematika penulisan

BAB II. LANDASAN TEORI Bab ini menjelaskan mengenai teori yang berkaitan dengan judul/masalah di tugas akhir. BAB III. METODOLOGI PENELITIAN Bab ini berisi tentang penjelasan alur rancangan program yang akan dibuat dan metode-metode yang digunakan dalam merancang program.

  BAB IV. HASIL DAN ANALISIS Bab ini menyajikan gambaran mengenai cara implementasi dan

pengoperasian aplikasi, serta hasil pengujian yang dilakukan terhadap aplikasi

tersebut.

  BAB V. PENUTUP Bab ini berisi kesimpulan dari pembahasan tugas akhir secara keseluruhan

yang tentunya berkaitan dengan rumusan masalah dan tujuan tugas akhir. Bab ini

juga akan berisi saran dari penulis untuk pengembangan lebih lanjut aplikasi yang dibuat.

   

BAB II LANDASAN TEORI Pada bab ini akan dibahas hal-hal yang berkaitan dengan pengertian data mining,

  6

     

  

pengelompokan data mining, tahap-tahap data mining, jenis atribut suatu data,

metode pelatihan, pohon keputusan (decision tree), macam-macam pohon keputusan,

algoritma ID3, 1-rule, entropi, information gain, kelebihan dan kekurangan pohon

keputusan.

2.1 Pengertian Data Mining

  Beberapa pengertian data mining dari beberapa pendapat adalah sebagai berikut :

  

1. Secara sederhana dapat didefinisikan bahwa data mining adalah ekstraksi

informasi atau pola yang penting atau menarik dari data yang ada di database

yang besar sehingga menjadi informasi yang sangat berharga. (Larose, 2005)

  

2. Data mining merupakan proses semi otomatik yang menggunakan teknik

statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan

berguna yang bermanfaat yang tersimpan di dalam database. (Turban, 2005 )

  

3. Data mining adalah suatu pola yang menguntungkan dalam melakukan pencarian

pada sebuah database yang terdapat pada sebuah model. Proses ini dilakukan berulang-ulang (iterasi) hingga didapat satu set pola yang memuaskan yang dapat berfungsi sesuai yang diharapkan. (Fairuz, 1996)

  4. Data mining adalah sebuah class dari suatu aplikasi database yang mencari pola- pola yang tersembunyi di dalam sebuah group data yang dapat digunakan untuk memprediksi prilaku yang akan datang. (Thomas, 2004) Berdasarkan beberapa pengertian diatas dapat ditarik kesimpulan bahwa data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks dengan

tujuan untuk menemukan pola atau kecenderungan yang penting yang sebelumnya

tidak diketahui. Istilah data mining sering disalahgunakan untuk menggambarkan

perangkat lunak yang mengolah data dengan cara yang baru. Sebenarnya perangkat

lunak data mining bukan hanya mengganti presentasi, tetapi benar-benar menemukan

sesuatu yang sebelumnya belum diketahui menjadi muncul diantara sekumpulan data

yang ada. Bahkan dengan menggunakan data mining dapat memprediksikan prilaku

dan trend yang akan terjadi kemudian, sehingga dapat mengambil keputusan dengan

benar.

2.2 Pengelompokan Data Mining

  Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu (Larose, 2005) :

  1. Description Terkadang peneliti dan analis hanya mencoba mencari cara untuk mendeskripsikan pola dan trend yang dimiliki oleh data tersebut. Deksripsi pola dan trend seringkali memberikan penjelasan yang masuk akal untuk pola dan

   

  7

   

  trend . Model data mining harus dibuat sejelas (transparan) mungkin, yang berarti hasil dari model data mining harus mendeskripsikan pola jelas yang sesuai dengan interpretasi dan penjelasan intuitif. Metode data mining tertentu lebih sesuai dari metode lain dalam hal interpretasi transparan. Deskripsi yang berkualitas tinggi seringkali diperoleh melalui exploratory data analysis, metode grafis dalam eksplorasi data dalam pencarian pola dan trend.

  2. Estimation Estimasi hampir sama dengan klasifikasi kecuali bahwa variabel targetnya berupa numerik bukan kategori. Metode estimasi pada umumnya menggunakan analisis statistik termasuk point estimation dan confidence interval estimation, simple linear regression and correlation dan multiple regression.

  3. Prediction Prediksi hampir sama dengan klasifikasi dan estimasi. Perbedaan mendasar yaitu, hasil dari prediksi adalah di masa depan. Contoh dari prediksi adalah memprediksi harga saham selama 3 bulan mendatang. Semua metode dan teknik yang digunakan untuk klasifikasi dan estimasi dapat pula digunakan untuk prediksi dalam situasi yang sesuai.

  4. Classification Dalam klasifikasi terdapat sebuah target variabel kategori, misalnya income bracket

  , dimana misalnya dapat dipartisi menjadi 3 kelas atau kategori: high income, middle income, dan low income. Model data mining meneliti set record dalam jumlah besar, dimana tiap record berisi informasi mengenai variable

   

  8

    target serta satu set input. Metode data mining yang umum untuk klasifikasi adalah k‐nearest neighbor, decision tree, dan neural network.

5. Clustering

  Clustering merupakan pengelompokkan record, observasi, atau kasus ke dalam kelas‐kelas dengan objek yang serupa. Sebuah cluster adalah koleksi record yang sama satu sama lain, dan tidak sama dengan record di cluster lain. Clustering berbeda dengan classification karena tidak ada variabel target dalam clustering.

  Clustering tidak mengklasifikasi, estimasi ataupun prediksi nilai dari variabel target. Akan tetapi algoritma clustering mencari segmen dari keseluruhan set data ke dalam subgrup yang relatif homogen atau cluster di mana keserupaan (similarity) record dalam cluster adalah maksimal dan keserupaan record di luar cluster adalah minimal. Contoh clustering adalah target pemasaran produk dari bisnis kecil dengan budget marketing yang terbatas.

  6. Assosiation Tugas asosiasi atau sering disebut juga sebagai “market basket analysis” dalam data mining adalah menemukan relasi atau korelasi diantara himpunan item-item dan menemukan atribut yang muncul dalam satu waktu. Asosiasi menggunakan unsupervised learning.

  Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support dan confidence.

   

  9

   

2.3 Tahap-Tahap Data Mining

  Istilah data mining dan Knowledge Discovery in Database (KDD) sering kali

digunakan secara bergantian untuk menjelaskan proses penggalian informasi

tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut

memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Dan salah satu

tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara

garis besar dapat diilustrasikan pada Gambar 2.1. (Fayyad, 1996)

  Knowledge Evaluation and

  Presentation Data Mining

  Patterns Selection and

  Transformation Data

  Cleaning and warehouse Integration

  Databases Flat files

Gambar 2.1. Tahapan Dalam KDD

   

  10

   

  1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise) Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak relevan dengan hipotesa data mining yang kita miliki. Pembersihan data yang tidak relevan akan mempengaruhi performasi dari sistem data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.

  2. Integrasi data (penggabungan data dari beberapa sumber) Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas- entitas yang unik. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Dalam integrasi data ini juga perlu dilakukan transformasi dan pembersihan data karena seringkali data dari dua database berbeda tidak sama cara penulisannya atau bahkan data yang ada di satu database ternyata tidak ada di database lainnya. Hasil integrasi data sering diwujudkan dalam sebuah data warehouse.

  3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining) Beberapa teknik data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Transformasi dan pemilihan data ini juga menentukan kualitas dari hasil data mining nantinya karena ada beberapa karakteristik dari teknik-teknik data mining tertentu yang tergantung pada tahapan ini.

   

  11

   

4. Aplikasi teknik data mining

  Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari proses data mining. Beberapa teknik data mining sudah umum dipakai. Ada kalanya teknik-teknik data mining umum yang tersedia di pasar tidak mencukupi untuk melaksanakan data mining di bidang tertentu atau untuk data tertentu.

  5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai) Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti : menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba teknik data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat.

  6. Presentasi pola yang ditemukan untuk menghasilkan aksi Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisa yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami data mining. Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami

semua orang adalah satu tahapan yang diperlukan dalam proses data mining.

   

  12

   

2.4 Jenis Atribut Suatu Data

  

Atribut suatu data berdasarkan jenisnya dapat dikelompokkan sebagai berikut

(Tan, Steinbach, Kumar, 2006) :

  1. Kualitatif  Nominal Variabel yang nilainya berupa simbol, nilainya sendiri hanya berfungsi sebagai label atau memberi nama, tidak ada hubungan antar nilai nominal, tidak bisa diurutkan atau diukur jaraknya dan hanya uji persamaan yang bisa dilakukan. Contoh data nominal adalah kode pos, nomor ID pegawai, warna mata, jenis kelamin.

   Ordinal Nilai dari suatu atribut ordinal memberikan informasi yang cukup untuk urutan objek. Contoh data ordinal adalah nilai.

  2. Kuantitatif  Interval Variabel yang nilainya bisa diurutkan, dan diukur dengan tetap dan unit yang sama. Contoh data interval adalah kalender, temperatur dalam Celcius atau Fahrenheit.

   Rasio Variabel yang mempunyai nilai nol yang mutlak. Nilai variable rasio diperlakukan sebagai bilangan riil. Semua operasi matematika, seperti

   

  13

    penjumlahan, pengurangan, pembagian dan sebagainya, bisa dilakukan terhadap nilai rasio. Contoh data rasio adalah temperatur dalam Kelvin, umur.

  2.5 Metode Pelatihan Metode pelatihan adalah cara berlangsungnya pembelajaran atau pelatihan dalam

data mining. Secara garis besar metode pelatihan dibedakan ke dalam dua

pendekatan:

  1. Pelatihan yang terawasi (Supervised Learning) Pada pembelajaran terawasi, kumpulan input yang digunakan, output-outputnya telah diketahui.

  2. Pelatihan Tak terawasi (Unsupervised Learning) Dalam pelatihan tak terawasi, metode diterapkan tanpa adanya latihan (training) dan tanpa ada guru (teacher). Guru disini adalah label dari data.

  2.6 Pohon Keputusan (Decision Tree) Decision tree merupakan salah satu model dalam data mining. Decision tree

adalah sebuah metode untuk memperkirakan fungsi target nilai diskrit, dimana fungsi

yang dipelajari ditampilkan dengan pohon keputusan (decision tree).

  Decision tree merupakan salah satu metode klasifikasi yang menggunakan

representasi struktur pohon (tree) dimana setiap node merepresentasikan atribut,

cabangnya merepresentasikan nilai dari atribut, dan daun merepresentasikan kelas.

  Node yang paling atas dari pohon keputusan disebut sebagai root.

   

  14

   

  Pohon keputusan merupakan metode klasifikasi yang paling populer digunakan.

Selain karena pembangunannya relatif cepat, hasil dari model yang dibangun mudah

untuk dipahami. Pada pohon keputusan terdapat 3 jenis node , yaitu :

  1. Root Node (akar) Merupakan node paling atas, pada node ini tidak ada input dan bisa tidak mempunyai output atau mempunyai output lebih dari satu.

  2. Internal Node (simpul anak) Merupakan node percabangan, pada node ini hanya terdapat satu input dan mempunyai output minimal dua.

  3. Leaf node atau terminal node (daun) Merupakan node akhir, pada node ini hanya terdapat satu input dan tidak mempunyai output Cuaca

  Akar Cerah   Hujan  

  Cabang   Mendung  

  Simpul  Anak  Kelembaban   Ya  

  Angin   Tinggi  

  Normal   Kuat   Lemah   Daun  

  Tidak   Ya Tidak Ya      

Gambar 2.2. Contoh Pohon Keputusan

   

  15

   

  Pembentukan pohon keputusan terdiri dari beberapa tahap, yaitu (Han & Kamber 2001) :

  

1. Konstruksi pohon, yaitu pembuatan pohon yang diawali dengan pembentukan

bagian akar, kemudian data terbagi berdasarkan atribut – atribut yang cocok untuk dijadikan leaf node.

  

2. Pemangkasan pohon (tree pruning), yaitu mengidentifikasi dan membuang

cabang yang tidak diperlukan pada pohon yang telah terbentuk. Ada dua metode dalam melakukan pemangkasan dalam pohon keputusan, yaitu : a. prepruning : pemangkasan dilakukan sejak awal pembentukan pohon.

  

b. postpruning : pemangkasan dilakukan saat pohon telah terbentuk secara utuh

3. Pembentukan aturan keputusan, yaitu membuat aturan keputusan dari pohon yang telah dibentuk.

2.6.1 Macam-Macam Pohon Keputusan

  Macam-macam pohon keputusan adalah : 1.

   ID3 (Iterative Dichotomiser 3) Dalam ID3 (Iterative Dichotomiser 3) mengunakan kriteria information gain untuk memilih atribut yang akan digunakan untuk pemisahan obyek. Atribut yang mempunyai information gain paling tinggi dibanding atribut yang lain

relatif terhadap set y dalam suatu data, dipilih untuk melakukan pemecahan.

2. CART (Classification And Regresion Trees)

   

  16

   

  CART (Classification And Regresion Trees) merupakan metode partisi rekursif yang digunakan baik untuk regresi maupun klasifikasi. CART dibangun dengan melakukan pemecahan subset-subset dari dataset menggunakan variable prediktor untuk membuat dua child node secara berulang, dimulai dari keseluruhan dataset. Tujuannya adalah menghasilkan subset data yang sehomogen mungkin untuk mengklasifikasikan variable target.

3. CHAID (Chi-Squared Automatic Interaction Detection)

  Metode CHAID (Chi-Squared Automatic Interaction Detection) adalah berdasarkan tes chi-square terhadap asosiasi. Pohon CHAID adalah decision tree yang dibangun dengan memecah/splitting subset-subset secara berulang ke dalam dua atau lebih child node yang dimulai dari keseluruhan dataset.