Perancangan Dan Implementasi Sistem Klasifikasi Masa Studi Mahasiswa Menggunakan Data Mining Berbasis Algoritma ID3

  

PERANCANGAN DAN IMPLEMENTASI SISTEM KLASIFIKASI MASA

STUDI MAHASISWA MENGGUNAKAN DATA MINING BERBASIS

ALGORITMA ID3

(Studi Kasus: Jurusan Teknik Komputer- UNIKOM)

TUGAS AKHIR

  

Disusun untuk memenuhi syarat kelulusan pada Program Studi Sistem

Komputer Strata Satu di Jurusan Teknik Komputer

Oleh

Emi Latifah

  

10207094

Pembimbing

  

Selvia Lorena Br Ginting, M.T

Wendi Zarman, M.Si

JURUSAN TEKNIK KOMPUTER

FAKULTAS TEKNIK DAN ILMU KOMPUTER

UNIVERSITAS KOMPUTER INDONESIA

BANDUNG

  ABSTRAK Dari tahun ketahun perkembangan sistem informasi semakin meningkat dan data

mining merupakan salah satu bagian dari sistem informasi itu sendiri. Data mining

adalah proses pencarian secara otomatis informasi yang berguna dalam tempat

penyimpanan data berukuran besar. Data mining memiliki beberapa teknik salah satunya

teknik klasifikasi, sedangkan decision tree merupakan salah satu metode dari teknik

klasifikasi yang berfungsi untuk memetakan alternatif-alternatif dalam pemecahan suatu

masalah. Salah satu algoritma yang mengimplementasikan klasifikasi dengan metode

decision tree yaitu algoritma ID3(Iterative Dichotomocer 3). Dengan memanfaatkan

sistem data mining khususnya algritma ID3 dibuat perancangan aplikasi untuk

memprediksi masa studi mahasiswa berdasarkan data nilai akademik. Proses yang

dilakukan berdasarkan dua buah data input yaitu data training dan data testing, langkah

pertama yang dilakukan proses data training menjadi sebuah pohon keputusan

berdasarkan perhitungan gain dan entropy. Dari tree tersebut kemudian dibuat sebuah

aturan yang kemudian akan digunakan dalam proses pengujian berdasarkan data testing.

Output yang dihasilkan berupa persentase hasil prediksi dari algoritma yang dibuat

dibandingkan dengan data masa studi yang asli. Pengujian dilakukan dengan

menggunakan jumlah data training yang berbeda. Kata Kunci: Data Mining, Decision Tree, Algoritma ID3

  

ABSTRACT

From year to year development of information systems increasing and data

mining is a part of the information system. Data mining is the process of

automatically searching useful information in large data storage. Data mining

has one of several techniques of classification techniques, while the decision tree

is one method of classification techniques that serve to map out alternatives in

solving a problem. One algorithm that implements the method of decision tree

classification algorithm is ID3 (Iterative Dichotomocer 3). By utilizing the data

mining system specifically created algritma ID3 application design to predict the

student's study is based on academic values. Process carried out by two pieces of

data that is input training data and testing the data, the first step training process

the data into a decision tree based on the calculation of gain and entropy. Of the

tree is then created a rule which will then be used in the testing process based on

data testing. The resulting output of the percentage predicted results of the

algorithm are made in comparison with the data of the original study period.

Tests carried out using different amount of training data. Key words: Data Mining, Decision Tree, ID3 Algorithm

KATA PENGANTAR

  bismillaahirrohmanorrahim

  Alhamdulilah, segala puji hanya milik Allah SWT yang telah memberikan begitu banyak nikmat kepada penulis, sehingga bisa menyelesaikan skripsi yang berjudul “Perancangan Dan Implentasi Sistem Klasifikasi Masa Studi

  

Menggunakan Data Mining Berbasis Algoritma ID3 (Studi Kasus: Jurusan

Teknik Komputer- Unikom) . Shalawat serta salam semoga tetap tercurah pada

  Nabi Muhammad SAW, keluarganya, sahabatnya, dan para pengikutnya hingga akhir zaman.

  Dalam proses penyusunan skripsi ini banyak hal atau pihak yang telah memberikan dukungan sehingga skripsi ini dapat terselesaikan. Banyak pihak yang tak mungkin Penulis sebutkan satu persatu, namun dengan segala kerendahan hati, Penulis mengucapkan terima kasih kepada:

  1. Ibu Sri Nurhayati, M.Si., selaku Ketua Jurusan Teknik Komputer, Universitas Komputer Indonesia dan Dosen Wali kelas 07 TK-3.

  2. Ibu Selvia Lorena Br. Ginting, M.T., selaku Pembimbing I yang telah banyak memberikan waktu, saran, nasihat, motivasi dan bimbingan kepada Penulis selama menempuh studi.

  3. Bapak Wendi Zarman, M.Si., selaku Pembimbing II dan Koordinator Lab.

  Fisika yang telah memberikan arahan, bantuan, saran, nasihat, motivasi dan bimbingan kepada penulis.

  4. Seluruh dosen Jurusan Teknik Komputer Fakultas Teknik dan Ilmu Komputer Universitas Komputer Indonesia, yang telah banyak memberikan ilmu, mengajarkan kejujuran, kedisiplinan, motivasi dan bantuan kepada penulis.

  5. Sekretariat Jurusan Teknik Komputer, kelancaran administrasi dan keramahtamahan yang diberikan khususnya kepada penulis.

  6. Kedua orang tua, adik dan keluarga besar tercinta yang senantiasa tidak henti-hentinya mencurahkan cinta, kasih sayang, perhatian, nasihat, serta

  7. Keluarga besar Laboratorium Fisika serta seluruh Asisten Laboratorium jurusan Teknik Komputer, terima kasih atas motivasi, saran, kerjasamanya dan bantuannya selama ini.

  8. Teman

  • –teman angkatan 2007 dan khususnya kelas 07 TK-3 yang telah banyak membantu selama studi maupun selama proses pengerjaan tugas akhir.

  9. Semua pihak yang telah banyak membantu yang tidak dapat penulis sebutkan satu persatu, terima kasih banyak atas bantuan, dukungan dan motivasinya selama melaksanakan studi dan menyelesaikan Tugas Akhir ini.

  Semoga segala amal dan kebaikannya mendapat limpahan rahmat dan pahala yang berlipat ganda dari Allah SWT. Akhir kata dari penulis hanyalah sebuah harapan semoga skripsi ini bermanfaat bagi dunia sains dan teknologi di Indonesia, khususnya disiplin keilmuan yang penulis dalami.

  Bandung, Juli 2012 Penulis

  2.4.3 Berikut algoritma dari ID3 ............................................................. 17

  2.1.3 Proses Data Mining ......................................................................... 7

  2.4.2 Information Gain ........................................................................... 17

  2.4.1 Entropy Information Gain ............................................................. 16

  

2.4 Algoritma ID3 .......................................................................................... 15

  2.3.1 Proses Pembentukan Pohon Keputusan (Decision Tree) ................ 12

  2.3 Pohon Keputusan (Decision Tree) ............................................................. 11

  2.2.1 Klasifikasi Dengan Decision Tree.................................................. 10

  2.2 Klasifikasi .................................................................................................. 9

  2.1.4 Pengelompokan Data Mining .......................................................... 8

  2.1.2 Fungsi

  

DAFTAR ISI

KATA PENGANTAR ....................................................................................... iv

ABSTRAK ......................................................................................................... vi

ABSTRACT ..................................................................................................... vii

................................................................... viii

DAFTAR TABEL .............................................................................................. x

DAFTAR GAMBAR ......................................................................................... xi

  2.1.1 Pengertian Data Mining ................................................................... 5

  2.1 Data Mining ................................................................................................ 5

  

BAB II ................................................................................................................ 5

TINJAUAN PUSTAKA ..................................................................................... 5

  1.5 Sistematika Penulisan ................................................................................. 3

  1.4 Metode Penelitian ....................................................................................... 2

  1.3 Batasan Masalah ......................................................................................... 2

  1.2 Maksud dan Tujuan .................................................................................... 2

  1.1 Latar Belakang............................................................................................ 1

  

BAB I .................................................................................................................. 1

PENDAHULUAN .............................................................................................. 1

  • –Fungsi Data Mining .......................................................... 6

  

PERANCANGAN SISTEM ............................................................................. 20

  3.1 Analisis Sistem ......................................................................................... 20

  3.1.1 Analisis Masalah ........................................................................... 20

  3.1.2 Analisis Data ................................................................................ 20

  3.1.3 Penggunaan Algoritma ID3 ........................................................... 22

  3.1.4 Analisis Kebutuhan Non Fungsional ............................................. 28

  3.1.5 Spesifikasi Kebutuhan Fungsional ................................................. 30

  3.1.6 Pemodelan Fungsi ......................................................................... 30

  3.1.7 Spesifikasi Proses .......................................................................... 32

  3.2 Perancangan Sistem .................................................................................. 48

  3.2.1 Perancangan Data .......................................................................... 48

  3.2.2 Arsitektur Menu ............................................................................ 49

  3.2.3 Perancangan Antar Muka .............................................................. 50

  3.2.4 Perancangan Form ......................................................................... 50

  3.2.5 Flowchart Pembuatan Pohon Keputusan ........................................ 55

  3.2.6 Flowchart Sistem ........................................................................... 57

  

BAB IV ............................................................................................................. 59

HASIL PEMBAHASAN DAN PENGUJIAN ................................................. 59

  4.1 Hasil Pembahasan ..................................................................................... 59

  4.1.1 Pembahasan Antarmuka ................................................................ 59

  4.2 Pengujian .................................................................................................. 65

  

BAB V ............................................................................................................... 97

SIMPULAN DAN SARAN .............................................................................. 97

  5.1 Simpulan .................................................................................................. 97

  5.2 Saran ........................................................................................................ 98

  

DAFTAR PUSTAKA ....................................................................................... 99

BAB I PENDAHULUAN

1.1 Latar Belakang

  Setiap perguruan tinggi baik negeri maupun swasta tentunya memiliki kebijakan kurikulum yang berbeda, contohnya UNIKOM khususnya program studi Teknik Komputer. Di Jurusan Teknik Komputer terdapat dua program studi yaitu program studi S1 dan program studi D3. Program studi S1 di jurusan teknik komputer memiliki 144 sks (satuan kredit semester) dari beberapa matakuliah. Di UNIKOM khususnya pada program studi S1 Teknik Komputer tingkat kelulusan masih terbilang rendah hal ini disebabkan oleh beberapa faktor, yang diantaranya: kurangnya strategi mahasiswa dalam belajar, sistem pengajaran yang kurang baik dan adanya perbedaan kemampuan setiap mahasiswa. Dari beberapa faktor tersebut menyebabkan banyak mahasiswa yang menempuh masa studi lebih dari lima tahun. Untuk mengatasi permasalahan tersebut maka penulis membuat solusi mengimplementasikan data mining, dengan memanfaatkan nilai akademik.

  Data mining adalah suatu proses pencarian informasi terhadap data yang sudah ada, data yang diproses berupa data yang sangat besar. Data mining memiliki beberapa teknik salah satunya adalah teknik klasifikasi. Klasifikasi ini adalah proses untuk menemukan model atau fungsi yang menggambarkan kelas atau konsep dari suatu data sedangkan decision tree merupakan salah satu metode dari teknik klasifikasi. Salah satu algoritma yang mengimplementasikan klasifikasi dengan metode decision tree yaitu algoritma ID3(Iterative

  

Dichotomocer 3). Dengan memanfaatkan sistem data mining khususnya

  algoritma ID3 dibuat sebuah perancangan aplikasi untuk memprediksi masa studi mahasiswa berdasarkan data nilai akademik, dengan dua kategori masa studi kurang dari lima tahun dan lebih dari lima tahun. Dengan adanya aplikasi ini diharapkan dapat dimanfaatkan dosen dan staff jurusan untuk memprediksi

  1.2 Maksud dan Tujuan

  Tujuan utama dari pelaksanaan tugas akhir ini adalah membuat perangkat lunak untuk memprediksi masa studi mahasiswa, berdasarkan beberapa nilai matakuliah menggunakan algoritma ID3.

  Adapun tujuan rincinya adalah:

  a. Mengimplementasikan algoritma ID3 untuk memprediksi kelulusan mahasiswa berdasarkan mata kuliah.

  b. Membangun perangkat lunak yang mengimplentasikan algoritma ID3.

  c. Mengembangkan perangkat lunak untuk mengkonstruksi pohon keputusan (decision tree) dengan algoritma ID3.

  1.3 Batasan Masalah

  Batasan masalah pada tugas akhir ini adalah:

  1. Data yang digunakan (database) dalam studi kasus adalah data yang lengkap jurusan teknik komputer S1.

  2. Visual Basic 6.0 sebagai aplikasi interface sistem

  3. Data-data mata kuliah yang digunakan dari semester 1 -2 untuk jenjang S1

  4. Pengolahan basis data menggunakan Microsoft Office Access 2007

  5. Algoritma ID3 yang digunakan sebagai dasar konstruksi struktur decision tree dengan data yang lengkap.

  1.4 Metode Penelitian

  Metode yang digunakan penulis dalam penyusunan proposal tugas akhir ini adalah:

  1. Kajian Pustaka Yaitu suatu metode pengumpulan data dengan cara membaca atau mempelajari buku-buku yang berhubungan dengan masalah yang menjadi

  2. Perancangan Perangkat Lunak Melakukan perancangan terhadap sistem yang akan dikembangkan berdasarkan hasil yang diperoleh dari analisis. Perancangan tersebut meliputi rancangan untuk melakukan konstruksi decision tree ID3 untuk data yang lengkap.

  3. Implementasi Melakukan implementasi terhadap perangkat lunak yang akan dikembangkan berdasarkan hasil yang diperoleh dari perancangan.

  4. Pengujian Melakukan pengujian perangkat lunak dengan menggunakan studi kasus yang telah ditentukan.

  5. Evaluasi Mengevaluasi hasil konstruksi perangkat lunak yang dikembangkan dalam hal keakuratan hasil dan pengaruh missing value terhadap struktur decision

  tree yang di konstruksi.

1.5 Sistematika Penulisan

  Sistematika penulisan pada tugas akhir ini adalah :

  BAB I PENDAHULUAN Dalam bab ini dibahas latar belakang tugas akhir yang dilaksanakan, maksud

  dan tujuan, rumusan masalah, batasan masalah, metodologi penelitian dan sistematika penulisan.

  BAB II LANDASAN TEORI Dalam bab ini membahas teori-teori pendukung mengenai dasar-dasar dari pembuatan sistem. BAB III PERANCANGAN SISTEM Dalam bab ini membahas tentang perancangan sistem yang penulis rancang.

  Dalam bab ini membahas tentang analisa kerja sistem yang penulis rancang.

BAB V KESIMPULAN DAN SARAN Dalam bab ini berisi kesimpulan dari uraian pada bab sebelumnya dan saran untuk pengembangan selanjutnya.

BAB II TINJAUAN PUSTAKA

2.1 Data Mining

2.1.1 Pengertian Data Mining

  Dengan semakin besarnya jumlah data dan kebutuhan akan analisis data yang akurat maka dibutuhkan metode analisis yang tepat. Data mining merupakan teknik yang menggabungkan teknik analisis data dengan algoritma untuk melakukan analisis data dan menemukan pola-pola penting data.

  Secara sederhana, data mining atau penambangan data dapat didefinisikan sebagai proses seleksi, eksplorasi, dan pemodelan dari sejumlah besar data untuk menemukan pola atau kecenderungan yang biasanya tidak disadari keberadaannya [HAN-01]. Data mining dapat dikatakan sebagai proses mengekstrak pengetahuan dari sejumlah besar data yang tersedia [HAN-01]. Pengetahuan yang dihasilkan dari proses data mining harus baru, mudah dimengerti, dan bermanfaat. Dalam data mining, data disimpan secara elektronik dan diproses secara otomatis oleh komputer menggunakan teknik dan perhitungan tertentu.

  Alasan-alasan utama dalam penggunaan data mining adalah [HAN-01]:

  1. Banyaknya jumlah data yang ada dan akan terus meningkatnya jumlah data.

  2. Kebutuhan untuk menginterpretasikan data Ada beberapa definisi data mining, diantaranya:

  1. Data mining adalah disiplin ilmu yang tujuan utamanya adalah untuk menemukan, menggali, atau menambang pangetahuan dari data atau

  2. Data mining adalah suatu proses otomatis terhadap data yang sudah ada, data yang diproses berupa data yang sangat besar [2].

  3. Data mining ( knowledge discovery in database ) adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam set data beukuran besar [3].

  4. Data mining adalah bagian integral dari knowledge discovery in databases (KDD).

  5. Data mining adalah sebuah proses percarian secara otomatis informasi yang berguna dalam tempat penyimpanan data berukuran besar Dari beberapa definisi diatas maka dapat disimpulkan bahwa, data mining adalah metode secara otomatis menemukan informasi yang berguna dan tersimpan pada data dengan ukuran yang sangat besar sehingga ditemukan pola menarik yang sebelumnya tidak diketahui. Teknik data mining difungsikan untuk mendapatkan deskripsi dari data dan mendapatkan model dari data yang berguna untuk prediksi. Deskripsi berarti menemukan pola yang mudah dipahami oleh pengguna dalam menggambarkan data, contohnya: Clustering, Association Rule

  

Discovery, Sequential Pattern Discovery, sedangkan prediksi berarti menemukan

  pola untuk memprediksi nilai dari suatu variabel yang nilainya belum diketahui contohnya: Classification, Regression, Deviation Detection. Kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar.

  Ada beberapa karakteristik dari data mining diantaranya:

  a. Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data tertentu yang tidak diketahui sebelumnya.

  b. Data mining biasa menggunakan data yang sangat besar. Biasanya data yang besar digunakan untuk membuat hasil lebih dipercaya.

  c. Data mining berguna untuk membuat keputusan yang kritis, terutama dalam strategi.

  2.1.2 Fungsi –Fungsi Data Mining

  Beberapa fungsi dalam data mining, yaitu:

  1. Fungsi Prediksi ( prediction ) Proses untuk menemukan pola dari data dengan menggunakan beberapa variabel untuk memprediksikan variabel lain yang tidak diketahui jenis atau nilainya.

  2. Fungsi Deskripsi ( description ) Proses untuk menemukan suatu karakteristik penting dari data dalam suatu basis data.

  3. Fungsi Klasifikasi ( classification ) Klasifikasi merupakan suatu proses untuk menemukan model atau fungsi untuk menggambarkan class atau konsep dari sutau data. Proses yang digunakan untuk mendeskripsikan data yang penting serta dapat meramalkan kecenderungan data pada masa depan.

  4. Fungsi Asosiasi ( association ) Proses ini digunakan untuk menemukan suatu hubungan yang terdapat pada nilai atribut dari sekumpulan data.

  2.1.3 Proses Data Mining

  1. Mendefinisikan masalah, menentukan input dan output untuk form, menentukan nilai efisiensi, menentukan keakuratan dan sebagainya.

  2. Mengumpulkan dan memilih data yang akan digunakan.

  3. Mempersiapkan data, seperti mengubah bentuk data ke bentuk yang sesuai, pembersihan data, atau menggabungkan data dari sumber yang berbeda.

  4. Menentukan metode yang sesuai terdiri dari dua bagian:

  a. Memilih model atau algoritma, seprti menggunakan model yang seperti apa, memilih untuk menggunakan algoritma apa b. Memilih parameter model, misalnya jumlah node pada tiap tingkat jika artificial network digunakan.

  6. Interpretasi, evaluasi dan visualisasi pola: adanya sesuatu yang baru dan menarik, lakukan iterasi jika diperlukan.

2.1.4 Pengelompokan Data Mining

  Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu:

  1. Klasifikasi Klasifikasi merupakan tugas data mining yang paling umum. Ciri dari klasifikasi adalah memiliki definisi yang jelas tentang kelas-kelas (predifined

  classes) dan training set. Klasifikasi bertujuan memprediksi kelas dari suatu

  data yang belum diketahui kelasnya. Dalam mencapai tujuan tersebut, proses klasifikasi membentuk suatu model yang mampu membedakan data kedalam kelas-kelas yang berbeda berdasarkan aturan atau fungsi tertentu.

  2. Deskripsi Deskripsi adalah cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data.

  3. Estimasi Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke arah numerik daripada ke arah kategori. Model dibangun menggunakan

  record lengkap yang menyediakan nilai dari variabel target sebagai nilai

  prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi.

  4. Pengelompokan (clustering) Pengelompokan adalah tugas data mining yang menggunakan metode populasi yang heterogen menjadi sejumlah kelompok data yang homogen. Data dikelompokan berdasarkan ciri-ciri yang sama tidak tergantung pada predefined classes dan training set.

  5. Prediksi

  Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang. Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi.

2.2 Klasifikasi

  Teknik klasifikasi adalah suatu proses yang menemukan properti-properti yang sama pada sebuah himpunan obyek di dalam sebuah basis data, dan mengKlasifikasikannya ke dalam kelas-kelas yang berbeda menurut model klasifikasi yang ditetapkan. Klasifikasi dalam data mining dikelompokkan ke dalam teknik pohon keputusan, Bayesian (Naïve Bayesian dan Bayesian Belief Networks), Jaringan Saraf Tiruan (Backpropagation), teknik yang berbasis konsep dari penambangan aturan-aturan asosiasi, dan teknik lain (k-Nearest Neighboor, algoritma genetik, teknik dengan pendekatan himpunan rough dan fuzzy). Setiap teknik memiliki kelebihan dan kekurangannya sendiri, berikut gambar pengelompokan teknik klasifikasi.

  

Gambar 1 Pengelompokan Teknik Klasifikasi

  Secara umum, proses klasifikasi dapat dilakukan dalam dua tahap, yaitu proses belajar dari data pelatihan dan klasifikasi kasus baru. Pada proses belajar, algoritma klasifikasi mengolah data pelatihan untuk menghasilkan sebuah model. pengambilan keputusan (Han et al.,2001; Quinlan, 1993). Kelas yang dapat diprediksi adalah kelas-kelas yang sudah terdefinisi pada data pelatihan. Karena proses klasifikasi kasus baru cukup sederhana, penelitian lebih banyak ditujukan untuk memperbaiki teknik-teknik pada proses belajar.

  

Gambar 2 Skema Klasifikasi secara Umum

2.2.1 Klasifikasi Dengan Decision Tree

  Beberapa contoh algoritma yang mengimplementasikan klasifikasi dengan metode decision tree antara lain:

1. Hunt’s Algorithm.

  2. ID3 Algorithm (Algoritma ID3).

  3. C4.5 Algorithm (Algoritma C4.5).

  4. CART ( Classification and Regrssion Trees) Algorithm (Algoritma CART).

  5. CHAID (Chi-squared Automatic Interaction Detector) Algorithm (Algoritma CHAID).

  6. SLIQ Algorithm.

  7. SPRINT Algorithm, dan lain-lain. Keberhasilan suatu algoritma klasifikasi dan prediksi biasanya ditentukan oleh kriteria-kriteria berikut:

  1. Akurasi Prediksi

  Kemampuan dalam ketepatan memprediksikan nilai ke kelas yang tepat.

  2. Kecepatan Kecepatan komputasi dalam menghasilkan suatu model prediksi.

  3. Efisiensi Kemampuan dalam membuat pemodelan yang efisiensi dengan banyaknya data yang diberikan.

  4. Interpretasi Kemampuan pemahaman dan pengetahuan yang dapat dipresentasikan. Teknik yang dapat diimplementasikan untuk klasifikasi dan prediksi dalam data mining, antara lain: teknik pembuatan pohon keputusan (decision tree), bayesian (naive bayesian dan bayesian belief network), jaringan sarap tiruan (back

  propagation), dan teknik lainnya (k-nearest neighboor, algoritma genetik, pendekatan himpunan rough dan fuzzy).

  Setiap teknik memiliki kelebihan dan kekurangan masing-masing. Beberapa teknik akan sangat efektif untuk diimplementasikan pada kondisi tertentu dan beberapa akan menghasilkan yang sebaliknya. Dengan pemilihan teknik yang tepat, akan didapatkan hasil yang maksimal dari penambangan data.

  Didalam data mining, pemodelan tree dapat dideskripsikan kedalam tiga kategori, yakni:

  1. Classification tree, menganalisis ketika keluaran prediksi merupakan bagian data dari kelas yang dimiliki.

  2. Regression tree, menganalisis ketika keluaran prediksi dapat berupa angka (seperti: harga murah, lamanya pasien tinggal, dan sebagainya).

  3. Classification and regression Tree, digunakan ketika keluaran prediksi dapat berupa numeric maupun non-numeric.

2.3 Pohon Keputusan ( Decision Tree)

  Pohon keputusan adalah struktur flowcart yang mempunyai tree (pohon), dimana setiap simpul internal menandakan suatu tes atribut. Setiap cabang merepresentasikan kelas atau distribusi kelas, alur pada decision tree ditelusuri dari simpul ke akar ke simpul daun yang memegang prediksi kelas untuk contoh tersebut. Decision tree mudah untuk dikonversikan keaturan klasifikasi (classification rule). Konsep data dalam decision tree dinyatakan dalam bentuk tabel dengan atribut dan record.

  Decision tree digunakan untuk kasus-kasus yang keluarannya bernilai

  diskrit. Banyak variasi model decision tree dengan tingkat kemampuan dan syarat yang berbeda, pada umumnya beberapa ciri yang cocok untuk diterapkannya decision tree adalah sebagai berikut :

  1. Data dinyatakan dengan pasangan atribut dan nilainya

  2. Label atau keluaran data biasanya bernilai diskrit 3. Data mempunyai missing value (nilai dari suatu atribut tidak diketahui). Dengan cara ini akan mudah mengelompokkan obyek kedalam beberapa kelompok. Untuk membuat decision tree perlu memperhatikan hal-hal berikut ini: a. Atribut mana yang akan dipilih untuk pemisahan obyek

  b. Urutan atribut mana yang akan dipilih terlebih dahulu

  c. Struktur tree

  d. Kriteria pemberhentian

  e. Pruning

2.3.1 Proses Pembentukan Pohon Keputusan ( Decision Tree)

  Decision Tree adalah sebuah struktur pohon, dimana setiap node pohon

  merepresentasikan atribut yang telah diuji, setiap cabang merupakan suatu pembagian hasil uji, dan node daun (leaf) merepresentasikan kelompok kelas tertentu. Level node teratas dari sebuah decision tree adalah node akar (root) yang biasanya berupa atribut yang paling memiliki pengaruh terbesar pada suatu kelas

  Pembuatan model, pada tahap ini setiap data diasumsikan telah digolongkan kedalam sejumlah kelas (predefined class). Himpunan data yang akan menyusun model ini disebut sebagai training data. Model yang dihasilkan dipresentasikan dalam bentuk aturan klasifikasi, pohon keputusan atau formula matematika.

  

Gambar 3 Ilustrasi Pembuatan Pohon Keputusan

  Pemanfaatan model, tahap ini digunakan untuk mengklasifikasikan obyek yang belum diketahui kelasnya. Estimasi akurasi dilakukan dengan membandingkan kelas dari testing data dengan kelas hasil klasifikasi model. Tingkat akurasi adalah ratio jumlah testing data yang diklasifikasikan secara benar berdasarkan model klasifikasi dengan seluruh jumlah testing data. Jika tingkat akurasi ini diterima maka model klasifikasi kemudian dapat digunakan untuk mengklasifikasikan data yang belum diketahui kelasnya.

  

Gambar 4 Ilustrasi Pemanfaatan Pohon Keputusan

  Representasi pohon keputusan ini dianggap sebagai metode logis yang sering digunakan pada bahasan mengenai statistik terapan dan pembelajaran mesin (machine learning). Pembuatan pohon keputusan sendri menggunakan metode supervised learning yaitu proses pembelajaran dimana data ini terdiri dari nodes atau simpul yang merupakan atribut dari data sampel. Cabang (branches) yang keluar dari node tersebut merupakan nilai atau outcome yang dimiliki oleh atribut (nodes) bersangkutan. Sedangkan daun yang ada pada pohon keputusan tersebut menunjukan kelas dari data sampel yang diuji. Sebagai ilustrasi dapat dilihat pada contoh gambar berikut:

  

Gambar 5 Model Pohon Keputusan

  Pada gambar 5 terlihat ada 3 atribut berbeda yaitu X, Y, dan Z yang

  (root node) sedangkan Y dan Z terdapat di dalam internal node atau simpul dalam. Tiap cabang yang keluar dari simpul tersebut menunjukkan nilai masing- masing atribut yang dimiliki oleh data pengujian. Pada simpul daun (leaf node) terdapat kelas yang menjadi keluaran akhir dari classifier. Untuk mengetahui kelas dari suatu data pengujian maka jalur yang ada dari akar hingga daun dapat ditelusuri.

  Dalam pohon keputusan, leaf node merupakan sebuah label kelas sedangkan non terminal node yang terdiri dari root dan internal node lainnya, mengandung kondisi uji atribut untuk memisahkan record yang memiliki karakteristik berbeda.

  Setelah pohon keputusan dikonstruksi, data tes dapat diklasifikasi. Bermula dari root, kondisi tes diaplikasikan ke record dan mengikuti cabang yang sesuai berdasarkan keluaran dari tes.

2.4 ID3

  Algoritma Iterative Dichotomicer 3 (ID3) adalah algoritma decision tree learning

  (algoritma pembelajaran pohon keputusan) yang paling dasar. Algoritma ini melakukan pencarian secara rakus atau menyeluruh (greedy), pada semua kemungkinan pohon keputusan. Salah satu algoritma induksi pohon keputusan yaitu ID3 (Iterative Dichotomiser 3). ID3 dikembangkan oleh J. Ross Quinlan. Algoritma ID3 dapat diimplementasikan menggunakan fungsi rekursif (fungsi yang memanggil dirinya sendiri). Algoritma ID3 berusaha membangun decision

  

tree (pohon keputusan) secara top-down (dari atas kebawah), mulai dengan

  pertanyaan : “atribut mana yang pertama kali harus dicek dan diletakkan pada

  root

  ?” pertanyaan ini dijawab dengan mengevaluasi semua atribut yang ada dengan menggunakan suatu ukuran statistik (yang banyak digunakan adalah

  

information gain) untuk mengukur efektivitas suatu atribut dalam

  mengklasifikasikan kumpulan sampel data. Berikut adalah cara kerja dari algoritma ID3:

  2. Pilih atribut dimana nilai gainnya paling besar.

  3. Buat simpul yang berisi atribut tersebut.

  4. Proses perhitungan Information Gain akan terus dilaksanakan sampai semua data masuk kedalam kelas yang sama, sedangkan atribut yang telah dipilih tidak diikutkan lagi dalam perhitungan nilai information gain.

  Gain mengukur seberapa baik suatu atribut memisahkan training exm ple kedalam kelas target. Atribut dengan informasi tertinggi akan dipi

  lih. Dengan tujuan untuk mendefinisikan gain, pertama- tama digunakanlah ide dari teori informasi yang disebut entropi. Entropi mengukur jumlah dari informasi .

2.4.1 Entropy Information Gain

  Sebuah obyek yang diklasifikasikan dalam pohon harus dites nilai entropinya. Entropy adalah ukuran dari teori informasi yang dapat mengetahui karakteristik dari impuryt ,dan homogenity dari kumpulan data. Dari nilai entropy tersebut kemudian dihitung nilai information gain (IG) masing-masing atribut.

  Rumus menghitung entropi informasi adalah: Entropy(S) =( - p log2p ) + (-p log2p )..................................(1) - - + + Keterangan: S = Himpunan kasus atau ruang (data) sampel yang digunakan untuk training.

  P = jumlah yang bersolusi positif (mendukung) pada data sampel untuk + kriteria tertentu. P = Jumlah yang bersolusi negatif (tidak mendukung ) pada data sampel

  • untuk kriteria tertentu. Dari rumus entropy diatas dapat disimpulkan bahwa definisi entropy (S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak suatu kelas (+ atau -) dari
nilai dari suatu entropy maka semakin baik digunakan dalam mengekstraksi suatu kelas. Panjang kode untuk menyatakan informasi secara optimal adalah log2p bits untuk message yang mempunyai probabilitas p. Sehingga jumlah bit yang diperkirakan untuk mengekstraksi S kedalam kelas adalah: = - p + log

  2 p + + -p -

  log

  2 p -

  2.4.2 Information Gain

  Setelah mendapatkan nilai entropy untuk suatu kumpulan data, maka kita dapat mengukur efektivitas suatu atribut dalam mengklasifikasikan data. Ukuran efektifitas ini disebut informasi gain. Secara matematis, informasi gain dari suatu atribut A, dituliskan sebagai berikut:

  Gain (S,A)= Entropy(S) - ∑ .........................(2)

  Keterangan : A = atribut V = suatu nilai yang mungkin untuk atribut A |S

  V

  | = jumlah sampel untuk nilai v |S| = jumlah seluruh sampel data

  Entropy(S v ) = entropy untuk sampel-sampel yang memiliki nilai v Entropy (S) = 0 jika semua contoh pada S berada dalam kelas yang sama.

  Entropy (S) = 1 jika semua jumlah contoh positif dan jumlah negatif dalam S adalah sama. Entropy (S) = < 1 jika jumlah contoh positif dan negatif dalam S tidak sama

  2.4.3 Berikut algoritma dari ID3

  Input: sampel training, label training, atribut

  1. Membuat simpul akar untuk tree yang dibuat,

  2. Jika semua sampel positif, berhenti dengan suatu pohon dengan satu simpul akar, beri label (+),

  3. Jika semua sampel negatif, berenti dengan suatu pohon dengan satu simpul akar, beri label (-),

  4. Jika atribut kosong, berhenti dalam dengan satu pohon dengan satu simpul akar dengan label sesuai nilai yang terbanyak yang ada pada label training untuk yang lain, Mulai

  a. A atribut yang mengklasifikasikan sample dengan hasil terbaik (berdasarkan information gain), b. Atribut keputusanuntuk simpul akar A,

  c. Untuk setiap nilai, v

  

i

  , yang mungkin untuk A,

  d. Tambahkan cabang dibawah akar yang berhubungan dengan A = v i,

  e. Tentukan sampel Sv i sebagai subset dari sampel yang mempunyai nilai v i untuk atribut A, f. Jika sampel Sv i kosong, dibawah cabang tambahkan simpul daun dengan label = nilai yang terbanyak yang ada pada label training, yang lain tambah cabang baru dibawah cabang yang sekarang ID3 (sampel training, label training, atribut-[A])

  5. Berhenti Adapun sample data yang digunakan oleh ID3 memiliki beberapa syarat, yaitu:

  1. Deskripsi atribut nilai, atribut yang sama harus mendeskripsikan tiap contoh dan memiliki jumlah nilai yang sudah ditentukan.

  2. Kelas yang sudah didefinisikan sebelumnya, suatu atribut contoh harus sudah didefinisikan, karena tidak dipelajari oleh ID3.

  3. Kelas-kelas yang diskrit, kelas harus digambarkan dengan jelas. Kelas

  4. Jumlah contoh (example) yang cukup, karena pembangkitan induktif digunakan, maka dibutuhkan test case yang cukup untuk membedakan pola yang valid dari peluang suatu kejadian.

  5. Pemillihan atribut pada ID3 dilakukan dengan properti statistik, yang disebut dengan information gain. Gain mengukur seberapa baik suatu atribut memisahkan training example ke dalam kelas target. Atribut dengan informasi tertinggi akan dipilih. Dengan tujuan untuk mendefinisikan gain, pertama-tama digunakanlah ide dari teori informasi yang disebut entropi. Entropi mengukur jumlah dari informasi yang ada pada atribut.

BAB III PERANCANGAN SISTEM

3.1 Analisis Sistem

  Tahapan analisis sistem ini, mempunyai tugas mendefinisikan masalah sistem, melakukan studi kelayakan, menganalisis kebutuhan sistem dan elemen- elemen yang terkait, seperti user, administrator, dan semua yang diperlukan dalam proses prediksi masa studi mahasiswa di jurusan teknik komputer UNIKOM.

  3.1.1 Analisis Masalah

  Setiap perguruan tinggi baik negeri maupun swasta tentunya memiliki kebijakan kurikulum yang berbeda. Di UNIKOM khususnya pada program studi S1 Teknik Komputer tingkat kelulusan masih terbilang rendah hal ini disebabkan oleh beberapa faktor, yang diantaranya: kurangnya strategi mahasiswa dalam belajar, sistem pengajaran yang kurang baik dan adanya perbedaan kemampuan setiap mahasiswa. Dari beberapa faktor tersebut menyebabkan banyak mahasiswa yang menempuh masa studi lebih dari lima tahun. Untuk mengatasi permasalahan tersebut maka penulis membuat solusi mengimplementasikan data mining, dengan memanfaatkan nilai akademik.

  Dengan memanfaatkan sistem data mining khususnya algoritma ID3 dibuat sebuah perancangan aplikasi untuk memprediksi masa studi mahasiswa berdasarkan data nilai akademik, dengan dua kategori masa studi kurang dari lima tahun dan lebih dari lima tahun. Dengan adanya aplikasi ini diharapkan dapat dimanfaatkan dosen dan staff jurusan untuk memprediksi kelulusan mahasiswa dalam masa studinya.

  3.1.2 Analisis Data

  Data yang digunakan dalam penulisan tugas akhir ini adalah data pemrograman1. Sedangkan Atribut tujuan dari prediksi masa studi mahasiswa terdiri dari dua kategori yaitu masa studi <= 5 tahun dan > 5tahun. Diman 0 mewakili kelas yang <= 5 tahun dan 1 > mewakili kelas yang > 5 tahun.

3.1.2.1 Sumber Data

  Data mahasiwa yang digunakan untuk uji data (testing) dan data latih

  

(training) adalah data mahasiswa angkatan 2000-2006. Hal ini didasarkan pada

  kebutuhan data yang akan dihubungkan dengan sistem prediksi yang akan dirancang dari data kelulusan, data tersebut diperoleh dari sekretariat jurusan Teknik Komputer. Data yang diambil semester1 dan semester 2 dari data mahasiswa S1 yang telah lulus di Jurusan Teknik Komputer. Berikut adalah tabel atribut yang digunakan dalam aplikasi ini:

  

Tabel 1 Tabel 6 Atribut

NO Nama Matakuliah Bobot Nilai

  1 Kalkulus1 A B C D E

  Pengantar Sistem

  2 Komputer A B C D E

  3 Fisika 1 A B C D E

  4 Kalkulus 2 A B C D E

  D E

  6 Pemrograman Algoritma1 A B C D E

3.1.3 Penggunaan Algoritma ID3

  

Tabel 2 Contoh Tabel Kasus

no fisika1 kalkulus1 fisika2 kalkulus2 masa_studi

  6 A C A B

  Tabel kasus diatas merupakan sampel kumpulan data yang akan diproses, yang terdiri dari 10 sampel. 4 sampel merupakan jumlah sampel lebih

  10 B C D C

  9 C C C C

  8 C C D C

  7 C C B D

  1

  5 C D C C

  1 A B B B