Laporan Klasifikasi Data Mining (1)

Laporan Klasifikasi Data Mining
Dan Data Warehouse

Oleh :
Adianzah Muhammad

(14.01.53.0085)

Dedi Setiyawan

(14.01.53.0097)

Vio Binawan I

(14.01.53.0105)

UNIVERSITAS STIKUBANK SEMARANG (UNISBANK)
FALKUTAS TEKNOLOGI INFORMASI
TEKNIK INFORMATIKA
2018


BAB I
PENDAHULUAN
1.1 Latar Belakang Masalah
Berkembangnya teknologi telah membuat banyak informasi bermunculan.
Informasi-informasi tersebut tertuang dalam bentuk dokumen terutama dokumen
digital. Semakin banyak informasi yang ada maka semakin banyak dokumen
dokumen yang digunakan. Untuk bisa mengorganisir informasi-informasi tersebut
dengan mudah, maka dibutuhkan klasifikasi dokumen secara otomatis. Salah satu
metode yang dapat digunakan untuk klasifikasi adalah metode klasifikasi dengan
Decision Tree, di mana metode dari Decision Tree yang umum dipakai adalah
ID3. Decision Tree adalah sebuah pohon di mana setiap node cabang merupakan
pilihan antara sejumlah alternatif, dan setiap simpul daun merupakan keputusan.
Decision Tree biasanya digunakan untuk memperoleh informasi untuk tujuan
pengambilan keputusan.
Decision Tree dimulai dengan root node yang digunakan untuk mengambil
keputusan. Dari node ini, pengguna memisahkan tiap node secara rekursif
menurut algoritma pelatihan Decision Tree. Hasil akhir adalah Decision Tree di
mana tiap cabang merupakan skenario kemungkinan keputusan dan hasilnya
Dalam penelitian yang akan dilakukan sebagai tugas akhir ini, penulis akan
membuat sistem klasifikasi artikel secara otomatis dengan metode Decision Tree.

Melalui program ini, artikel-artikel berita yang ada akan secara otomatis
terklasifikasi sehingga mempermudah pengguna dalam melakukan pencarian
artikel-artikel tersebut sesuai dengan kelas yang sudah ditentukan. Dari program
yang akan dibuat ini, peneliti akan melakukan penelitian mengenai tingkat kinerja
metode Decision Tree untuk klasifikasi artikel berita, sehingga dapat diketahui
tingkat keakuratan metode yang digunakan untuk klasifikasi.
1.2 Rumusan Masalah
Dalam tugas akhir ini, penulis akan merancang dan membangun sistem
yang akan melakukan proses klasifikasi. Rumusan masalah yang akan dibuat oleh
sistem secara garis besar adalah sebagai berikut:

1. Bagaimana mengimplementasikan Decision Tree untuk klasifikasi ?
2. Berapa persen tingkat akurasi dari implementasi Decision Tree untuk
klasifikasi?
3. Bagaimana pengaruh feature selection terhadap tingkat akurasi implementasi
Decision Tree untuk klasifikasi?
1.3 Batasan Masalah
1. Artikel berita terbatas pada artikel olahraga, dan kelas-kelas untuk artikel
tersebut dibagi menjadi: olahraga sepak bola, olahraga raket, olahraga
otomotif, dan olahraga tinju.

2. Input data pelatihan berupa file plain-text (.txt).
3. Tidak melakukan stemming untuk token-token yang ada pada sistem yang akan
dibangun.
1.4 Tujuan Penelitian
Tujuan dari penelitian yang akan dibangun adalah sebagai berikut:
1. Menerapkan metode Decision Tree untuk membangun sistem klasifikasi secara
otomatis.
2. Mengukur tingkat akurasi klasifikasi yang dihasilkan dari metode Decision
Tree.

BAB II
TINJAUAN PUSTAKA
2.1 Kajian Deduktif
2.1.1 Pengertian Text Mining
Text mining adalah salah satu bidang khusus dari data mining . Sesuai
dengan buku The Text Mining Handbook , text mining dapat didefinisikan
sebagai suatu proses menggali informasi dimana seorang user berinteraksi
dengan sekumpulan dokumen menggunakan tools analisis yang merupakan
komponen komponen dalam data mining yang salah satunya adalah
kategorisasi.

Tujuan dari text mining adalah untuk mendapatkan informasi yang berguna dari
sekumpulan dokumen. Jadi, sumber data yang digunakan pada text mining
adalah kumpulan teks yang memiliki format yang tidak terstruktur atau minimal
semi terstruktur. Adapun tugas khusus dari text mining antara lain yaitu
pengkategorisasian teks (text categorization) dan pengelompokan teks (text
clustering).
2.1.2 Klasifikasi
Klasifikasi adalah salah satu teknik machine learning. Teknik ini termasuk ke
dalam tipe supervised learning. Istilah dari klasifikasi didapat dari tujuan utama
teknik ini untuk memprediksikan suatu kategori dari input data.
Sebelum proses prediksi dilakukan, langkah pertama yang dilakukan adalah
proses pembelajaran. Proses pembelajaran fungsi target (model klasifikasi) yg
memetakan setiap sekumpulan Atribut X (input) ke salah satu Class Y yang
didefinisikan sebelumnya.
Proses pembelajaran memerlukan sebuah data, data yang digunakan adalah data
latih / data training. Untuk data yang digunakan pada saat proses prediksi
disebut dengan data uji / data testing.
Menurut definisi tersebut klasifikasi adalah teknik yang dilakukan untuk
memprediksi class atau properti dari setiap instance data.
2.1.3 Decision Tree

Decision Tree adalah sebuah struktur pohon, dimana setiap node pohon
merepresentasikan atribut yang telah diuji, setiap cabang merupakan suatu

pembagian hasil uji, dan node daun (leaf) merepresentasikan kelompok kelas
tertentu. Level node teratas dari sebuah Decision Tree adalah node akar (root)
yang biasanya berupa atribut yang paling memiliki pengaruh terbesar pada suatu
kelas tertentu. Pada umumnya Decision Tree melakukan strategi pencarian
secara top-down untuk solusinya. Pada proses mengklasifikasi data yang tidak
diketahui, nilai atribut akan diuji dengan cara melacak jalur dari node akar (root)
sampai node akhir (daun) dan kemudian akan diprediksi kelas yang dimiliki oleh
suatu data baru tertentu.Secara singkat bahwa Decision Tree merupakan salah
satu metode klasifikasi pada Text Mining. Klasifikasi adalah proses menemukan
kumpulan pola atau fungsi-fungsi yang mendeskripsikan dan memisahkan kelas
data satu dengan lainnya, untuk dapat digunakan untuk memprediksi data yang
belum memiliki kelas data tertentu (Jianwei Han, 2001).
2.1.4 Naïve Bayes
Teorema Bayes dikemukakan oleh seorang pendeta presbyterian Inggris pada
tahun 1763 yang bernama Thomas Bayes. Teorema Bayes digunakan untuk
menghitung probabilitas terjadinya suatu peristiwa berdasarkan pengaruh yang
didapat dari hasil observasi.Algoritma bayes mempelajari kejadian-kejadian dari

rekaman database dengan cara memperhitungkan korelasi antara variabel yang
dianalisa dengan variabel-variabel lainnya. Hasilnya adalah kita dapat
memprediksi sesuatu, misalnya apakah seseorang berasal dari golongan tertentu
berdasarkan variabel-variabel yang melekat padanya. Selain itu, naive bayes
dapat juga menganalisa variabel-variabel yang paling mempengaruhinya dalam
bentuk peluang. (Olson Delen, 2008)
2.2 KAJIAN INDUKTIF
Menurut penelitian yang dilakukan oleh Muhammad Rido Hidayatyah
(2013) dalam penelitiannya yang berjudul “Penerapan Metode Decision Tree
Dalam Pemberian Pinjaman Kepada Debitur Dengan Algoritma C4.5”,
menjelaskan bahwa tingginya Persentase Bank Perkreditan Rakyat di
Indonesia yang menyandang status kurang sehat maupun tidak sehat yang
disebabkan oleh kredit macet sebagai faktor utama. Oleh karena itu BPRS
Berkah Dana Fadilah harus memiliki manajemen data yang baik untuk
menggali informasi yang ada dari data yang dimiliki bank untuk melihat

faktor-faktor yang mempeengaruhi kelancaran kredit dan penilaiaan para
nasabah dalam pemberian kredit dimasa yang akan datang apakah beresiko
atau tidak, yang selama ini belum diterapkan oleh BPRS Berkah Dana
Fadillah. Decission Tree dengan Algoritma C4.5 adalah metode yang akan

diimplementasikan untuk menggali informasi potensial dalam menentukan
resiko kredit nasabah berdasarkan kriteria Sandi BI, Tujuan Pembiayaan,
Aktiva , Pasiva, Nilai Jaminan, dan Pendapatan dalam bentuk aturan dengan
melihat riwayat kredit nasabah yang ada. Dari penelitian yang telah dilakukan
pada 300 data nasabah dengan akurasi pengujian rule yang dihasilkan rata-rata
diatas 50% serta tertinggi adalah 76.67% dengan jumlah aturan yang diperoleh
adalah 30 buah aturan Model atau Aturan klasifikasi, aturan yang mengandung
kelas aman sebanyak 19 aturan dan Beresiko sebanyak 11 aturan. Sehingga
dengan tingginya tingkat akurasi dapat disimpulkan bahwa algoritma C4.5
memliki kinerja yang cukup baik dalam membentuk Rule.
Menurut penelitian yang dilakukan Suwanto Raharjo dan Edi Winarko
(2014) dalam penelitiannya yang berjudul “Klasterisasi, Klasifikasi dan
Peringkasan Teks Berbahasa Indonesia”, menjelaskan tentang studi pustaka
penelitian di bidang klasterisasi dan klasifikasi dokumen teks berbahasa
Indonesia menunjukan bahwa penelitian bidang pemrosesan dokumen telah
dimulai pada tahun 2000. Terdapat berbagai metode data mining untuk
melakukan pengelompokan dokumen digunakan seperti single pass filtering,
Naive Bayes, Hirarki dan metode lainnya. Penelitian ini akan melakukan
survei paper penelitian data mining teks berbahasa Indonesia. Dari paper yang
didapatkan terlihat bahwa sebagian besar topik penelitian data mining

bertujuan adalah untuk melakukan pengelompokan suatu berita baik online
maupun cetak berdasar atas acuan tertentu, penelitian lain ditujukanuntuk
mengolah teks di media sosial seperti twitter. Artikel ini akan memperlihatkan
metode

yang

digunakan

dan

tujuan

dari

paper

dalam

bidang


klasterisasi,klasifikasi danperingakasan dokumen berbahasa Indonesia.
2.3 Metode Penelitian
Dalam penelitian ini menggunakan metode deskriptif . Dimana
penelitian ini bertujuan untuk memecahkan fenomena (masalah) yang ada pada

saat ini, pada penelitian ini kasus yang diambil adalah kesiapan siswa dalam
menghadapi ujian nasional. Metode deskriptif mempunyai ciri-ciri sebagai
berikut :
a. Berpusat pada penyelesaian masalah pada masa sekarang, dan pada masalah
yang aktual.
b. Data yang terkumpul terlebih dulu disusun, dijelaskan dan dianalisa karena
metode ini sering disebut metode analitik.
2.4 Desain Penelitian
Dalam penelitian ini penulis menggunakan model standarisasi data mining yaitu
CRISP-DM (Cross Industry Standart Process for Data Mining), dengan langkahlangkah sebagai berikut:
2.3.1 Pemahaman Data
(Data Understanding) Data yang digunakan dalam penelitian ini adalah sumber
data primer.Data diperoleh dari lembaga kursus SMK Negeri 1 Dukuturi
Semarang. Data yang dikumpulkan yaitu data nilai tryOut siswa.

2.3.2 Pengolahan Data
(Data Preparation)
a. Tahap Pertama, penentuan data yang akan diolah. Dari data yang telah
diperoleh, tidak semua data akan diolah karena penelitian yang akan dilakukan
memiliki batasan-batasan data yang akan digunakan.
b. Tahap Kedua, penanganan data missing value. Missing value adalah data yang
tidak lengkap dikarenakan attribut tidak tercatat maupun attribut memang tidak
dimiliki dsb. Penanganan missing value dilakukan dengan penghapusan record
yang kosong.
c. Tahap Ketiga, menentukan atribut yang akan digunakan dari tahap pertama.
Atribut yang akan digunakan adalah nama, nilai tryout yangn meliputi : nilai
bahasa indonesia, nilai bahasa inggris, nilai matematika, nilai IPA, total nilai,
rata-rata, Pramitya Lilimadani 45.
d. Tahap Keempat, melakukan konversi data. Data dengan atribut yang telah
dipilih kemudian dikonversikan untuk memudahkan proses data mining pada
sebagian atribut, karena data akan diproses dengan tools bantu data mining.

2.3.3 Pemodelan (Modelling)
Metode yang akan digunakan dalam penelitian ini adalah Algoritma Naive
Bayes Classification untuk melakukan pengukuran akurasi dalam penelitian ini

akan menggunakan tools Rapid Miner. Brikut adalah gambaran pemodelan
penelitian:

Gambar 3.1 : Model penelitian yang diusulkan
2.3.4 Evaluasi (Evaluation)
Dalam tahapan ini akan dilakukan validasi serta pengukuran keakuratan hasil
yang dicapai oleh model menggunakan frameworkRapidMiner yaitu Confusion
Matrix untuk pengukuran tingkatakurasi model.

BAB III
METODE PENELITIAN
3.1 OBJEK PENELITIAN
3.2 METODE PENGUMPULAN DATA
Berikut ini adalah metode pengumpulan data dalam penelitian ini
3.2.1 Studi Literatur
Pengumpulan data dilakukan dengan cara mempelajari, meneliti dan
menelaah berbagai literatur yang bersumber dari buku, situs internet,
jurnal ilmiah, dan sumber – sumber lainnya yang berkaitan dengan
penelitian yang dilakukan.
3.2.2 Package
Data penelitian diambil dari salah satu package Rgui
3.3 JENIS DATA
Konsep Data Dalam Decision Tree
• Data dinyatakan dalam bentuk tabel dengan atribut dan record.
• Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam
pembentukan tree. Misalkan untuk menentukan main tenis, kriteria yang
diperhatikan adalah cuaca, angin dan temperatur. Salah satu atribut merupakan
atribut yang menyatakan data solusi per-item data yang disebut dengan target
atribut.
• Atribut memiliki nilai-nilai yang dinamakan dengan instance. Misalkan
atribut cuaca mempunyai instance berupa cerah, berawan dan hujan.

BAB IV
HASIL DAN PEMBAHASAN
4.1

IMPLEMENTASI
Instal package yang dibutuhkan pada R console
Install.package(“party”)
Setelah menginstall package yang dibutuhkan kemudian jalankan librarynya
library(party)

Gambar 4.1 R console setelah menginstall package dan menjalankan library
Selanjutnya jalankan perintah demi perintah script ke dalam R comsole
# Print some records from data set readingSkills.
print(head(readingSkills))
# Create the input data frame.
input.dat