EVALUASI DISTRIBUSI HASIL SELEKSI PPDB SMA NEGERI DI KOTA SURAKARTA Evaluasi Distribusi Hasil Seleksi PPDB SMA Negeri Di Kota Surakarta Menggunakan Metode Decision Tree.

EVALUASI DISTRIBUSI HASIL SELEKSI
PPDB SMA NEGERI DI KOTA SURAKARTA
MENGGUNAKAN METODE DECISION TREE
NASKAH PUBLIKASI

PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS KOMUNIKASI DAN INFORMATIKA

Diajukan oleh :

Aziz Ridha Utama
Nurgiyatna, M.Sc, Ph.D

PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS KOMUNIKASI DAN INFORMATIKA
UNIVERSITAS MUHAMMADIYAH SURAKARTA

JULI 2014

EVALUASI DISTRIBUSI HASIL SELEKSI
PPDB SMA NEGERI DI KOTA SURAKARTA

MENGGUNAKAN METODE DECISION TREE
Aziz Ridha Utama, Nurgiyatna
Teknik Informatika, Fakultas Komunikasi dan Informatika,
Universitas Muhammadiyah Surakarta
Email : [email protected]
Pesatnya perkembangan teknologi informasi mampu membuat sebuah sistem informasi
dapat menyimpan berbagai jenis data dalam jumlah besar. Jika sistem informasi tersebut
bersifat penting dalam menunjang suatu kegiatan maka data - data yang tersimpan pada
sistem tersebut juga bersifat penting. Apabila data - data yang ada tersedia dalam jumlah
besar maka data tersebut dapat dimanfaatkan untuk membentuk suatu informasi yang
memiliki nilai guna bagi pemilik sistem informasi tersebut. Salah satu contohnya adalah
banyaknya data hasil seleksi Penerimaan Peserta Didik Baru (PPDB) tingkat SMA Negeri di
Kota Surakarta yang dimiliki oleh Dinas Pendidikan Pemuda dan Olahraga Kota Surakarta.
Cara mengatasi permasalahan pembentukan informasi dari kumpulan data tersebut dengan
cara menarapkan proses data mining. Adapun metode yang dipakai pada proses data mining
untuk menganalisa penelitian ini adalah metode decision tree dengan algoritma ID3. Pada
penerapan algoritma ID3 ini diperlukan perhitungan nilai entrophy dan information gain dari
tiap atribut yang ada dalam data training. Data hasil seleksi PPDB tingkat SMA Negeri di
Kota Surakarta digunakan sebagai data training. Berdasarkan analisa dari data training yang
ada menunjukkan bahwa adanya suatu atribut yang mempunyai dominasi cukup tinggi

terhadap hasil seleksi PPDB tersebut, atribut tersebut adalah atribut akumulasi nilai mata
pelajaran ujuan akhir nasional tingkat SMP. Kemudian ketepatan dalam penerapan proses
data mining dengan metode decision tree algoritma ID3 juga berdasarkan seberapa banyak
data yang digunakan sebagai data training.
Kata Kunci : Data Mining, Decision tree, Algoritma ID3, Data Training, Entrophy,
Information Gain
PENDAHULUAN
Pesatnya perkembangan teknologi

data tersebut dapat dimanfaatkan untuk
membentuk

suatu

informasi

yang

informasi pada masa sekarang ini, mampu


memiliki nilai guna bagi pemilik sistem

membuat sebuah sistem informasi dapat

informasi

menyimpan bebagai jenis data dalam

pentingnya knowledge atau pengetahuan

jumlah besar. Jika sistem informasi yang

tehadap

menyimpan data dalam jumlah besar

informasi yang memiliki nilai guna

tersebut bersifat penting maka data - data


sebagai bagian dari proses pemanfaatan

yang ada pada sistem informasi tersebut

data dalam jumlah besar maka mendorong

juga bersifat penting. Apabila data - data

munculnya suatu cabang ilmu baru untuk

tersebut tersedia dalam jumlah besar maka

mengatasi permasalahan tersebut, suatu

tersebut.

suatu

Berdasarkan


pembentukan

pola

cabang ilmu yang biasa disebut ilmu data

yang memiliki nilai guna bagi Dinas

mining.

Pendidikan Pemuda dan Olahraga Kota

Salah satu metode yang digunakan
dalam

data

adalah

mining


metode

decision tree, Decision tree adalah suatu

Surakarta

terkhusus

pada

Dinas

tersebut

maka

Pendidikan.
Berdasarkan


hal

metode yang menggunakan representasi

peneliti

mengangkat

judul

“Evaluasi

model struktur pohon (tree) dimana setiap

Distribusi Hasil Seleksi PPDB SMA

simpulnya (node) merupakan representasi

Negeri di Kota Surakarta Menggunakan


dari atribut, cabangnya (edge) merupakan

Metode Decision Tree”.

representasi dari nilai yang ada pada
atribut, dan daunnya (leaf) merupakan

LANDASAN TEORI

representasi dari kelas target.

1. Data Mining

Salah

satu

contoh

Data mining, sering juga disebut


penerapan

kemajuan teknologi informasi tersebut

dalam

adalah

knowledge

dengan

adanya

suatu

sistem

suatu


istilah

discovery

lain

sebagai

in

database

penerimaan peserta didik baru online

(KDD).

(PPDB Online) adalah suatu sistem

database adalah suatu kegiatan yang


informasi

meliputi aspek pengumpulan data,

yang

berhubungan

dengan

Knowledge

discovery

in

penyeleksian penerimaan peserta didik

pemakaian

baru tingkat SMP/MTs dan SMA/MA

menemukan keteraturan dari suatu pola

secara transparan dan real time berbasis

atau

pada perkembangan teknologi informasi.

berukuran besar (Santoso, 2007).

Sistem ini merupakan sistem yang berada
pada

suatu

jaringan

sehingga

dapat

diakses melalui sms maupun internet.

data,

hubungan

historis

dalam

untuk

set

data

2. Pohon Keputusan (Decision Tree)
Decision tree merupakan salah

satu metode dalam data mining dengan

Pada sistem tersebut menyimpan

menggunakan representasi dari tree

berbagai data yang berhubungan dengan

atau struktur pohon. Dimana setiap

hasil seleksi penerimaan peserta didik

simpulnya

baru tingkat SMP/MTs dan SMA/MA.

representasi dari

Dengan

data

(edge) merupakan representasi dari

mining pada data hasil seleksi PPDB

nilai yang ada pada atribut, dan

tingkat SMA Negeri di Kota Surakarta,

daunnya (leaf) merupakan representasi

analisa data mining tersebut nantinya

dari kelas target.

mengimplementasikan

dapat digunakan sebagai suatu informasi

(node)

merupakan

atribut, cabangnya

3. Algoritma ID3

A adalah atribut yang ada pada data
(Iterative

training, V adalah suatu nilai yang

Dichotomiser Three) adalah salah satu

mungkin untuk atribut A, Values (A)

algoritma pembentuk struktur pohon

adalah himpunan yang mungkin antuk

keputusan (decision tree). Algoritma

atribut A, |Si| adalah jumlah sample

ID3 ini dikembangkan oleh seorang

untuk nilai V, |S| adalah jumlah seluruh

tokoh yang bernama J. Ross Quinlan.

sample data yang digunakan sebagai

Algoritma ID3 ini membangun pohon

data training, dan Entrophy(Si) adalah

keputusan (decision tree) secra top -

nilai entrophy untuk sample - sample

down (atas - bawah). Algoritma ID3 ini

yang memiliki nilai V.

Algoritma

ID3

menggunakan konsep perhitungan dari
nilai entrophy dan nilai information

METODOLOGI PENELITIAN

gain.

1. Identifikasi Masalah
Langkah

Rumus untuk perhitungan dari

awal

dari

proses

pencarian nilai entrophy ditunjukkan

penelitian ini adalah mencari referensi

dalam persamaan matematis sebagai

- referensi dan hasil - hasil penelitian

berikut :

yang membahas tentang data mining
metode decision tree dengan algoritma

Dimana :

ID3.

S merupakan ruang (data) sample yang

digunakan sebagai bahan pertimbangan

digunakan sebagai data training, P+

pembelajaran,

merupakan jumlah data yang bersolusi

keputusan

positif (mendukung) pada data sample

penelitian

untuk

distribusi hasil seleksi PPDB tingkat

kriteria

tertentu,

dan

P-

Hasil

pencarian

dan
dalam

tentang

tersebut

pengambilan
melaksanakan
proses

evaluasi

merupakan jumlah data yang bersolusi

SMA

negatif (tidak mendukung) pada data

menggunakan metode decision tree

sample untuk kriteria tertentu.

karena memang belum ada yang

Negeri

di

Kota

Surakarta

Rumus untuk perhitungan dari

melakukan penelitian yang berkaitan

pencarian suatu nilai information gain

dengan permasalahan tersebut. Juga

dari suatu atribut A ditunjukkan dalam

terjadinya penumpukan data - data

persamaan matematis sebagai berikut :

hasil seleksi PPDB tingkat SMA
Negeri

Dimana :

yang

bertambah.

tiap

tahunnya

terus

pada penelitian ini, atribut tersebut

2. Penentuan Atribut Dominan
Atribut

dominan

merupakan

adalah asal peserta didik baru, gender

atribut dari kriteria calon pendaftar

peserta didik baru, prestasi

yang sering diutamakan dalam proses

dimiliki peserta didik baru, total

analisa. Atribut tersebut berisi data -

akumulasi nilai mata pelajaran UAN

data yang sangat vital dalam proses

tingkat SMP, dan sekolah SMA Negeri

pembentukkan decision tree.

hasil

Dalam

studi

kasus

evaluasi

distribusi hasil seleksi PPDB tingkat
SMA

Negeri

di

Kota

seleksi

penentuan

PPDB.

atribut

yang

Gambaran

dominan

dapat

dilihat pada Tabel 1.

Surakarta

menggunakan metode decision tree,
ada 5 atribut dominan yang dipakai
Tabel 1. Penentuan Atribut dari Hasil PPDB
Variabel
Attribut
X1
Asal
X2
X3

X4

Y

Objek
Dalam kota
Luar kota
Gender
Laki - laki
Perempuan
Prestasi
DL dan prestasi yang
memiliki Nilai
Prestasi = 0
Nilai_Mapel Nilai mapel > 37,5
35 < Nilai mapel < = 37,5
Nilai mapel < = 35
Hasil_PPDB SMAN_1
SMAN_3
SMAN_4

Kategori
DK
LK
L
P
Ada
Tidak
Range1
Range2
Range3
SMAN_1
SMAN_3
SMAN_4

3. Penentuan Sample Data
Untuk

mendapatkan

jumlah

sample data yang diperlukan dalam

Dimana :

penelitian ini dengan menggunakan

n adalah ukuran jumlah sample data

rumus persamaan slovin seperti yang

yang dibutuhkan, N adalah ukuran atau

tertulis dalam rumus persamaan berikut

jumlah populasi keseluruhan data yang

ini.

ada, e adalah persentase toleransi dari

ketidaktelitian

data

sample

yang

dibutuhkan.

kesalahan sample data dari data jumlah
peserta didik baru tersebut adalah 5%.
Maka

jumlah

sample

data

yang

diperlukan yaitu :
4. Penentuan Metode
Metode yang digunakan dalam
peneltian ini adalah metode decision

n = 1218 / ( 1 + ( 1218 x ( 0,05 )2 )

tree dengan algoritma ID3 sebagai

n = 1218 / ( 1 + ( 1218 + 0,0025 ) )

suatu

n = 1218 / ( 1 + 3,045 )

metode

dalam

membangun

struktur pohon dari hasil seleksi PPDB

n = 1218 / 4.045

tingkat SMA Negeri di Kota Surakarta.

n = 301,1125 pesertra didik baru

menggunakan

Jadi jika dibulatkn menjadi 301 peserta

konsep pencarian perhitungan nilai

didik baru yang digunakan sebagai

entrophy dan nilai information gain.

bahan sample data.

Algoritma

ID3

ini

2. Pengolahan Data
HASIL DAN PEMBAHASAN
1. Penentuan Sample Data

Pada

tahap

pengolahan

data

dimaksudkan untuk menyusun suatu

Apabila diketahui jumlah peserta

kumpulan sample data seperti pada

didik baru hasil seleksi PPDB tingkat

Gambar 1 dibawah menjadi sebuah

SMA Negeri terkhusus SMA Negeri 1

kumpulan data training seperti pada

Surakarta, SMA Negeri 3 Surakarta,

Gambar 2 dibawah, sesuai dengan

dan SMA Negeri 4 Surakarta memiliki

aturan

jumlah peserta didik baru sebanyak

sehingga memudahkan data untuk

1218

dianalisa.

dan

untuk

ketoleransian

penentuan

atribut

dominan

Gambar 1. Sample Data Hasil Seleksi PPDB

Gambar 2. Data Training Hasil Seleksi PPDB

yang memaparkan tentang ilustrasi

3. Implementasi dalam Rapid Miner
Data training hasil seleksi PPDB

tingkat

SMA

Negeri

yang

telah

catatan seluruh data dari data training
yang

tersimpan

pada

media

tersimpan pada media penyimpanan

penyimpanan repository rapid miner .

repository rapid miner dapat dilihat

Tampilan visual data view dari data

dalam bentuk tampilan visual data

tarining hasil seleksi PPDB tingkat

view yang disediakan oleh rapid miner .

SMA

Data view adalah suatu tampilan visual

Gambar 3.

Negeri

dapat

dilihat

pada

Gambar 3. Tampilan Visual Data View dari Data Training Hasil Seleksi PPDB
Hasil penyimpanan dari data
training hasil seleksi PPDB

dari seluruh data yang menjadi data

tingkat

training yang telah tersimpan pada

SMA Negeri juga dapat dilihat dalam

media penyimpanan repository rapid

bentuk tampilan visual meta data view

miner . Tampilan visual meta data view

yang disediakan oleh rapid miner .

dari data training hasil seleksi PPDB

Meta data view adalah tampilan visual

tingkat SMA Negeri dapat dilihat pada

yang mengilustrasikan ringkasan data

Gambar 4.

Gambar 4. Tampilan Visual Meta Data View dari Data Training Hasil Seleksi PPDB

Hasil penyimpanan dari data

secara scatter , histogram, pie maupun

training hasil seleksi PPDB tingkat

model penggambaran lainnya untuk

SMA Negeri juga dapat dilihat dalam

dapat dilihat sebaran distribusi data

bentuk tampilan visual plot view. Pada

berdasarkan pada setiap atribut yang

tampilan visual plot view disediakan

ada dimiliki oleh data training hasil

model

seleksi PPDB tingkat SMA Negeri.

penggambaran

plotter

data

Tampilan visual plot view model

PPDB tingkat SMA Negeri dapat

scatter dari data training hasil seleksi

dilihat pada Gambar 5.

Gambar 5. Tampilan Visual Plot View dari Data Training Hasil Seleksi PPDB

Berdasarkan tampilan visual plot

Pohon keputusan (decision tree)

view model scatter pada Gambar 5

dari data training hasil seleksi PPDB

dapat dilihat bahwa asal peserta didik

tingkat

baru yang berasal dari dalam kota baik

terinputkan dan telah dianalisa dengan

yang memiliki prestasi maupun tidak

algoritma

memiliki prestasi lebih mendominasi

ditampilkan dalam bentuk tampilan

data pada data training hasil seleksi

visual graph view. Tampilan visual

PPDB

Negeri

graph view menampilkan decision tree

dibandingkan dengan asal peserta didik

(struktur pohon keputusan) dari data

baru yang berasal dari luar kota baik

training hasil seleksi PPDB tingkat

yang memiliki prestasi maupun tidak

SMA

memiliki prestasi.

Gambar 6.

tingkat

SMA

SMA

ID3

Negeri

Negeri

yang

pada rapid

dapat

dilihat

telah

miner

pada

Gambar 6. Graph View Decision Tree dari Data Training Hasil Seleksi PPDB

Pada rapid miner , decision tree

suatu tulisan aturan yang merupakan

dari data training hasil seleksi PPDB

representasi dari decision tree yang ada

tingkat SMA Negeri juga dapat dilihat

pada graph view. Tampilan visual text

dalam bentuk tampilan visual text view.

view decision tree dari data training

Pada

hasil seleksi PPDB tingkat SMA

tampilan

visual

text

view,

decision tree akan dipecah kedalam

Negeri bisa dilihat pada Gambar 7.

Gambar 7. Text View Decision Tree dari Data Training Hasil Seleksi PPDB
Berdasarkan

visual

tingkat SMA Negeri tersebut apabila

graph view dan text view yang telah

ditulis kedalam bentuk suatu tabel

diperoleh dari software rapid miner ,

aturan, maka diperoleh tabel aturan

hasil seleksi PPDB

dari decision tree hasil seleksi PPDB

decision

tree

tampilan

tingkat SMA Negeri yang diterangkan

seperti pada Tabel 2.

Tabel 2. Tabel Aturan dari Decision Tree Hasil Seleksi PPDB
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

Kondisi 1
Range1
Range1
Range1
Range1
Range1
Range1
Range2
Range2
Range2
Range2
Range2
Range2
Range2
Range2
Range3
Range3
Range3
Range3
Range3

Kondisi 2
Ada
Ada
Tidak
Tidak
Tidak
Tidak
Dalam kota
Dalam kota
Dalam kota
Dalam kota
Luar kota
Luar kota
Luar kota
Luar kota
Ada
Ada
Ada
Tidak
Tidak

Berdasarkan Tabel 2 apabila

Kondisi 3
Laki – laki
Perempuan
Laki – laki
Laki – laki
Perempuan
Perempuan
Ada
Ada
Tidak
Tidak
Ada
Ada
Tidak
Tidak
Laki – laki
Perempuan
Perempuan
Dalam kota
Dalam kota

Kondisi 4
Luar kota
Dalam kota
Luar kota
Dalam kota
Luar kota
Laki – laki
Perempuan
Laki – laki
Perempuan
Laki – laki
Perempuan
Laki – laki
Perempuan
Dalam kota
Dalam kota
Luar kota
Laki – laki
Perempuan
Dalam

Target
SMAN 1
SMAN 1
SMAN 4
SMAN 4
SMAN 4
SMAN 4
SMAN 4
SMAN 1
SMAN 4
SMAN 4
SMAN 4
SMAN 4
SMAN 4
SMAN 4
SMAN 4
SMAN 4
SMAN 4
SMAN 3
SMAN 3

melakukan

evaluasi

salah satu aturan dari tabel aturan

distribusi hasil seleksi PPDB tingkat

tersebut dalam aturan If - Then seperti

SMA Negeri menggunakan metode

contoh aturan nomor 1 maka aturan

decision tree, penentuan kelas target

tersebut akan ditulis dengan kalimat

dan pembagian objek nilai dari tiap

sebagai berikut “If Akumulasi nilai

atribut pada data

mata pelajaran UAN SMP peserta

menentukan tingkat akurasi tree yang

didik baru berada dikisaran lebih dari

dibuat. Besar persentase kebenaran

37,5 (Range1) and peserta didik baru

dari suatu struktur pohon (tree) sangat

memiliki prestasi and peserta didik

dipengaruhi oleh seberapa banyak data

baru bergender laki - laki and peserta

yang digunakan sebagai bagian dari

didik baru berasal dari luar kota Then

data training.

memiliki

kecenderungan

mendaftar

pada SMA Negeri 1 Surakarta”.

training

sangat

karena atribut tersebut menjadi root

KESIMPULAN
dengan

node (simpul akar) dari struktur pohon

menggunakan data hasil seleksi PPDB

keputusan (decision tree) dan atribut

tingkat SMA Negeri di Kota Surakarta

tersebut memiliki nilai information

sebagai data training yang kemudian

gain terbesar pada saat penentuan root

dilakukan proses analisa dalam kaitannya

node.

Berdasarkan

dengan

proses

penelitian

analisa

pembentukan

struktur pohon keputusan (decision tree)
maka dapat ditarik kesimpulan bahwa :
1. Implementasi data

mining

metode

SARAN
Berdasarkan dari kesimpulan yang
telah diperoleh maka dapat diberikan

decision tree dapat dilakukan, baik

saran sebagai berikut :

dengan analisa perhitungan manual

1. Data hasil seleksi PPDB sebaiknya

algoritma ID3 dengan bersumber pada

dikelola dan disimpan dengan baik

penentuan

nilai

karen

information

gain

entrophy

maupun

dan
analisa

dengan penerapan algoritma ID3 yang
telah

disediakan

modulnya

pada

dapat

memberikan

manfaat

dalam pembentukan decision tree.
2. Perlu adanya penelitian yang lebih
lanjut dalam rangka mengembangkan
pencarian informasi yang lebih banyak

software rapid miner .
2. Implementasi data mining metode

dan mendalam mengenai hasil seleksi

decision tree pada data training hasil

PPDB berdasarkan atribut lain yang

seleksi PPDB tingkat SMA Negeri di

belum dimanfaatkan pada proses data

Kota Surakarta menghasilkan adanya

mining metode decision tree algoritma

salah satu atribut yang mempunyai

ID3 dalam penelitian ini sepertia nilai

peran

atau

masing - masing mata pelajaran ujian

dalam

akhir nasional (UAN) tingkat sekolah

dominasi

paling

berpengaruh

paling

pembentukan

tinggi

pohon

keputusan

(decision tree), atribut tersebut adalah
atribut nilai mapel (akumulasi nilai
mata pelajaran UAN tingkat SMP)

menengah pertama (SMP).

DAFTAR PUSTAKA

Santosa, Budi (2007). Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis.
Yogyakarta : Penerbit Graha Ilmu.

Kusrini, dan Emha Taufik (2009). Algoritma Data Mining. Yogyakarta : Penerbit Andi.

Sunjana (2010). Aplikasi Mining Data Mahasiswa Dengan metode Klasifikasi Decision Tree .
Yogyakarta : Seminar Nasional Aplikasi Teknologi Informasi. ISSN : 1907 – 5022
Seran, Krisantus Jumarto Tey (2013). Analisis dan Usulan Solusi Sistem Pendukung
Keputusan Penentuan Beasiswa Menggunakan Algoritma ID3 . Strata 2 Thesis.

Yogyakarta : Universitas Atma Jaya Yogyakarta.

Dalimunthe, Amirhud (2012). Implementasi Data Mining Classification dengan Metode
Decision Tree (Menggunakan Algoritma ID3 dan C.45). Strata 1 Skripsi. Medan :

Universitas Negeri Medan.

Elmande, Widodo (2012). Pemilihan Criteria Splitting Algoritma Iterative Dichotomiser 3
(ID3) untuk Penentuan Kualitas Beras : Studi Kasus Pada Perum Bulog Divre
Kampung. Lampung : JURNAL TELEMATIKA MKOM Vol. 4 No. 1, Maret 2012

ISSN : 2085 - 725X

Safii, M (2011). Penetapan Strategi Pemasaran dengan Pendekatan Model Aturan Pohon
Keputusan Menggunakan Algoritma Iterative Dichotomiser 3 (ID3) di Perguruan
Tinggi Swasta . Strata 2 Thesis. Medan : Universitas Sumatera Utara.

Utami, Winda Pangesti (2012). Penerapan Algoritma Iterative Dichotomiser Three untuk
Pemilihan Dosen Pembimbing (Studi Kasus : FTI UKSW). Strata 1 Skripsi.

Salatiga : Universitas Kristen Satya Wacana.

BIODATA PENULIS

Nama

:

Aziz Ridha Utama

Tempat, Tanggal Lahir

:

Surakarta, 7 November 1991

Jenis Kelamin

:

Laki - laki

Agama

:

Islam

Jurusan

:

Teknik Informatika

Perguruan

:

Universitas Muhammadiyah Surakarta

Alamat

:

Jl. A. Yani Tromol Pos 1, Pabelan, Kartasura

Telp / Fax

:

(0271) 717417, 719483 / (0271) 714448

Alamat Rumah

:

Sekip Rt 01 Rw 23, Kadipiro, Banjarsari, Surakarta
Kode Pos : 57136

No. HP

:

+6281802912200

Alamat E - mail

:

[email protected]