EVALUASI DISTRIBUSI HASIL SELEKSI PPDB SMA NEGERI DI KOTA SURAKARTA Evaluasi Distribusi Hasil Seleksi PPDB SMA Negeri Di Kota Surakarta Menggunakan Metode Decision Tree.
EVALUASI DISTRIBUSI HASIL SELEKSI
PPDB SMA NEGERI DI KOTA SURAKARTA
MENGGUNAKAN METODE DECISION TREE
NASKAH PUBLIKASI
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS KOMUNIKASI DAN INFORMATIKA
Diajukan oleh :
Aziz Ridha Utama
Nurgiyatna, M.Sc, Ph.D
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS KOMUNIKASI DAN INFORMATIKA
UNIVERSITAS MUHAMMADIYAH SURAKARTA
JULI 2014
EVALUASI DISTRIBUSI HASIL SELEKSI
PPDB SMA NEGERI DI KOTA SURAKARTA
MENGGUNAKAN METODE DECISION TREE
Aziz Ridha Utama, Nurgiyatna
Teknik Informatika, Fakultas Komunikasi dan Informatika,
Universitas Muhammadiyah Surakarta
Email : [email protected]
Pesatnya perkembangan teknologi informasi mampu membuat sebuah sistem informasi
dapat menyimpan berbagai jenis data dalam jumlah besar. Jika sistem informasi tersebut
bersifat penting dalam menunjang suatu kegiatan maka data - data yang tersimpan pada
sistem tersebut juga bersifat penting. Apabila data - data yang ada tersedia dalam jumlah
besar maka data tersebut dapat dimanfaatkan untuk membentuk suatu informasi yang
memiliki nilai guna bagi pemilik sistem informasi tersebut. Salah satu contohnya adalah
banyaknya data hasil seleksi Penerimaan Peserta Didik Baru (PPDB) tingkat SMA Negeri di
Kota Surakarta yang dimiliki oleh Dinas Pendidikan Pemuda dan Olahraga Kota Surakarta.
Cara mengatasi permasalahan pembentukan informasi dari kumpulan data tersebut dengan
cara menarapkan proses data mining. Adapun metode yang dipakai pada proses data mining
untuk menganalisa penelitian ini adalah metode decision tree dengan algoritma ID3. Pada
penerapan algoritma ID3 ini diperlukan perhitungan nilai entrophy dan information gain dari
tiap atribut yang ada dalam data training. Data hasil seleksi PPDB tingkat SMA Negeri di
Kota Surakarta digunakan sebagai data training. Berdasarkan analisa dari data training yang
ada menunjukkan bahwa adanya suatu atribut yang mempunyai dominasi cukup tinggi
terhadap hasil seleksi PPDB tersebut, atribut tersebut adalah atribut akumulasi nilai mata
pelajaran ujuan akhir nasional tingkat SMP. Kemudian ketepatan dalam penerapan proses
data mining dengan metode decision tree algoritma ID3 juga berdasarkan seberapa banyak
data yang digunakan sebagai data training.
Kata Kunci : Data Mining, Decision tree, Algoritma ID3, Data Training, Entrophy,
Information Gain
PENDAHULUAN
Pesatnya perkembangan teknologi
data tersebut dapat dimanfaatkan untuk
membentuk
suatu
informasi
yang
informasi pada masa sekarang ini, mampu
memiliki nilai guna bagi pemilik sistem
membuat sebuah sistem informasi dapat
informasi
menyimpan bebagai jenis data dalam
pentingnya knowledge atau pengetahuan
jumlah besar. Jika sistem informasi yang
tehadap
menyimpan data dalam jumlah besar
informasi yang memiliki nilai guna
tersebut bersifat penting maka data - data
sebagai bagian dari proses pemanfaatan
yang ada pada sistem informasi tersebut
data dalam jumlah besar maka mendorong
juga bersifat penting. Apabila data - data
munculnya suatu cabang ilmu baru untuk
tersebut tersedia dalam jumlah besar maka
mengatasi permasalahan tersebut, suatu
tersebut.
suatu
Berdasarkan
pembentukan
pola
cabang ilmu yang biasa disebut ilmu data
yang memiliki nilai guna bagi Dinas
mining.
Pendidikan Pemuda dan Olahraga Kota
Salah satu metode yang digunakan
dalam
data
adalah
mining
metode
decision tree, Decision tree adalah suatu
Surakarta
terkhusus
pada
Dinas
tersebut
maka
Pendidikan.
Berdasarkan
hal
metode yang menggunakan representasi
peneliti
mengangkat
judul
“Evaluasi
model struktur pohon (tree) dimana setiap
Distribusi Hasil Seleksi PPDB SMA
simpulnya (node) merupakan representasi
Negeri di Kota Surakarta Menggunakan
dari atribut, cabangnya (edge) merupakan
Metode Decision Tree”.
representasi dari nilai yang ada pada
atribut, dan daunnya (leaf) merupakan
LANDASAN TEORI
representasi dari kelas target.
1. Data Mining
Salah
satu
contoh
Data mining, sering juga disebut
penerapan
kemajuan teknologi informasi tersebut
dalam
adalah
knowledge
dengan
adanya
suatu
sistem
suatu
istilah
discovery
lain
sebagai
in
database
penerimaan peserta didik baru online
(KDD).
(PPDB Online) adalah suatu sistem
database adalah suatu kegiatan yang
informasi
meliputi aspek pengumpulan data,
yang
berhubungan
dengan
Knowledge
discovery
in
penyeleksian penerimaan peserta didik
pemakaian
baru tingkat SMP/MTs dan SMA/MA
menemukan keteraturan dari suatu pola
secara transparan dan real time berbasis
atau
pada perkembangan teknologi informasi.
berukuran besar (Santoso, 2007).
Sistem ini merupakan sistem yang berada
pada
suatu
jaringan
sehingga
dapat
diakses melalui sms maupun internet.
data,
hubungan
historis
dalam
untuk
set
data
2. Pohon Keputusan (Decision Tree)
Decision tree merupakan salah
satu metode dalam data mining dengan
Pada sistem tersebut menyimpan
menggunakan representasi dari tree
berbagai data yang berhubungan dengan
atau struktur pohon. Dimana setiap
hasil seleksi penerimaan peserta didik
simpulnya
baru tingkat SMP/MTs dan SMA/MA.
representasi dari
Dengan
data
(edge) merupakan representasi dari
mining pada data hasil seleksi PPDB
nilai yang ada pada atribut, dan
tingkat SMA Negeri di Kota Surakarta,
daunnya (leaf) merupakan representasi
analisa data mining tersebut nantinya
dari kelas target.
mengimplementasikan
dapat digunakan sebagai suatu informasi
(node)
merupakan
atribut, cabangnya
3. Algoritma ID3
A adalah atribut yang ada pada data
(Iterative
training, V adalah suatu nilai yang
Dichotomiser Three) adalah salah satu
mungkin untuk atribut A, Values (A)
algoritma pembentuk struktur pohon
adalah himpunan yang mungkin antuk
keputusan (decision tree). Algoritma
atribut A, |Si| adalah jumlah sample
ID3 ini dikembangkan oleh seorang
untuk nilai V, |S| adalah jumlah seluruh
tokoh yang bernama J. Ross Quinlan.
sample data yang digunakan sebagai
Algoritma ID3 ini membangun pohon
data training, dan Entrophy(Si) adalah
keputusan (decision tree) secra top -
nilai entrophy untuk sample - sample
down (atas - bawah). Algoritma ID3 ini
yang memiliki nilai V.
Algoritma
ID3
menggunakan konsep perhitungan dari
nilai entrophy dan nilai information
METODOLOGI PENELITIAN
gain.
1. Identifikasi Masalah
Langkah
Rumus untuk perhitungan dari
awal
dari
proses
pencarian nilai entrophy ditunjukkan
penelitian ini adalah mencari referensi
dalam persamaan matematis sebagai
- referensi dan hasil - hasil penelitian
berikut :
yang membahas tentang data mining
metode decision tree dengan algoritma
Dimana :
ID3.
S merupakan ruang (data) sample yang
digunakan sebagai bahan pertimbangan
digunakan sebagai data training, P+
pembelajaran,
merupakan jumlah data yang bersolusi
keputusan
positif (mendukung) pada data sample
penelitian
untuk
distribusi hasil seleksi PPDB tingkat
kriteria
tertentu,
dan
P-
Hasil
pencarian
dan
dalam
tentang
tersebut
pengambilan
melaksanakan
proses
evaluasi
merupakan jumlah data yang bersolusi
SMA
negatif (tidak mendukung) pada data
menggunakan metode decision tree
sample untuk kriteria tertentu.
karena memang belum ada yang
Negeri
di
Kota
Surakarta
Rumus untuk perhitungan dari
melakukan penelitian yang berkaitan
pencarian suatu nilai information gain
dengan permasalahan tersebut. Juga
dari suatu atribut A ditunjukkan dalam
terjadinya penumpukan data - data
persamaan matematis sebagai berikut :
hasil seleksi PPDB tingkat SMA
Negeri
Dimana :
yang
bertambah.
tiap
tahunnya
terus
pada penelitian ini, atribut tersebut
2. Penentuan Atribut Dominan
Atribut
dominan
merupakan
adalah asal peserta didik baru, gender
atribut dari kriteria calon pendaftar
peserta didik baru, prestasi
yang sering diutamakan dalam proses
dimiliki peserta didik baru, total
analisa. Atribut tersebut berisi data -
akumulasi nilai mata pelajaran UAN
data yang sangat vital dalam proses
tingkat SMP, dan sekolah SMA Negeri
pembentukkan decision tree.
hasil
Dalam
studi
kasus
evaluasi
distribusi hasil seleksi PPDB tingkat
SMA
Negeri
di
Kota
seleksi
penentuan
PPDB.
atribut
yang
Gambaran
dominan
dapat
dilihat pada Tabel 1.
Surakarta
menggunakan metode decision tree,
ada 5 atribut dominan yang dipakai
Tabel 1. Penentuan Atribut dari Hasil PPDB
Variabel
Attribut
X1
Asal
X2
X3
X4
Y
Objek
Dalam kota
Luar kota
Gender
Laki - laki
Perempuan
Prestasi
DL dan prestasi yang
memiliki Nilai
Prestasi = 0
Nilai_Mapel Nilai mapel > 37,5
35 < Nilai mapel < = 37,5
Nilai mapel < = 35
Hasil_PPDB SMAN_1
SMAN_3
SMAN_4
Kategori
DK
LK
L
P
Ada
Tidak
Range1
Range2
Range3
SMAN_1
SMAN_3
SMAN_4
3. Penentuan Sample Data
Untuk
mendapatkan
jumlah
sample data yang diperlukan dalam
Dimana :
penelitian ini dengan menggunakan
n adalah ukuran jumlah sample data
rumus persamaan slovin seperti yang
yang dibutuhkan, N adalah ukuran atau
tertulis dalam rumus persamaan berikut
jumlah populasi keseluruhan data yang
ini.
ada, e adalah persentase toleransi dari
ketidaktelitian
data
sample
yang
dibutuhkan.
kesalahan sample data dari data jumlah
peserta didik baru tersebut adalah 5%.
Maka
jumlah
sample
data
yang
diperlukan yaitu :
4. Penentuan Metode
Metode yang digunakan dalam
peneltian ini adalah metode decision
n = 1218 / ( 1 + ( 1218 x ( 0,05 )2 )
tree dengan algoritma ID3 sebagai
n = 1218 / ( 1 + ( 1218 + 0,0025 ) )
suatu
n = 1218 / ( 1 + 3,045 )
metode
dalam
membangun
struktur pohon dari hasil seleksi PPDB
n = 1218 / 4.045
tingkat SMA Negeri di Kota Surakarta.
n = 301,1125 pesertra didik baru
menggunakan
Jadi jika dibulatkn menjadi 301 peserta
konsep pencarian perhitungan nilai
didik baru yang digunakan sebagai
entrophy dan nilai information gain.
bahan sample data.
Algoritma
ID3
ini
2. Pengolahan Data
HASIL DAN PEMBAHASAN
1. Penentuan Sample Data
Pada
tahap
pengolahan
data
dimaksudkan untuk menyusun suatu
Apabila diketahui jumlah peserta
kumpulan sample data seperti pada
didik baru hasil seleksi PPDB tingkat
Gambar 1 dibawah menjadi sebuah
SMA Negeri terkhusus SMA Negeri 1
kumpulan data training seperti pada
Surakarta, SMA Negeri 3 Surakarta,
Gambar 2 dibawah, sesuai dengan
dan SMA Negeri 4 Surakarta memiliki
aturan
jumlah peserta didik baru sebanyak
sehingga memudahkan data untuk
1218
dianalisa.
dan
untuk
ketoleransian
penentuan
atribut
dominan
Gambar 1. Sample Data Hasil Seleksi PPDB
Gambar 2. Data Training Hasil Seleksi PPDB
yang memaparkan tentang ilustrasi
3. Implementasi dalam Rapid Miner
Data training hasil seleksi PPDB
tingkat
SMA
Negeri
yang
telah
catatan seluruh data dari data training
yang
tersimpan
pada
media
tersimpan pada media penyimpanan
penyimpanan repository rapid miner .
repository rapid miner dapat dilihat
Tampilan visual data view dari data
dalam bentuk tampilan visual data
tarining hasil seleksi PPDB tingkat
view yang disediakan oleh rapid miner .
SMA
Data view adalah suatu tampilan visual
Gambar 3.
Negeri
dapat
dilihat
pada
Gambar 3. Tampilan Visual Data View dari Data Training Hasil Seleksi PPDB
Hasil penyimpanan dari data
training hasil seleksi PPDB
dari seluruh data yang menjadi data
tingkat
training yang telah tersimpan pada
SMA Negeri juga dapat dilihat dalam
media penyimpanan repository rapid
bentuk tampilan visual meta data view
miner . Tampilan visual meta data view
yang disediakan oleh rapid miner .
dari data training hasil seleksi PPDB
Meta data view adalah tampilan visual
tingkat SMA Negeri dapat dilihat pada
yang mengilustrasikan ringkasan data
Gambar 4.
Gambar 4. Tampilan Visual Meta Data View dari Data Training Hasil Seleksi PPDB
Hasil penyimpanan dari data
secara scatter , histogram, pie maupun
training hasil seleksi PPDB tingkat
model penggambaran lainnya untuk
SMA Negeri juga dapat dilihat dalam
dapat dilihat sebaran distribusi data
bentuk tampilan visual plot view. Pada
berdasarkan pada setiap atribut yang
tampilan visual plot view disediakan
ada dimiliki oleh data training hasil
model
seleksi PPDB tingkat SMA Negeri.
penggambaran
plotter
data
Tampilan visual plot view model
PPDB tingkat SMA Negeri dapat
scatter dari data training hasil seleksi
dilihat pada Gambar 5.
Gambar 5. Tampilan Visual Plot View dari Data Training Hasil Seleksi PPDB
Berdasarkan tampilan visual plot
Pohon keputusan (decision tree)
view model scatter pada Gambar 5
dari data training hasil seleksi PPDB
dapat dilihat bahwa asal peserta didik
tingkat
baru yang berasal dari dalam kota baik
terinputkan dan telah dianalisa dengan
yang memiliki prestasi maupun tidak
algoritma
memiliki prestasi lebih mendominasi
ditampilkan dalam bentuk tampilan
data pada data training hasil seleksi
visual graph view. Tampilan visual
PPDB
Negeri
graph view menampilkan decision tree
dibandingkan dengan asal peserta didik
(struktur pohon keputusan) dari data
baru yang berasal dari luar kota baik
training hasil seleksi PPDB tingkat
yang memiliki prestasi maupun tidak
SMA
memiliki prestasi.
Gambar 6.
tingkat
SMA
SMA
ID3
Negeri
Negeri
yang
pada rapid
dapat
dilihat
telah
miner
pada
Gambar 6. Graph View Decision Tree dari Data Training Hasil Seleksi PPDB
Pada rapid miner , decision tree
suatu tulisan aturan yang merupakan
dari data training hasil seleksi PPDB
representasi dari decision tree yang ada
tingkat SMA Negeri juga dapat dilihat
pada graph view. Tampilan visual text
dalam bentuk tampilan visual text view.
view decision tree dari data training
Pada
hasil seleksi PPDB tingkat SMA
tampilan
visual
text
view,
decision tree akan dipecah kedalam
Negeri bisa dilihat pada Gambar 7.
Gambar 7. Text View Decision Tree dari Data Training Hasil Seleksi PPDB
Berdasarkan
visual
tingkat SMA Negeri tersebut apabila
graph view dan text view yang telah
ditulis kedalam bentuk suatu tabel
diperoleh dari software rapid miner ,
aturan, maka diperoleh tabel aturan
hasil seleksi PPDB
dari decision tree hasil seleksi PPDB
decision
tree
tampilan
tingkat SMA Negeri yang diterangkan
seperti pada Tabel 2.
Tabel 2. Tabel Aturan dari Decision Tree Hasil Seleksi PPDB
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
Kondisi 1
Range1
Range1
Range1
Range1
Range1
Range1
Range2
Range2
Range2
Range2
Range2
Range2
Range2
Range2
Range3
Range3
Range3
Range3
Range3
Kondisi 2
Ada
Ada
Tidak
Tidak
Tidak
Tidak
Dalam kota
Dalam kota
Dalam kota
Dalam kota
Luar kota
Luar kota
Luar kota
Luar kota
Ada
Ada
Ada
Tidak
Tidak
Berdasarkan Tabel 2 apabila
Kondisi 3
Laki – laki
Perempuan
Laki – laki
Laki – laki
Perempuan
Perempuan
Ada
Ada
Tidak
Tidak
Ada
Ada
Tidak
Tidak
Laki – laki
Perempuan
Perempuan
Dalam kota
Dalam kota
Kondisi 4
Luar kota
Dalam kota
Luar kota
Dalam kota
Luar kota
Laki – laki
Perempuan
Laki – laki
Perempuan
Laki – laki
Perempuan
Laki – laki
Perempuan
Dalam kota
Dalam kota
Luar kota
Laki – laki
Perempuan
Dalam
Target
SMAN 1
SMAN 1
SMAN 4
SMAN 4
SMAN 4
SMAN 4
SMAN 4
SMAN 1
SMAN 4
SMAN 4
SMAN 4
SMAN 4
SMAN 4
SMAN 4
SMAN 4
SMAN 4
SMAN 4
SMAN 3
SMAN 3
melakukan
evaluasi
salah satu aturan dari tabel aturan
distribusi hasil seleksi PPDB tingkat
tersebut dalam aturan If - Then seperti
SMA Negeri menggunakan metode
contoh aturan nomor 1 maka aturan
decision tree, penentuan kelas target
tersebut akan ditulis dengan kalimat
dan pembagian objek nilai dari tiap
sebagai berikut “If Akumulasi nilai
atribut pada data
mata pelajaran UAN SMP peserta
menentukan tingkat akurasi tree yang
didik baru berada dikisaran lebih dari
dibuat. Besar persentase kebenaran
37,5 (Range1) and peserta didik baru
dari suatu struktur pohon (tree) sangat
memiliki prestasi and peserta didik
dipengaruhi oleh seberapa banyak data
baru bergender laki - laki and peserta
yang digunakan sebagai bagian dari
didik baru berasal dari luar kota Then
data training.
memiliki
kecenderungan
mendaftar
pada SMA Negeri 1 Surakarta”.
training
sangat
karena atribut tersebut menjadi root
KESIMPULAN
dengan
node (simpul akar) dari struktur pohon
menggunakan data hasil seleksi PPDB
keputusan (decision tree) dan atribut
tingkat SMA Negeri di Kota Surakarta
tersebut memiliki nilai information
sebagai data training yang kemudian
gain terbesar pada saat penentuan root
dilakukan proses analisa dalam kaitannya
node.
Berdasarkan
dengan
proses
penelitian
analisa
pembentukan
struktur pohon keputusan (decision tree)
maka dapat ditarik kesimpulan bahwa :
1. Implementasi data
mining
metode
SARAN
Berdasarkan dari kesimpulan yang
telah diperoleh maka dapat diberikan
decision tree dapat dilakukan, baik
saran sebagai berikut :
dengan analisa perhitungan manual
1. Data hasil seleksi PPDB sebaiknya
algoritma ID3 dengan bersumber pada
dikelola dan disimpan dengan baik
penentuan
nilai
karen
information
gain
entrophy
maupun
dan
analisa
dengan penerapan algoritma ID3 yang
telah
disediakan
modulnya
pada
dapat
memberikan
manfaat
dalam pembentukan decision tree.
2. Perlu adanya penelitian yang lebih
lanjut dalam rangka mengembangkan
pencarian informasi yang lebih banyak
software rapid miner .
2. Implementasi data mining metode
dan mendalam mengenai hasil seleksi
decision tree pada data training hasil
PPDB berdasarkan atribut lain yang
seleksi PPDB tingkat SMA Negeri di
belum dimanfaatkan pada proses data
Kota Surakarta menghasilkan adanya
mining metode decision tree algoritma
salah satu atribut yang mempunyai
ID3 dalam penelitian ini sepertia nilai
peran
atau
masing - masing mata pelajaran ujian
dalam
akhir nasional (UAN) tingkat sekolah
dominasi
paling
berpengaruh
paling
pembentukan
tinggi
pohon
keputusan
(decision tree), atribut tersebut adalah
atribut nilai mapel (akumulasi nilai
mata pelajaran UAN tingkat SMP)
menengah pertama (SMP).
DAFTAR PUSTAKA
Santosa, Budi (2007). Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis.
Yogyakarta : Penerbit Graha Ilmu.
Kusrini, dan Emha Taufik (2009). Algoritma Data Mining. Yogyakarta : Penerbit Andi.
Sunjana (2010). Aplikasi Mining Data Mahasiswa Dengan metode Klasifikasi Decision Tree .
Yogyakarta : Seminar Nasional Aplikasi Teknologi Informasi. ISSN : 1907 – 5022
Seran, Krisantus Jumarto Tey (2013). Analisis dan Usulan Solusi Sistem Pendukung
Keputusan Penentuan Beasiswa Menggunakan Algoritma ID3 . Strata 2 Thesis.
Yogyakarta : Universitas Atma Jaya Yogyakarta.
Dalimunthe, Amirhud (2012). Implementasi Data Mining Classification dengan Metode
Decision Tree (Menggunakan Algoritma ID3 dan C.45). Strata 1 Skripsi. Medan :
Universitas Negeri Medan.
Elmande, Widodo (2012). Pemilihan Criteria Splitting Algoritma Iterative Dichotomiser 3
(ID3) untuk Penentuan Kualitas Beras : Studi Kasus Pada Perum Bulog Divre
Kampung. Lampung : JURNAL TELEMATIKA MKOM Vol. 4 No. 1, Maret 2012
ISSN : 2085 - 725X
Safii, M (2011). Penetapan Strategi Pemasaran dengan Pendekatan Model Aturan Pohon
Keputusan Menggunakan Algoritma Iterative Dichotomiser 3 (ID3) di Perguruan
Tinggi Swasta . Strata 2 Thesis. Medan : Universitas Sumatera Utara.
Utami, Winda Pangesti (2012). Penerapan Algoritma Iterative Dichotomiser Three untuk
Pemilihan Dosen Pembimbing (Studi Kasus : FTI UKSW). Strata 1 Skripsi.
Salatiga : Universitas Kristen Satya Wacana.
BIODATA PENULIS
Nama
:
Aziz Ridha Utama
Tempat, Tanggal Lahir
:
Surakarta, 7 November 1991
Jenis Kelamin
:
Laki - laki
Agama
:
Islam
Jurusan
:
Teknik Informatika
Perguruan
:
Universitas Muhammadiyah Surakarta
Alamat
:
Jl. A. Yani Tromol Pos 1, Pabelan, Kartasura
Telp / Fax
:
(0271) 717417, 719483 / (0271) 714448
Alamat Rumah
:
Sekip Rt 01 Rw 23, Kadipiro, Banjarsari, Surakarta
Kode Pos : 57136
No. HP
:
+6281802912200
Alamat E - mail
:
[email protected]
PPDB SMA NEGERI DI KOTA SURAKARTA
MENGGUNAKAN METODE DECISION TREE
NASKAH PUBLIKASI
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS KOMUNIKASI DAN INFORMATIKA
Diajukan oleh :
Aziz Ridha Utama
Nurgiyatna, M.Sc, Ph.D
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS KOMUNIKASI DAN INFORMATIKA
UNIVERSITAS MUHAMMADIYAH SURAKARTA
JULI 2014
EVALUASI DISTRIBUSI HASIL SELEKSI
PPDB SMA NEGERI DI KOTA SURAKARTA
MENGGUNAKAN METODE DECISION TREE
Aziz Ridha Utama, Nurgiyatna
Teknik Informatika, Fakultas Komunikasi dan Informatika,
Universitas Muhammadiyah Surakarta
Email : [email protected]
Pesatnya perkembangan teknologi informasi mampu membuat sebuah sistem informasi
dapat menyimpan berbagai jenis data dalam jumlah besar. Jika sistem informasi tersebut
bersifat penting dalam menunjang suatu kegiatan maka data - data yang tersimpan pada
sistem tersebut juga bersifat penting. Apabila data - data yang ada tersedia dalam jumlah
besar maka data tersebut dapat dimanfaatkan untuk membentuk suatu informasi yang
memiliki nilai guna bagi pemilik sistem informasi tersebut. Salah satu contohnya adalah
banyaknya data hasil seleksi Penerimaan Peserta Didik Baru (PPDB) tingkat SMA Negeri di
Kota Surakarta yang dimiliki oleh Dinas Pendidikan Pemuda dan Olahraga Kota Surakarta.
Cara mengatasi permasalahan pembentukan informasi dari kumpulan data tersebut dengan
cara menarapkan proses data mining. Adapun metode yang dipakai pada proses data mining
untuk menganalisa penelitian ini adalah metode decision tree dengan algoritma ID3. Pada
penerapan algoritma ID3 ini diperlukan perhitungan nilai entrophy dan information gain dari
tiap atribut yang ada dalam data training. Data hasil seleksi PPDB tingkat SMA Negeri di
Kota Surakarta digunakan sebagai data training. Berdasarkan analisa dari data training yang
ada menunjukkan bahwa adanya suatu atribut yang mempunyai dominasi cukup tinggi
terhadap hasil seleksi PPDB tersebut, atribut tersebut adalah atribut akumulasi nilai mata
pelajaran ujuan akhir nasional tingkat SMP. Kemudian ketepatan dalam penerapan proses
data mining dengan metode decision tree algoritma ID3 juga berdasarkan seberapa banyak
data yang digunakan sebagai data training.
Kata Kunci : Data Mining, Decision tree, Algoritma ID3, Data Training, Entrophy,
Information Gain
PENDAHULUAN
Pesatnya perkembangan teknologi
data tersebut dapat dimanfaatkan untuk
membentuk
suatu
informasi
yang
informasi pada masa sekarang ini, mampu
memiliki nilai guna bagi pemilik sistem
membuat sebuah sistem informasi dapat
informasi
menyimpan bebagai jenis data dalam
pentingnya knowledge atau pengetahuan
jumlah besar. Jika sistem informasi yang
tehadap
menyimpan data dalam jumlah besar
informasi yang memiliki nilai guna
tersebut bersifat penting maka data - data
sebagai bagian dari proses pemanfaatan
yang ada pada sistem informasi tersebut
data dalam jumlah besar maka mendorong
juga bersifat penting. Apabila data - data
munculnya suatu cabang ilmu baru untuk
tersebut tersedia dalam jumlah besar maka
mengatasi permasalahan tersebut, suatu
tersebut.
suatu
Berdasarkan
pembentukan
pola
cabang ilmu yang biasa disebut ilmu data
yang memiliki nilai guna bagi Dinas
mining.
Pendidikan Pemuda dan Olahraga Kota
Salah satu metode yang digunakan
dalam
data
adalah
mining
metode
decision tree, Decision tree adalah suatu
Surakarta
terkhusus
pada
Dinas
tersebut
maka
Pendidikan.
Berdasarkan
hal
metode yang menggunakan representasi
peneliti
mengangkat
judul
“Evaluasi
model struktur pohon (tree) dimana setiap
Distribusi Hasil Seleksi PPDB SMA
simpulnya (node) merupakan representasi
Negeri di Kota Surakarta Menggunakan
dari atribut, cabangnya (edge) merupakan
Metode Decision Tree”.
representasi dari nilai yang ada pada
atribut, dan daunnya (leaf) merupakan
LANDASAN TEORI
representasi dari kelas target.
1. Data Mining
Salah
satu
contoh
Data mining, sering juga disebut
penerapan
kemajuan teknologi informasi tersebut
dalam
adalah
knowledge
dengan
adanya
suatu
sistem
suatu
istilah
discovery
lain
sebagai
in
database
penerimaan peserta didik baru online
(KDD).
(PPDB Online) adalah suatu sistem
database adalah suatu kegiatan yang
informasi
meliputi aspek pengumpulan data,
yang
berhubungan
dengan
Knowledge
discovery
in
penyeleksian penerimaan peserta didik
pemakaian
baru tingkat SMP/MTs dan SMA/MA
menemukan keteraturan dari suatu pola
secara transparan dan real time berbasis
atau
pada perkembangan teknologi informasi.
berukuran besar (Santoso, 2007).
Sistem ini merupakan sistem yang berada
pada
suatu
jaringan
sehingga
dapat
diakses melalui sms maupun internet.
data,
hubungan
historis
dalam
untuk
set
data
2. Pohon Keputusan (Decision Tree)
Decision tree merupakan salah
satu metode dalam data mining dengan
Pada sistem tersebut menyimpan
menggunakan representasi dari tree
berbagai data yang berhubungan dengan
atau struktur pohon. Dimana setiap
hasil seleksi penerimaan peserta didik
simpulnya
baru tingkat SMP/MTs dan SMA/MA.
representasi dari
Dengan
data
(edge) merupakan representasi dari
mining pada data hasil seleksi PPDB
nilai yang ada pada atribut, dan
tingkat SMA Negeri di Kota Surakarta,
daunnya (leaf) merupakan representasi
analisa data mining tersebut nantinya
dari kelas target.
mengimplementasikan
dapat digunakan sebagai suatu informasi
(node)
merupakan
atribut, cabangnya
3. Algoritma ID3
A adalah atribut yang ada pada data
(Iterative
training, V adalah suatu nilai yang
Dichotomiser Three) adalah salah satu
mungkin untuk atribut A, Values (A)
algoritma pembentuk struktur pohon
adalah himpunan yang mungkin antuk
keputusan (decision tree). Algoritma
atribut A, |Si| adalah jumlah sample
ID3 ini dikembangkan oleh seorang
untuk nilai V, |S| adalah jumlah seluruh
tokoh yang bernama J. Ross Quinlan.
sample data yang digunakan sebagai
Algoritma ID3 ini membangun pohon
data training, dan Entrophy(Si) adalah
keputusan (decision tree) secra top -
nilai entrophy untuk sample - sample
down (atas - bawah). Algoritma ID3 ini
yang memiliki nilai V.
Algoritma
ID3
menggunakan konsep perhitungan dari
nilai entrophy dan nilai information
METODOLOGI PENELITIAN
gain.
1. Identifikasi Masalah
Langkah
Rumus untuk perhitungan dari
awal
dari
proses
pencarian nilai entrophy ditunjukkan
penelitian ini adalah mencari referensi
dalam persamaan matematis sebagai
- referensi dan hasil - hasil penelitian
berikut :
yang membahas tentang data mining
metode decision tree dengan algoritma
Dimana :
ID3.
S merupakan ruang (data) sample yang
digunakan sebagai bahan pertimbangan
digunakan sebagai data training, P+
pembelajaran,
merupakan jumlah data yang bersolusi
keputusan
positif (mendukung) pada data sample
penelitian
untuk
distribusi hasil seleksi PPDB tingkat
kriteria
tertentu,
dan
P-
Hasil
pencarian
dan
dalam
tentang
tersebut
pengambilan
melaksanakan
proses
evaluasi
merupakan jumlah data yang bersolusi
SMA
negatif (tidak mendukung) pada data
menggunakan metode decision tree
sample untuk kriteria tertentu.
karena memang belum ada yang
Negeri
di
Kota
Surakarta
Rumus untuk perhitungan dari
melakukan penelitian yang berkaitan
pencarian suatu nilai information gain
dengan permasalahan tersebut. Juga
dari suatu atribut A ditunjukkan dalam
terjadinya penumpukan data - data
persamaan matematis sebagai berikut :
hasil seleksi PPDB tingkat SMA
Negeri
Dimana :
yang
bertambah.
tiap
tahunnya
terus
pada penelitian ini, atribut tersebut
2. Penentuan Atribut Dominan
Atribut
dominan
merupakan
adalah asal peserta didik baru, gender
atribut dari kriteria calon pendaftar
peserta didik baru, prestasi
yang sering diutamakan dalam proses
dimiliki peserta didik baru, total
analisa. Atribut tersebut berisi data -
akumulasi nilai mata pelajaran UAN
data yang sangat vital dalam proses
tingkat SMP, dan sekolah SMA Negeri
pembentukkan decision tree.
hasil
Dalam
studi
kasus
evaluasi
distribusi hasil seleksi PPDB tingkat
SMA
Negeri
di
Kota
seleksi
penentuan
PPDB.
atribut
yang
Gambaran
dominan
dapat
dilihat pada Tabel 1.
Surakarta
menggunakan metode decision tree,
ada 5 atribut dominan yang dipakai
Tabel 1. Penentuan Atribut dari Hasil PPDB
Variabel
Attribut
X1
Asal
X2
X3
X4
Y
Objek
Dalam kota
Luar kota
Gender
Laki - laki
Perempuan
Prestasi
DL dan prestasi yang
memiliki Nilai
Prestasi = 0
Nilai_Mapel Nilai mapel > 37,5
35 < Nilai mapel < = 37,5
Nilai mapel < = 35
Hasil_PPDB SMAN_1
SMAN_3
SMAN_4
Kategori
DK
LK
L
P
Ada
Tidak
Range1
Range2
Range3
SMAN_1
SMAN_3
SMAN_4
3. Penentuan Sample Data
Untuk
mendapatkan
jumlah
sample data yang diperlukan dalam
Dimana :
penelitian ini dengan menggunakan
n adalah ukuran jumlah sample data
rumus persamaan slovin seperti yang
yang dibutuhkan, N adalah ukuran atau
tertulis dalam rumus persamaan berikut
jumlah populasi keseluruhan data yang
ini.
ada, e adalah persentase toleransi dari
ketidaktelitian
data
sample
yang
dibutuhkan.
kesalahan sample data dari data jumlah
peserta didik baru tersebut adalah 5%.
Maka
jumlah
sample
data
yang
diperlukan yaitu :
4. Penentuan Metode
Metode yang digunakan dalam
peneltian ini adalah metode decision
n = 1218 / ( 1 + ( 1218 x ( 0,05 )2 )
tree dengan algoritma ID3 sebagai
n = 1218 / ( 1 + ( 1218 + 0,0025 ) )
suatu
n = 1218 / ( 1 + 3,045 )
metode
dalam
membangun
struktur pohon dari hasil seleksi PPDB
n = 1218 / 4.045
tingkat SMA Negeri di Kota Surakarta.
n = 301,1125 pesertra didik baru
menggunakan
Jadi jika dibulatkn menjadi 301 peserta
konsep pencarian perhitungan nilai
didik baru yang digunakan sebagai
entrophy dan nilai information gain.
bahan sample data.
Algoritma
ID3
ini
2. Pengolahan Data
HASIL DAN PEMBAHASAN
1. Penentuan Sample Data
Pada
tahap
pengolahan
data
dimaksudkan untuk menyusun suatu
Apabila diketahui jumlah peserta
kumpulan sample data seperti pada
didik baru hasil seleksi PPDB tingkat
Gambar 1 dibawah menjadi sebuah
SMA Negeri terkhusus SMA Negeri 1
kumpulan data training seperti pada
Surakarta, SMA Negeri 3 Surakarta,
Gambar 2 dibawah, sesuai dengan
dan SMA Negeri 4 Surakarta memiliki
aturan
jumlah peserta didik baru sebanyak
sehingga memudahkan data untuk
1218
dianalisa.
dan
untuk
ketoleransian
penentuan
atribut
dominan
Gambar 1. Sample Data Hasil Seleksi PPDB
Gambar 2. Data Training Hasil Seleksi PPDB
yang memaparkan tentang ilustrasi
3. Implementasi dalam Rapid Miner
Data training hasil seleksi PPDB
tingkat
SMA
Negeri
yang
telah
catatan seluruh data dari data training
yang
tersimpan
pada
media
tersimpan pada media penyimpanan
penyimpanan repository rapid miner .
repository rapid miner dapat dilihat
Tampilan visual data view dari data
dalam bentuk tampilan visual data
tarining hasil seleksi PPDB tingkat
view yang disediakan oleh rapid miner .
SMA
Data view adalah suatu tampilan visual
Gambar 3.
Negeri
dapat
dilihat
pada
Gambar 3. Tampilan Visual Data View dari Data Training Hasil Seleksi PPDB
Hasil penyimpanan dari data
training hasil seleksi PPDB
dari seluruh data yang menjadi data
tingkat
training yang telah tersimpan pada
SMA Negeri juga dapat dilihat dalam
media penyimpanan repository rapid
bentuk tampilan visual meta data view
miner . Tampilan visual meta data view
yang disediakan oleh rapid miner .
dari data training hasil seleksi PPDB
Meta data view adalah tampilan visual
tingkat SMA Negeri dapat dilihat pada
yang mengilustrasikan ringkasan data
Gambar 4.
Gambar 4. Tampilan Visual Meta Data View dari Data Training Hasil Seleksi PPDB
Hasil penyimpanan dari data
secara scatter , histogram, pie maupun
training hasil seleksi PPDB tingkat
model penggambaran lainnya untuk
SMA Negeri juga dapat dilihat dalam
dapat dilihat sebaran distribusi data
bentuk tampilan visual plot view. Pada
berdasarkan pada setiap atribut yang
tampilan visual plot view disediakan
ada dimiliki oleh data training hasil
model
seleksi PPDB tingkat SMA Negeri.
penggambaran
plotter
data
Tampilan visual plot view model
PPDB tingkat SMA Negeri dapat
scatter dari data training hasil seleksi
dilihat pada Gambar 5.
Gambar 5. Tampilan Visual Plot View dari Data Training Hasil Seleksi PPDB
Berdasarkan tampilan visual plot
Pohon keputusan (decision tree)
view model scatter pada Gambar 5
dari data training hasil seleksi PPDB
dapat dilihat bahwa asal peserta didik
tingkat
baru yang berasal dari dalam kota baik
terinputkan dan telah dianalisa dengan
yang memiliki prestasi maupun tidak
algoritma
memiliki prestasi lebih mendominasi
ditampilkan dalam bentuk tampilan
data pada data training hasil seleksi
visual graph view. Tampilan visual
PPDB
Negeri
graph view menampilkan decision tree
dibandingkan dengan asal peserta didik
(struktur pohon keputusan) dari data
baru yang berasal dari luar kota baik
training hasil seleksi PPDB tingkat
yang memiliki prestasi maupun tidak
SMA
memiliki prestasi.
Gambar 6.
tingkat
SMA
SMA
ID3
Negeri
Negeri
yang
pada rapid
dapat
dilihat
telah
miner
pada
Gambar 6. Graph View Decision Tree dari Data Training Hasil Seleksi PPDB
Pada rapid miner , decision tree
suatu tulisan aturan yang merupakan
dari data training hasil seleksi PPDB
representasi dari decision tree yang ada
tingkat SMA Negeri juga dapat dilihat
pada graph view. Tampilan visual text
dalam bentuk tampilan visual text view.
view decision tree dari data training
Pada
hasil seleksi PPDB tingkat SMA
tampilan
visual
text
view,
decision tree akan dipecah kedalam
Negeri bisa dilihat pada Gambar 7.
Gambar 7. Text View Decision Tree dari Data Training Hasil Seleksi PPDB
Berdasarkan
visual
tingkat SMA Negeri tersebut apabila
graph view dan text view yang telah
ditulis kedalam bentuk suatu tabel
diperoleh dari software rapid miner ,
aturan, maka diperoleh tabel aturan
hasil seleksi PPDB
dari decision tree hasil seleksi PPDB
decision
tree
tampilan
tingkat SMA Negeri yang diterangkan
seperti pada Tabel 2.
Tabel 2. Tabel Aturan dari Decision Tree Hasil Seleksi PPDB
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
Kondisi 1
Range1
Range1
Range1
Range1
Range1
Range1
Range2
Range2
Range2
Range2
Range2
Range2
Range2
Range2
Range3
Range3
Range3
Range3
Range3
Kondisi 2
Ada
Ada
Tidak
Tidak
Tidak
Tidak
Dalam kota
Dalam kota
Dalam kota
Dalam kota
Luar kota
Luar kota
Luar kota
Luar kota
Ada
Ada
Ada
Tidak
Tidak
Berdasarkan Tabel 2 apabila
Kondisi 3
Laki – laki
Perempuan
Laki – laki
Laki – laki
Perempuan
Perempuan
Ada
Ada
Tidak
Tidak
Ada
Ada
Tidak
Tidak
Laki – laki
Perempuan
Perempuan
Dalam kota
Dalam kota
Kondisi 4
Luar kota
Dalam kota
Luar kota
Dalam kota
Luar kota
Laki – laki
Perempuan
Laki – laki
Perempuan
Laki – laki
Perempuan
Laki – laki
Perempuan
Dalam kota
Dalam kota
Luar kota
Laki – laki
Perempuan
Dalam
Target
SMAN 1
SMAN 1
SMAN 4
SMAN 4
SMAN 4
SMAN 4
SMAN 4
SMAN 1
SMAN 4
SMAN 4
SMAN 4
SMAN 4
SMAN 4
SMAN 4
SMAN 4
SMAN 4
SMAN 4
SMAN 3
SMAN 3
melakukan
evaluasi
salah satu aturan dari tabel aturan
distribusi hasil seleksi PPDB tingkat
tersebut dalam aturan If - Then seperti
SMA Negeri menggunakan metode
contoh aturan nomor 1 maka aturan
decision tree, penentuan kelas target
tersebut akan ditulis dengan kalimat
dan pembagian objek nilai dari tiap
sebagai berikut “If Akumulasi nilai
atribut pada data
mata pelajaran UAN SMP peserta
menentukan tingkat akurasi tree yang
didik baru berada dikisaran lebih dari
dibuat. Besar persentase kebenaran
37,5 (Range1) and peserta didik baru
dari suatu struktur pohon (tree) sangat
memiliki prestasi and peserta didik
dipengaruhi oleh seberapa banyak data
baru bergender laki - laki and peserta
yang digunakan sebagai bagian dari
didik baru berasal dari luar kota Then
data training.
memiliki
kecenderungan
mendaftar
pada SMA Negeri 1 Surakarta”.
training
sangat
karena atribut tersebut menjadi root
KESIMPULAN
dengan
node (simpul akar) dari struktur pohon
menggunakan data hasil seleksi PPDB
keputusan (decision tree) dan atribut
tingkat SMA Negeri di Kota Surakarta
tersebut memiliki nilai information
sebagai data training yang kemudian
gain terbesar pada saat penentuan root
dilakukan proses analisa dalam kaitannya
node.
Berdasarkan
dengan
proses
penelitian
analisa
pembentukan
struktur pohon keputusan (decision tree)
maka dapat ditarik kesimpulan bahwa :
1. Implementasi data
mining
metode
SARAN
Berdasarkan dari kesimpulan yang
telah diperoleh maka dapat diberikan
decision tree dapat dilakukan, baik
saran sebagai berikut :
dengan analisa perhitungan manual
1. Data hasil seleksi PPDB sebaiknya
algoritma ID3 dengan bersumber pada
dikelola dan disimpan dengan baik
penentuan
nilai
karen
information
gain
entrophy
maupun
dan
analisa
dengan penerapan algoritma ID3 yang
telah
disediakan
modulnya
pada
dapat
memberikan
manfaat
dalam pembentukan decision tree.
2. Perlu adanya penelitian yang lebih
lanjut dalam rangka mengembangkan
pencarian informasi yang lebih banyak
software rapid miner .
2. Implementasi data mining metode
dan mendalam mengenai hasil seleksi
decision tree pada data training hasil
PPDB berdasarkan atribut lain yang
seleksi PPDB tingkat SMA Negeri di
belum dimanfaatkan pada proses data
Kota Surakarta menghasilkan adanya
mining metode decision tree algoritma
salah satu atribut yang mempunyai
ID3 dalam penelitian ini sepertia nilai
peran
atau
masing - masing mata pelajaran ujian
dalam
akhir nasional (UAN) tingkat sekolah
dominasi
paling
berpengaruh
paling
pembentukan
tinggi
pohon
keputusan
(decision tree), atribut tersebut adalah
atribut nilai mapel (akumulasi nilai
mata pelajaran UAN tingkat SMP)
menengah pertama (SMP).
DAFTAR PUSTAKA
Santosa, Budi (2007). Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis.
Yogyakarta : Penerbit Graha Ilmu.
Kusrini, dan Emha Taufik (2009). Algoritma Data Mining. Yogyakarta : Penerbit Andi.
Sunjana (2010). Aplikasi Mining Data Mahasiswa Dengan metode Klasifikasi Decision Tree .
Yogyakarta : Seminar Nasional Aplikasi Teknologi Informasi. ISSN : 1907 – 5022
Seran, Krisantus Jumarto Tey (2013). Analisis dan Usulan Solusi Sistem Pendukung
Keputusan Penentuan Beasiswa Menggunakan Algoritma ID3 . Strata 2 Thesis.
Yogyakarta : Universitas Atma Jaya Yogyakarta.
Dalimunthe, Amirhud (2012). Implementasi Data Mining Classification dengan Metode
Decision Tree (Menggunakan Algoritma ID3 dan C.45). Strata 1 Skripsi. Medan :
Universitas Negeri Medan.
Elmande, Widodo (2012). Pemilihan Criteria Splitting Algoritma Iterative Dichotomiser 3
(ID3) untuk Penentuan Kualitas Beras : Studi Kasus Pada Perum Bulog Divre
Kampung. Lampung : JURNAL TELEMATIKA MKOM Vol. 4 No. 1, Maret 2012
ISSN : 2085 - 725X
Safii, M (2011). Penetapan Strategi Pemasaran dengan Pendekatan Model Aturan Pohon
Keputusan Menggunakan Algoritma Iterative Dichotomiser 3 (ID3) di Perguruan
Tinggi Swasta . Strata 2 Thesis. Medan : Universitas Sumatera Utara.
Utami, Winda Pangesti (2012). Penerapan Algoritma Iterative Dichotomiser Three untuk
Pemilihan Dosen Pembimbing (Studi Kasus : FTI UKSW). Strata 1 Skripsi.
Salatiga : Universitas Kristen Satya Wacana.
BIODATA PENULIS
Nama
:
Aziz Ridha Utama
Tempat, Tanggal Lahir
:
Surakarta, 7 November 1991
Jenis Kelamin
:
Laki - laki
Agama
:
Islam
Jurusan
:
Teknik Informatika
Perguruan
:
Universitas Muhammadiyah Surakarta
Alamat
:
Jl. A. Yani Tromol Pos 1, Pabelan, Kartasura
Telp / Fax
:
(0271) 717417, 719483 / (0271) 714448
Alamat Rumah
:
Sekip Rt 01 Rw 23, Kadipiro, Banjarsari, Surakarta
Kode Pos : 57136
No. HP
:
+6281802912200
Alamat E - mail
:
[email protected]