KLASIFIKASI DATA MINING UNTUK PENERIMAAN
KLASIFIKASI DATA MINING UNTUK PENERIMAAN PEGAWAI MENGGUNAKAN ALGORITMA
C4.5
Studi Kasus : PT TELKOM INDONESIA
Aileen Velishya
Program Studi Manajemen Informatika, Konsentrasi Sistem Informasi, STMIK LPKIA
Jln. Soekarno Hatta No. 456 Bandung 40266, Telp. 022 75642823, Fax. 022 7564282
[email protected]
1.
Pendahuluan
Untuk menunjang kinerja, sebuah perusahaan harus memiliki sumber daya manusia yang dapat diandalkan.
Dalam memperoleh sumber daya manusia atau yang biasa disebut pegawai perusahaan, maka perusahaan
melakukan proses seleksi atau rekrutmen untuk penerimaan pegawai. Dalam rangka mendapatkan SDM terbaik,
maka proses seleksi harus dilaksanakan dengan baik dan benar. Proses seleksi SDM memerlukan cara yang
terorganisir dan akurat agar menghasilkan SDM yang bermutu dan dapat mendukung kesuksesan organisasi.
SDM merupakan sebuah investasi bagi organisasi maupun perusahaan untuk dapat tumbuh dan berkembang
sesuai dengan visi dan misi perusahaan.
PT. Telkom merupakan perusahaan BUMN yang bergerak dibidang jasa layanan telekomunikasi. Tentunya
banyak pelamar dari seluruh Indonesia yang ingin bekerja di PT. Telkom. Oleh karena itu diperlukan objektivitas
dalam pengambilan keputusan. Pengambilan keputusan yang dilakukan oleh manusia masih banyak yang bersifat
subjektif. Belum lagi resiko nepotisme yang tidak dapat dihindari. Bila dibiarkan dalam jangka panjang, hal
tersebut dapat mempengaruhi kinerja organisasi. Tujuan seleksi pada dasarnya untuk mendapat orang yang tepat
untuk jabatan tertentu agar dapat bekerja secara optimal dalam waktu yang lama. Proses seleksi penerimaan
pegawai di PT.Telkom cukup panjang sehingga membutuhkan waktu yang cukup lama dan biaya yang tidak
sedikit dan tentunya itu semua untuk mendapatkan calon pegawai yang benar-benar sesuai dengan kriteria yang
tepat.
Tujuan penelitian ini adalah membuat klasifikasi penerimaan pegawai dengan menggunakan Decision Tree
oleh Algoritma C4.5. Hasil klasifikasi ini dapat digunakan untuk mengambil keputusan dalam proses penerimaan
pegawai.
Ruang Lingkup
Adapun ruang lingkup dalam penulisan jurnal ini adalah sebagai berikut :
a. Penelitian dilakukan di PT. Telkom
b. Penelitian dilakukan dengan menggunakan Algoritma C4.5
c. Data-data merupakan hasil rekayasa sampel dan bukan merupakan data sebenarnya
Tujuan
Membuat klasifikasi penerimaan pegawai di PT. Telkom dengan menggunakan Algoritma C4.5
2.
Dasar Teori
Algoritma C4.5 merupakan kelompok algoritma Decision Tree. Algoritma ini mempunyai input berupa training
samples dan samples. Training samples berupa data contoh yang akan digunakan untuk membangun sebuah tree
yang telah diuji kebenarannya. Sedangkan samples merupakan field-field data yang nantinya akan digunakan
sebagai parameter dalam melakukan klasifikasi data (Sunjana, 2010)
Algoritma C 4.5 adalah salah satu metode untuk membuat decision tree berdasarkan training data yang telah
disediakan. Algoritma C 4.5 dibuat oleh Ross Quinlan yang merupakan pengembangan dari ID3 yang juga
dibuat oleh Quinlan (Quinlan, 1993). Beberapa pengembangan yang dilakukan pada C4.5 adalah sebagai antara
lain bisa mengatasi missing value, bisa mengatasi continue data, dan pruning.
Klasifikasi
Klasifikasi data merupakan suatu proses yang menemukan properti-properti yang sama pada sebuah himpunan
obyek di dalam sebuah basis data dan mengklasifikasikannya ke dalam kelas-kelas yang berbeda menurut model
klasifikasi yang ditetapkan. Tujuan dari klasifikasi adalah untuk menemukan model dari training set yang
1
membedakan atribut ke dalam kategori atau kelas yang sesuai, model tersebut kemudian digunakan untuk
mengklasifikasikan atribut yang kelasnya belum diketahui sebelumnya. Teknik klasifikasi terbagi menjadi
beberapa teknik yang diantaranya adalah Pohon Keputusan.
Pohon Keputusan (Decision Tree)
Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Metode pohon
keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan. Aturan
dapat dengan mudah dipahami dengan bahasa alami. Dan mereka juga dapat diekspresikan dalam bentuk bahasa
basis data seperti Structured Query Language untuk mencari record pada kategori tertentu. Pohon keputusan
juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel
input dengan sebuah variabel target.
Karena pohon keputusan memadukan antara eksplorasi data dan pemodelan, pohon keputusan sangat bagus
sebagai langkah awal dalam proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik
lain. Sebuah pohon keputusan adalah sebuah struktur yang dapat digunakan untuk membagi kumpulan data yang
besar menjadi himpunan-himpunan record yang lebih kecil dengan menerapkan serangkaian aturan keputusan.
Dengan masing- masing rangkaian pembagian, anggota himpunan hasil menjadi mirip satu dengan yang lain
(Berry dan Linoff, 2004).
Sebuah model pohon keputusan terdiri dari sekumpulan aturan untuk membagi sejumlah populasi yang
heterogen menjadi lebih kecil, lebih homogen dengan memperhatikan pada variabel tujuannya. Sebuah pohon
keputusan mungkin dibangun dengan seksama secara manual atau dapat tumbuh secara otomatis dengan
menerapkan salah satu atau beberapa algoritma pohon keputusan untuk memodelkan himpunan data yang belum
terklasifikasi.
Variabel tujuan biasanya dikelompokkan dengan pasti dan model pohon keputusan lebih mengarah pada
perhitungan probability dari tiap-tiap record terhadap kategori-kategori tersebut atau untuk mengklasifikasi
record dengan mengelompokkannya dalam satu kelas. Pohon keputusan juga dapat digunakan untuk
mengestimasi nilai dari variabel continue meskipun ada beberapa teknik yang lebih sesuai untuk kasus ini.
Banyak algoritma yang dapat dipakai dalam pembentukan pohon keputusan,antara lain ID3, CART, dan C4.5
(Larose, 2006).
Data dalam pohon keputusan biasanya dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut
menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan pohon. Misalkan untuk
menentukan main tenis, kriteria yang diperhatikan adalah cuaca, angin, dan temperatur.
Salah satu atribut merupakan atribut yang menyatakan data solusi per item data yang disebut target atribut.
Atribut memiliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut cuaca mempunyai instance
berupa cerah, berawan, dan hujan (Basuki dan Syarif, 2003)
Proses pada pohon keputusan adalah mengubah bentuk data (tabel) menjadi model pohon, mengubah model
pohon menjadi rule, dan menyederhanakan rule (Basuki dan Syarif, 2003).
Algoritma C4.5
Berikut ini algoritma dasar dari C4.5: Input : sampel training, label training, atribut
1.
Membuat simpul akar untuk pohon yang dibuat
2.
Jika semua sampel positif, berhenti dengan suatu pohon dengan satu simpul akar, beri tanda (+)
3.
Jika semua sampel negatif, berhenti dengan suatu pohon dengan satu simpul akar, beri tanda (-)
2
4.
Jika atribut kosong, berhenti dengan suatu pohon dengan suatu simpul akar, dengan label sesuai nilai
yang terbanyak yang ada pada label training
5.
Untuk yang lain, Mulai
A.
A ------ atribut yang mengklasifikasikan sampel dengan hasil terbaik (berdasarkan Gain rasio)
B.
Atribut keputusan untuk simpul akar ----- A
C.
Untuk setiap nilai, vi, yang mungkin untuk A
a.
Tambahkan cabang di bawah akar yang berhubungan dengan A= vi
b.
Tentukan sampel Svi sebagai subset dari sampel yang mempunyai nilai vi untuk
atrribut A
c.
Jika sampel Svi kosong
Di bawah cabang tambahkan simpul daun dengan label = nilai yang
terbanyak yang ada pada label training
Yang lain tambah cabang baru di bawah cabang yang sekarang C4.5 (sampel
training, label training, atribut-[A])
D.
Berhenti
Mengubah tree yang dihasilkan dalam beberapa rule. Jumlah rule sama dengan jumlah path yang mungkin dapat
dibangun dari root sampai leaf node.
Prinsip Kerja
Pada tahap pembelajaran algoritma C4.5 memiliki 2 prinsip kerja yaitu:
1.
Pembuatan pohon keputusan. Tujuan dari algoritma penginduksi pohon keputusan adalah
mengkontruksi struktur data pohon yang dapat digunakan untuk memprediksi kelas dari sebuah kasus atau
record baru yang belum memiliki kelas. C4.5 melakukan konstruksi pohon keputusan dengan metode divide
and conquer. Pada awalnya hanya dibuat node akar dengan menerapkan algoritma divide and conquer.
Algoritma ini memilih pemecahan kasus-kasus yang terbaik dengan menghitung dan membandingkan gain
ratio, kemudian node-node yang terbentuk di level berikutnya, algoritma divide and conquer akan diterapkan
lagi sampai terbentuk daun-daun.
2.
Pembuatan aturan-aturan (rule set). Aturan-aturan yang terbentuk dari pohon keputusan akan
membentuk suatu kondisi dalam bentuk if-then. Aturan-aturan ini didapat dengan cara menelusuri pohon
keputusan dari akar sampai daun. Setiap node dan syarat percabangan akan membentuk suatu kondisi atau
suatu if, sedangkan untuk nilai-nilai yang terdapat pada daun akan membentuk suatu hasil atau suatu then.
Information Gain
Information gain adalah salah satu attribute selection measure yang digunakan untuk memilih test attribute tiap
node pada tree. Atribut dengan informasi gain tertinggi dipilih sebagai test atribut dari suatu node (Sunjana,
2010). Dalam prosesnya perhitungan gain bisa terjadi atau tidak suatu missing value.
Konsep Gain
Gain (S,A) merupakan perolehan informasi dari atribut A relative terhadap output data S.
3
Perolehan informasi didapat dari output data atau variable dependent S yang dikelompokkan
berdasarkan atribut A, dinotasikan dengan gain (S,A).
Gambar 1.0
Rumus Gain
Konsep Entropi
Entropy (S) merupakan jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak suatu kelas
(+ atau -) dari sejumlah data acak pada ruang sampel S.
Entropy dapat dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas.
Entropy digunakan untuk mengukur ketidakaslian S.
Gambar 2.0
Rumus Entropi
3.
N
o
1
2
3
4
5
Hasil dan Pembahasan
Nama Peserta
Andre Setiawan
Candra Halim
Ramdani Ridwan
Siti Aisyah
Putri Dianti
Tabel 1
Data Pelamar PT Telkom
Akreditas Umur
i
B
24
A
21
A
26
B
23
B
25
4
IPK
Nilai
Hasil
3.41
3.02
3.51
3.69
3.10
80
78
90
85
65
LULUS
LULUS
LULUS
LULUS
GAGAL
6
7
8
9
10
Jonni Pasaribu
Sella Wijaya
Adinda Putri
Oscar William
Endang
A
A
B
A
B
28
22
25
28
26
3.21
3.63
3.01
3.11
3.21
69
92
79
67
73
GAGAL
LULUS
LULUS
GAGAL
LULUS
Konversi Data Proses
Proses konversi data asli pelamar menjadi sebuah bilangan bulat untuk mempermudah matlab untuk melakukan
proses klasifikasi.
Tabel 2
Keterangan Tabel Konversi
Nama Variabel
Akreditasi
Keterangan
A
B
=26
=3.51
76
Umur
IPK
Nilai
Kelompok
1
2
1
2
1
2
1
2
Tabel 3
Data Pelamar Setelah Di Konversi
N
o
1
2
3
4
5
6
7
8
9
10
Nama Peserta
Akreditas
i
2
1
1
2
2
1
1
2
1
2
Andre Setiawan
Candra Halim
Ramdani Ridwan
Siti Aisyah
Putri Dianti
Jonni Pasaribu
Sella Wijaya
Adinda Putri
Oscar William
Endang
Umur
IPK
Nilai
Hasil
1
1
2
1
1
2
1
1
2
2
1
1
2
2
1
1
2
1
1
1
2
2
2
2
1
1
2
2
1
1
LULUS
LULUS
LULUS
LULUS
GAGAL
GAGAL
LULUS
LULUS
GAGAL
LULUS
Hitung Entropi
Entropi (S) = (-(7/10) x log2 (7/10)) + (-(3/10) x log 2 (3/10)) = 0.88129089923
Tabel 4
Entropi
Total Kasus
10
Sum(Ya)
7
Sum(Tidak)
3
Entropi Total
0.88129089923
Hitung Gain
Tabel 5
Data Gain
Nama
Variabel
Keteranga
n
Kelompo
k
Sum(Nilai Sum(Ya
)
)
5
Sum(Tidak
)
Entropi
Gain
Akreditas
i
A
1
5
3
2
B
2
5
4
1
=26
2
4
2
2
IPK
=3.51
76
2
6
6
0
Umur
0.9709505944
5
0.721928095
0.6500224216
4
1
0.9852281360
3
0
0.8112781244
5
0
0.0348515545
7
0.0912774462
4
0.191631204
0.5567796494
4
Entropi
1. Akreditasi A = (-(3/5) x log2 (3/5)) + (-(2/5) x log 2 (2/5)) = 0.97095059445
Akreditasi B = (-(4/5) x log2 (4/5)) + (-(1/5) x log 2 (1/5)) = 0.721928095
Gain untuk akreditasi = 0.88129089923 – ((5/10)* 0.97095059445 + (5/10)* 0.721928095)
= 0.88129089923 – ( 0.48547529722 + 0.36096404744)
= 0.88129089923 – 0.84643934466
= 0.03485155457
Entropi
2. Umur =26 = (-(2/4) x log2 (2/4)) + (-(2/4) x log 2 (2/4)) = 1
Gain untuk umur = 0.88129089923 – ((6/10)* 0.65002242164 + (4/10)*1)
= 0.88129089923 – (0.39001345298 + 0.4)
= 0.88129089923 – 0.79001345298
= 0.09127744624
Entropi
3. IPK = 3.51 = (-(3/3) x log2 (3/3)) + (-(0/3) x log 2 (0/3)) = 0
Gain untuk IPK = 0.88129089923 – ((7/10)* 0.98522813603 + (3/10)*0)
= 0.88129089923 – 0.68965969522
= 0.191631204
Entropi
4. Nilai 76 = (-(6/6) x log2 (6/6)) + (-(0/6) x log 2 (0/6)) = 0
Gain untuk nilai = 0.88129089923 – ((4/10)* 0.81127812445 +(6/10)*0))
= 0.88129089923 –0.32451124978
= 0.55677964944
Setelah itu table 1 difilter, dengan mengambil data yang nilai 76 -> LULUS
Jika Nilai LULUS
8
Entropi
0
0
1
0
Gain
1
0
Jika Akreditasi B, lihat Umur
Jika Umur GAGAL
Jika Umur >= 46 -> LULUS
4.
Kesimpulan dan Saran
Berdasarkan analisis pada PT Telkom, dapat disimpulkan bahwa perusahaan perlu menerapkan metode algoritma
apa yang sesuai dan cocok digunakan untuk kebutuhan dalam penerimaan pegawai perusahaan agar perusahaan
dapat berjalan secara efisien dan efektif, memiliki keunggulan dalam bersaing, dan mencapai tujuan dan sasaran
perusahaan dengan optimal.
Saran yang diusulkan penulis dalam perencanaan strategi sistem dan teknologi informasi pada PT Yuniko Asia
Prima adalah
1.Menambahkan metode lain dalam data mining sebagai proses perbandingan tingkat keakurasian klasifikasi
penerimaan pegawai.
2.Penelitian selanjutnya hendaknya menggunakan data yang lebih banyak agar menghasilkan informasi yang
lebih akurat.
9
Daftar Pustaka
http://www.ilmuskripsi.com/2016/07/algoritma-c45.html diakses pada Minggu, 19 November 2017 jam 23.55
WIB
http://www.academia.edu/6065920/Belajar_Mudah_Algoritma_Data_Mining_C4.5 diakses pada Minggu, 19
November 2017 jam 23.55 WIB
http://cahyadsn.dev.php.or.id/extra/c45.php diakses pada Minggu, 19 November 2017 jam 23.55 WIB
Jurnal Klasifikasi Data Mining untuk Penerimaan Calon Pegawai Negeri Sipil 2014 Menggunakan Algoritma
Decision Tree C4.5. Rendragraha Kumara. Universitas Dian Nuswantoro. Semarang
10
C4.5
Studi Kasus : PT TELKOM INDONESIA
Aileen Velishya
Program Studi Manajemen Informatika, Konsentrasi Sistem Informasi, STMIK LPKIA
Jln. Soekarno Hatta No. 456 Bandung 40266, Telp. 022 75642823, Fax. 022 7564282
[email protected]
1.
Pendahuluan
Untuk menunjang kinerja, sebuah perusahaan harus memiliki sumber daya manusia yang dapat diandalkan.
Dalam memperoleh sumber daya manusia atau yang biasa disebut pegawai perusahaan, maka perusahaan
melakukan proses seleksi atau rekrutmen untuk penerimaan pegawai. Dalam rangka mendapatkan SDM terbaik,
maka proses seleksi harus dilaksanakan dengan baik dan benar. Proses seleksi SDM memerlukan cara yang
terorganisir dan akurat agar menghasilkan SDM yang bermutu dan dapat mendukung kesuksesan organisasi.
SDM merupakan sebuah investasi bagi organisasi maupun perusahaan untuk dapat tumbuh dan berkembang
sesuai dengan visi dan misi perusahaan.
PT. Telkom merupakan perusahaan BUMN yang bergerak dibidang jasa layanan telekomunikasi. Tentunya
banyak pelamar dari seluruh Indonesia yang ingin bekerja di PT. Telkom. Oleh karena itu diperlukan objektivitas
dalam pengambilan keputusan. Pengambilan keputusan yang dilakukan oleh manusia masih banyak yang bersifat
subjektif. Belum lagi resiko nepotisme yang tidak dapat dihindari. Bila dibiarkan dalam jangka panjang, hal
tersebut dapat mempengaruhi kinerja organisasi. Tujuan seleksi pada dasarnya untuk mendapat orang yang tepat
untuk jabatan tertentu agar dapat bekerja secara optimal dalam waktu yang lama. Proses seleksi penerimaan
pegawai di PT.Telkom cukup panjang sehingga membutuhkan waktu yang cukup lama dan biaya yang tidak
sedikit dan tentunya itu semua untuk mendapatkan calon pegawai yang benar-benar sesuai dengan kriteria yang
tepat.
Tujuan penelitian ini adalah membuat klasifikasi penerimaan pegawai dengan menggunakan Decision Tree
oleh Algoritma C4.5. Hasil klasifikasi ini dapat digunakan untuk mengambil keputusan dalam proses penerimaan
pegawai.
Ruang Lingkup
Adapun ruang lingkup dalam penulisan jurnal ini adalah sebagai berikut :
a. Penelitian dilakukan di PT. Telkom
b. Penelitian dilakukan dengan menggunakan Algoritma C4.5
c. Data-data merupakan hasil rekayasa sampel dan bukan merupakan data sebenarnya
Tujuan
Membuat klasifikasi penerimaan pegawai di PT. Telkom dengan menggunakan Algoritma C4.5
2.
Dasar Teori
Algoritma C4.5 merupakan kelompok algoritma Decision Tree. Algoritma ini mempunyai input berupa training
samples dan samples. Training samples berupa data contoh yang akan digunakan untuk membangun sebuah tree
yang telah diuji kebenarannya. Sedangkan samples merupakan field-field data yang nantinya akan digunakan
sebagai parameter dalam melakukan klasifikasi data (Sunjana, 2010)
Algoritma C 4.5 adalah salah satu metode untuk membuat decision tree berdasarkan training data yang telah
disediakan. Algoritma C 4.5 dibuat oleh Ross Quinlan yang merupakan pengembangan dari ID3 yang juga
dibuat oleh Quinlan (Quinlan, 1993). Beberapa pengembangan yang dilakukan pada C4.5 adalah sebagai antara
lain bisa mengatasi missing value, bisa mengatasi continue data, dan pruning.
Klasifikasi
Klasifikasi data merupakan suatu proses yang menemukan properti-properti yang sama pada sebuah himpunan
obyek di dalam sebuah basis data dan mengklasifikasikannya ke dalam kelas-kelas yang berbeda menurut model
klasifikasi yang ditetapkan. Tujuan dari klasifikasi adalah untuk menemukan model dari training set yang
1
membedakan atribut ke dalam kategori atau kelas yang sesuai, model tersebut kemudian digunakan untuk
mengklasifikasikan atribut yang kelasnya belum diketahui sebelumnya. Teknik klasifikasi terbagi menjadi
beberapa teknik yang diantaranya adalah Pohon Keputusan.
Pohon Keputusan (Decision Tree)
Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Metode pohon
keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan. Aturan
dapat dengan mudah dipahami dengan bahasa alami. Dan mereka juga dapat diekspresikan dalam bentuk bahasa
basis data seperti Structured Query Language untuk mencari record pada kategori tertentu. Pohon keputusan
juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel
input dengan sebuah variabel target.
Karena pohon keputusan memadukan antara eksplorasi data dan pemodelan, pohon keputusan sangat bagus
sebagai langkah awal dalam proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik
lain. Sebuah pohon keputusan adalah sebuah struktur yang dapat digunakan untuk membagi kumpulan data yang
besar menjadi himpunan-himpunan record yang lebih kecil dengan menerapkan serangkaian aturan keputusan.
Dengan masing- masing rangkaian pembagian, anggota himpunan hasil menjadi mirip satu dengan yang lain
(Berry dan Linoff, 2004).
Sebuah model pohon keputusan terdiri dari sekumpulan aturan untuk membagi sejumlah populasi yang
heterogen menjadi lebih kecil, lebih homogen dengan memperhatikan pada variabel tujuannya. Sebuah pohon
keputusan mungkin dibangun dengan seksama secara manual atau dapat tumbuh secara otomatis dengan
menerapkan salah satu atau beberapa algoritma pohon keputusan untuk memodelkan himpunan data yang belum
terklasifikasi.
Variabel tujuan biasanya dikelompokkan dengan pasti dan model pohon keputusan lebih mengarah pada
perhitungan probability dari tiap-tiap record terhadap kategori-kategori tersebut atau untuk mengklasifikasi
record dengan mengelompokkannya dalam satu kelas. Pohon keputusan juga dapat digunakan untuk
mengestimasi nilai dari variabel continue meskipun ada beberapa teknik yang lebih sesuai untuk kasus ini.
Banyak algoritma yang dapat dipakai dalam pembentukan pohon keputusan,antara lain ID3, CART, dan C4.5
(Larose, 2006).
Data dalam pohon keputusan biasanya dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut
menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan pohon. Misalkan untuk
menentukan main tenis, kriteria yang diperhatikan adalah cuaca, angin, dan temperatur.
Salah satu atribut merupakan atribut yang menyatakan data solusi per item data yang disebut target atribut.
Atribut memiliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut cuaca mempunyai instance
berupa cerah, berawan, dan hujan (Basuki dan Syarif, 2003)
Proses pada pohon keputusan adalah mengubah bentuk data (tabel) menjadi model pohon, mengubah model
pohon menjadi rule, dan menyederhanakan rule (Basuki dan Syarif, 2003).
Algoritma C4.5
Berikut ini algoritma dasar dari C4.5: Input : sampel training, label training, atribut
1.
Membuat simpul akar untuk pohon yang dibuat
2.
Jika semua sampel positif, berhenti dengan suatu pohon dengan satu simpul akar, beri tanda (+)
3.
Jika semua sampel negatif, berhenti dengan suatu pohon dengan satu simpul akar, beri tanda (-)
2
4.
Jika atribut kosong, berhenti dengan suatu pohon dengan suatu simpul akar, dengan label sesuai nilai
yang terbanyak yang ada pada label training
5.
Untuk yang lain, Mulai
A.
A ------ atribut yang mengklasifikasikan sampel dengan hasil terbaik (berdasarkan Gain rasio)
B.
Atribut keputusan untuk simpul akar ----- A
C.
Untuk setiap nilai, vi, yang mungkin untuk A
a.
Tambahkan cabang di bawah akar yang berhubungan dengan A= vi
b.
Tentukan sampel Svi sebagai subset dari sampel yang mempunyai nilai vi untuk
atrribut A
c.
Jika sampel Svi kosong
Di bawah cabang tambahkan simpul daun dengan label = nilai yang
terbanyak yang ada pada label training
Yang lain tambah cabang baru di bawah cabang yang sekarang C4.5 (sampel
training, label training, atribut-[A])
D.
Berhenti
Mengubah tree yang dihasilkan dalam beberapa rule. Jumlah rule sama dengan jumlah path yang mungkin dapat
dibangun dari root sampai leaf node.
Prinsip Kerja
Pada tahap pembelajaran algoritma C4.5 memiliki 2 prinsip kerja yaitu:
1.
Pembuatan pohon keputusan. Tujuan dari algoritma penginduksi pohon keputusan adalah
mengkontruksi struktur data pohon yang dapat digunakan untuk memprediksi kelas dari sebuah kasus atau
record baru yang belum memiliki kelas. C4.5 melakukan konstruksi pohon keputusan dengan metode divide
and conquer. Pada awalnya hanya dibuat node akar dengan menerapkan algoritma divide and conquer.
Algoritma ini memilih pemecahan kasus-kasus yang terbaik dengan menghitung dan membandingkan gain
ratio, kemudian node-node yang terbentuk di level berikutnya, algoritma divide and conquer akan diterapkan
lagi sampai terbentuk daun-daun.
2.
Pembuatan aturan-aturan (rule set). Aturan-aturan yang terbentuk dari pohon keputusan akan
membentuk suatu kondisi dalam bentuk if-then. Aturan-aturan ini didapat dengan cara menelusuri pohon
keputusan dari akar sampai daun. Setiap node dan syarat percabangan akan membentuk suatu kondisi atau
suatu if, sedangkan untuk nilai-nilai yang terdapat pada daun akan membentuk suatu hasil atau suatu then.
Information Gain
Information gain adalah salah satu attribute selection measure yang digunakan untuk memilih test attribute tiap
node pada tree. Atribut dengan informasi gain tertinggi dipilih sebagai test atribut dari suatu node (Sunjana,
2010). Dalam prosesnya perhitungan gain bisa terjadi atau tidak suatu missing value.
Konsep Gain
Gain (S,A) merupakan perolehan informasi dari atribut A relative terhadap output data S.
3
Perolehan informasi didapat dari output data atau variable dependent S yang dikelompokkan
berdasarkan atribut A, dinotasikan dengan gain (S,A).
Gambar 1.0
Rumus Gain
Konsep Entropi
Entropy (S) merupakan jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak suatu kelas
(+ atau -) dari sejumlah data acak pada ruang sampel S.
Entropy dapat dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas.
Entropy digunakan untuk mengukur ketidakaslian S.
Gambar 2.0
Rumus Entropi
3.
N
o
1
2
3
4
5
Hasil dan Pembahasan
Nama Peserta
Andre Setiawan
Candra Halim
Ramdani Ridwan
Siti Aisyah
Putri Dianti
Tabel 1
Data Pelamar PT Telkom
Akreditas Umur
i
B
24
A
21
A
26
B
23
B
25
4
IPK
Nilai
Hasil
3.41
3.02
3.51
3.69
3.10
80
78
90
85
65
LULUS
LULUS
LULUS
LULUS
GAGAL
6
7
8
9
10
Jonni Pasaribu
Sella Wijaya
Adinda Putri
Oscar William
Endang
A
A
B
A
B
28
22
25
28
26
3.21
3.63
3.01
3.11
3.21
69
92
79
67
73
GAGAL
LULUS
LULUS
GAGAL
LULUS
Konversi Data Proses
Proses konversi data asli pelamar menjadi sebuah bilangan bulat untuk mempermudah matlab untuk melakukan
proses klasifikasi.
Tabel 2
Keterangan Tabel Konversi
Nama Variabel
Akreditasi
Keterangan
A
B
=26
=3.51
76
Umur
IPK
Nilai
Kelompok
1
2
1
2
1
2
1
2
Tabel 3
Data Pelamar Setelah Di Konversi
N
o
1
2
3
4
5
6
7
8
9
10
Nama Peserta
Akreditas
i
2
1
1
2
2
1
1
2
1
2
Andre Setiawan
Candra Halim
Ramdani Ridwan
Siti Aisyah
Putri Dianti
Jonni Pasaribu
Sella Wijaya
Adinda Putri
Oscar William
Endang
Umur
IPK
Nilai
Hasil
1
1
2
1
1
2
1
1
2
2
1
1
2
2
1
1
2
1
1
1
2
2
2
2
1
1
2
2
1
1
LULUS
LULUS
LULUS
LULUS
GAGAL
GAGAL
LULUS
LULUS
GAGAL
LULUS
Hitung Entropi
Entropi (S) = (-(7/10) x log2 (7/10)) + (-(3/10) x log 2 (3/10)) = 0.88129089923
Tabel 4
Entropi
Total Kasus
10
Sum(Ya)
7
Sum(Tidak)
3
Entropi Total
0.88129089923
Hitung Gain
Tabel 5
Data Gain
Nama
Variabel
Keteranga
n
Kelompo
k
Sum(Nilai Sum(Ya
)
)
5
Sum(Tidak
)
Entropi
Gain
Akreditas
i
A
1
5
3
2
B
2
5
4
1
=26
2
4
2
2
IPK
=3.51
76
2
6
6
0
Umur
0.9709505944
5
0.721928095
0.6500224216
4
1
0.9852281360
3
0
0.8112781244
5
0
0.0348515545
7
0.0912774462
4
0.191631204
0.5567796494
4
Entropi
1. Akreditasi A = (-(3/5) x log2 (3/5)) + (-(2/5) x log 2 (2/5)) = 0.97095059445
Akreditasi B = (-(4/5) x log2 (4/5)) + (-(1/5) x log 2 (1/5)) = 0.721928095
Gain untuk akreditasi = 0.88129089923 – ((5/10)* 0.97095059445 + (5/10)* 0.721928095)
= 0.88129089923 – ( 0.48547529722 + 0.36096404744)
= 0.88129089923 – 0.84643934466
= 0.03485155457
Entropi
2. Umur =26 = (-(2/4) x log2 (2/4)) + (-(2/4) x log 2 (2/4)) = 1
Gain untuk umur = 0.88129089923 – ((6/10)* 0.65002242164 + (4/10)*1)
= 0.88129089923 – (0.39001345298 + 0.4)
= 0.88129089923 – 0.79001345298
= 0.09127744624
Entropi
3. IPK = 3.51 = (-(3/3) x log2 (3/3)) + (-(0/3) x log 2 (0/3)) = 0
Gain untuk IPK = 0.88129089923 – ((7/10)* 0.98522813603 + (3/10)*0)
= 0.88129089923 – 0.68965969522
= 0.191631204
Entropi
4. Nilai 76 = (-(6/6) x log2 (6/6)) + (-(0/6) x log 2 (0/6)) = 0
Gain untuk nilai = 0.88129089923 – ((4/10)* 0.81127812445 +(6/10)*0))
= 0.88129089923 –0.32451124978
= 0.55677964944
Setelah itu table 1 difilter, dengan mengambil data yang nilai 76 -> LULUS
Jika Nilai LULUS
8
Entropi
0
0
1
0
Gain
1
0
Jika Akreditasi B, lihat Umur
Jika Umur GAGAL
Jika Umur >= 46 -> LULUS
4.
Kesimpulan dan Saran
Berdasarkan analisis pada PT Telkom, dapat disimpulkan bahwa perusahaan perlu menerapkan metode algoritma
apa yang sesuai dan cocok digunakan untuk kebutuhan dalam penerimaan pegawai perusahaan agar perusahaan
dapat berjalan secara efisien dan efektif, memiliki keunggulan dalam bersaing, dan mencapai tujuan dan sasaran
perusahaan dengan optimal.
Saran yang diusulkan penulis dalam perencanaan strategi sistem dan teknologi informasi pada PT Yuniko Asia
Prima adalah
1.Menambahkan metode lain dalam data mining sebagai proses perbandingan tingkat keakurasian klasifikasi
penerimaan pegawai.
2.Penelitian selanjutnya hendaknya menggunakan data yang lebih banyak agar menghasilkan informasi yang
lebih akurat.
9
Daftar Pustaka
http://www.ilmuskripsi.com/2016/07/algoritma-c45.html diakses pada Minggu, 19 November 2017 jam 23.55
WIB
http://www.academia.edu/6065920/Belajar_Mudah_Algoritma_Data_Mining_C4.5 diakses pada Minggu, 19
November 2017 jam 23.55 WIB
http://cahyadsn.dev.php.or.id/extra/c45.php diakses pada Minggu, 19 November 2017 jam 23.55 WIB
Jurnal Klasifikasi Data Mining untuk Penerimaan Calon Pegawai Negeri Sipil 2014 Menggunakan Algoritma
Decision Tree C4.5. Rendragraha Kumara. Universitas Dian Nuswantoro. Semarang
10