KLASIFIKASI LAMA KERJA DOSEN FAKULTAS TEKNIK UMY DENGAN MENERAPKAN METODE DECISION TREE DENGAN ALGORITMA C.45

(1)

LAPORAN SKRIPSI

KLASIFIKASI LAMA KERJA DOSEN FAKULTAS TEKNIK

UMY DENGAN MENERAPKAN METODE DECISION TREE

DENGAN ALGORITMA C.45

Disusun oleh :

WAHYUDI SAPUTRA

20120140120

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS TEKNIK UNIVERSITAS MUHAMMADIYAH

YOGYAKARTA


(2)

HALAMAN PERSEMBAHAN

هتاكربو ه ةمْحرو ْ كْي ع اَسلا

Puji syukur penulis panjatkan kepada ALLAH SWT atas segalah berkah, rahmat, hidayah, kemudahan serta kelancaran yang diberikan kepada penulis. Tak lupa pula penulis ucapkan salam kepada Nabi Muhammad SAW.

Satu kata sederhana yang mampu saya persembahkan kepada ibunda tercinta

“TERIMAKASIH”, terimakasih atas doa restu yang engkau tanamkan dalam setiap sujud doa.

Ayahanda tercinta yang telah berpulang ke rahmatullah 17 Mei 2016, terimakasih telah mengajarkan saya sebuah kerja keras dalam mencapai suatu tujuan dan mendukung

saat senang maupun sedih hingga perkataan yang tidak pernah saya lupakan “malas

adalah teman sekaligus musuh mu, gunakan waktu mu sebaik mungkin karena umur siapa

yang tahu ”


(3)

UCAPAN TERIMAKASIH

هتاكربو ه ةمْحرو ْ كْي ع اَسلا

Ucapan terimakasih penulis haturkan kepada beberapa pihak yang sangat membantu, baik bantuan langsung ataupun inspirator diantaranya:

1. Dosen pembimbing I bapak Eko Prasetyo, Ir. M.Eng. dan pembimbing II bapak Asroni, S.T. M.Eng. yang telah banyak memberi masukan dan ilmu dalam menyusun laporan ini.

2. Dr. Dian Pratiwi, SP. PD. yang merupakan inspirator psikis penulis dalam membangun fikiran positif.

3. Agus Hermawan S.T. selaku penasehat penulis dalam menyusun laporan.

4. Lastri Utami selaku patner yang selalu menasehati penulis sehingga penulis sehat walafiat tanpa kekurangan apapun dan mendukung didalam suka maupun duka.

5. Bapak Banser dan ibu selaku orang tua angkat, tempat mencurahkan keluh kesah penulis.

6. Dede dan Andri selaku teman seperjuangan dalam penelitian yang sama dan menghabiskan waktu 6 bulan bersama untuk menyelesaikan penelitian ini.

7. Teman angkatan 2012 jurusan Teknologi Informasi khususnya kelas C. Terimakasih telah mengajarkan arti kekeluargaan meskipun sifat berbeda – beda, hitam dan putih dari sabang hingga marauke tapi kita tetap solid hingga waktu kurang lebih 4 tahun ini.


(4)

(5)

INTISARI

KLASIFIKASI LAMA KERJA DOSEN FAKULTAS TEKNIK UNIVERSITAS MUHAMMADIYAH YOGYAKARTA DENGAN MENERAPKAN METODE

DECISION TREE DENGAN ALGORITMA C.45

Data mining merupakan salah satu teknik analisa yang sangat berguna untuk mencari sebuah informasi didalam data. Ada beberapa teknik data mining dalam melakukan pengolahan data tersebut yaitu klasifikasi dan didalam teknik klasifikasi ada beberapa metode yaitu algoritma C.45 yang membentuk sebuah pohon keputusan atau decision tree. Decision tree berfungsi sebagai prediksi membuat data menjadi sebuah pohon keputusan yang mudah dipahami hasilnya. Dalam hal ini pengujian klasifikasi dengan metode decision tree diterapkan dalam pencarian informasi dari data dosen Fakultas Teknik Universitas Muhammadiyah Yogyakarta yang terdiri dari Fakultas Teknik Sipil, Teknologi Informasi, Teknik Mesin dan Teknik Elektro dengan jumlah 31 dosen. 15 dari dosen Teknik Sipil, 10 dari dosen Teknik Mesin, 4 dari dosen Teknologi Informasi dan 2 dari dosen Teknik Elektro. Pada penelitian ini pengukuran data menggunakan entropy total dan information gain, gain yang paling tertinggi akan menjadi root node. Dan hasil penelitian ini menunjukan adanya pengklasifikasian pada lama kerja dosen menggunakan metode Decision Tree dan algoritma C.45.


(6)

DAFTAR ISI

HALAMAN PENGESAHAN I ... Error! Bookmark not defined. HALAMAN PENGESAHAN II ... Error! Bookmark not defined.

HALAMAN PERSEMBAHAN ... i

UCAPAN TERIMAKASIH... ii

KATA PENGANTAR ... Error! Bookmark not defined. INTISARI ... iv

DAFTAR ISI ... 5

DAFTAR GAMBAR ... 7

DAFTAR TABEL ... 10

DAFTAR LAMPIRAN ... 11 BAB I ... Error! Bookmark not defined. PENDAHULUAN ... Error! Bookmark not defined.

1.1. Latar Belakang ... Error! Bookmark not defined. 1.2. Rumusan Masalah ... Error! Bookmark not defined. 1.3. Tujuan Penelitian ... Error! Bookmark not defined. 1.4. Batasan Masalah... Error! Bookmark not defined. 1.5. Manfaaat Penelitian ... Error! Bookmark not defined. 1.6. Sistematika Penulisan ... Error! Bookmark not defined. 1.7. Keaslian Penelitian ... Error! Bookmark not defined. BAB II ... Error! Bookmark not defined. TINJAUAN PUSTAKA DAN LANDASAN TEORI ...Error! Bookmark not defined.

2.1. Tinjauan Pustaka ... Error! Bookmark not defined. 2.2. Landasan Teori ... Error! Bookmark not defined.

2.2.1. Data Mining ... Error! Bookmark not defined. 2.2.2. Klasifikasi ... Error! Bookmark not defined. 2.2.3. Algoritma ID3 ... Error! Bookmark not defined. 2.2.4. Algoritma C.45 ... Error! Bookmark not defined.


(7)

BAB III ... Error! Bookmark not defined. METODOLOGI ... Error! Bookmark not defined. 3.1. Prosedur Penelitian ... Error! Bookmark not defined. 3.1.1. Identifikasi Masalah ... Error! Bookmark not defined. 3.1.2. Menentukan Metode Data mining ... Error! Bookmark not defined. 3.1.3. Analisis Data ... Error! Bookmark not defined. 3.1.4. Pemilihan data... Error! Bookmark not defined. 3.1.5. Pengolahan data ... Error! Bookmark not defined. 3.1.6. Pengujian Data ... Error! Bookmark not defined. 3.2. Bahan Penelitian ... Error! Bookmark not defined.

3.2.1. Literatur ... Error! Bookmark not defined. 3.2.2. Data Institusi Universitas ... Error! Bookmark not defined. 3.3. Alat Penelitian ... Error! Bookmark not defined. 3.3.1. SQL Server 2014 ... Error! Bookmark not defined. 3.3.2. WEKA ... Error! Bookmark not defined. 3.3.3. RapidMiner ... Error! Bookmark not defined. 3.3.4. Microsoft Excel 2013... Error! Bookmark not defined. BAB IV ... Error! Bookmark not defined. HASIL PENGUJIAN DAN PEMBAHASAN .... Error! Bookmark not defined.

4.1. Pengambilan Data ... Error! Bookmark not defined. 4.2. Data Sampel ... Error! Bookmark not defined. 4.3. Pengujian Dengan WEKA ... Error! Bookmark not defined. 4.4. Pengujian Dengan RapidMiner ... Error! Bookmark not defined. 4.5. Perbandingan Hasil Pengujian ... Error! Bookmark not defined. 4.6. Perhitungan Entropy dan Gain ... Error! Bookmark not defined. BAB V ... Error! Bookmark not defined. KESIMPULAN DAN SARAN ... Error! Bookmark not defined.

5.1. Kesimpulan ... Error! Bookmark not defined. 5.1. Saran ... Error! Bookmark not defined. DAFTAR PUSTAKA ... Error! Bookmark not defined. LAMPIRAN ... 60


(8)

DAFTAR GAMBAR

Gambar 2.1 Informasi Nilai Gain...4

Gambar 2.2 Proses dari KDD (Knowledge Discovery in Database)...10

Gambar 3.1 Kerangka Pemikiran...15

Gambar 4.1 Antar Muka Sql Server 2014...20

Gambar 4.2 Antar Muka Awal Sql Server 2014...21

Gambar 4.3 Menghubungkan ke Server...21

Gambar 4.4 Database Server BSI...22

Gambar 4.5 Membuat Tabel Baru...23

Gambar 4.6 Antar Muka Membuat View Baru...23

Gambar 4.7 Hasil Dari Pembuatan Data Baru...24

Gambar 4.8 Filter Data...25

Gambar 4.9 Hasil Dari Filter Data...25

Gambar 4.10 Menyimpan Data...26

Gambar 4.11 Data DataKaryawan Sudah Ada difolder Views...26

Gambar 4.12 Sebelum Pengolahan Data...27

Gambar 4.13 Sesudah Pengolahan Data...28

Gambar 4.14 Menentukan jarak...29

Gambar 4.15 Antar Muka Awal WEKA...33


(9)

Gambar 4.17 Antar Muka Praproses...34

Gambar 4.18 Memilih File...35

Gambar 4.19 Antar Muka Praproses...35

Gambar 4.20 Memilih Metode...36

Gambar 4.21 Memilih Atribut Target...37

Gambar 4.22 Hasil Pengujian WEKA...37

Gambar 4.23 Hasil Pohon Keputusan Dari WEKA...38

Gambar 4.24 Antar Muka RapidMiner Versi 7.2...39

Gambar 4.25 Antar Muka Awal...39

Gambar 4.26 Antar Muka Halama Utama...40

Gambar 4.27 Panel Operators...40

Gambar 4.28 Panel Operators...41

Gambar 4.29 Panel Process...41

Gambar 4.30 Pencarian Data...42

Gambar 4.31 Pengaturan Data Import...43

Gambar 4.32 Panel Process...45

Gambar 4.33 Panel Process Validation...45

Gambar 4.34 Subproses Training dan Testing...46

Gambar 4.35 Subproses Training dan Testing...48

Gambar 4.36 Parameter ID3...48


(10)

Gambar 4.38 Data Sampel Baru...50

Gambar 4.39 Hasil Akurasi...51

Gambar 4.40 Hasil Statistik...51


(11)

DAFTAR TABEL

Tabel 4.1 Menentukan Jarak...32

Tabel 4.2 Tabel Fungsi Operator...44

Tabel 4.3 Tabel Fungsi Operator...47

Tabel 4.4 Daftar Golongan Lama Kerja...50

Tabel 4.5 Perbandingan Hasil Pengujian...53


(12)

DAFTAR LAMPIRAN

Lampiran A Tabel Lengkap Data Sampel Dosen Fakultas Teknik Universitas Muhammadiyah Yogyakarta.

Lampiran B Tabel Data Sampel uji.

Lampiran C Pohon Keputusan Hasil Klasifikasi Dosen Fakultas Teknik Universitas Muhammadiyah Yogyakarta.

Lampiran D Tabel Hasil Perhitungan Entropy dan Gain Node 1 Lampiran D-1 Perhitungan Entropy Total

Lampiran D-2 Perhitungan Work Unit Name Lampiran D-3 Perhitungan Entropy Status Lampiran D-4 Perhitungan Entropy Jarak

Lampiran D-5 Perhitungan Gain Work Unit Name Lampiran D-6 Perhitungan Gain Status

Lampiran D-7 Perhitungan Gain jarak Lampiran E Perhitungan Node 2 Lampiran E-1 Perhitungan Gain Node 1


(13)

(14)

(15)

INTISARI

KLASIFIKASI LAMA KERJA DOSEN FAKULTAS TEKNIK UNIVERSITAS MUHAMMADIYAH YOGYAKARTA DENGAN MENERAPKAN METODE DECISION TREE DENGAN ALGORITMA

C.45

Data mining merupakan salah satu teknik analisa yang sangat berguna untuk mencari sebuah informasi didalam data. Ada beberapa teknik data mining dalam melakukan pengolahan data tersebut yaitu klasifikasi dan didalam teknik klasifikasi ada beberapa metode yaitu algoritma C.45 yang membentuk sebuah pohon keputusan atau decision tree. Decision tree berfungsi sebagai prediksi membuat data menjadi sebuah pohon keputusan yang mudah dipahami hasilnya. Dalam hal ini pengujian klasifikasi dengan metode decision tree diterapkan dalam pencarian informasi dari data dosen Fakultas Teknik Universitas Muhammadiyah Yogyakarta yang terdiri dari Fakultas Teknik Sipil, Teknologi Informasi, Teknik Mesin dan Teknik Elektro dengan jumlah 31 dosen. 15 dari dosen Teknik Sipil, 10 dari dosen Teknik Mesin, 4 dari dosen Teknologi Informasi dan 2 dari dosen Teknik Elektro. Pada penelitian ini pengukuran data menggunakan entropy total dan information gain, gain yang paling tertinggi akan menjadi root node. Dan hasil penelitian ini menunjukan adanya pengklasifikasian pada lama kerja dosen menggunakan metode Decision Tree dan algoritma C.45.


(16)

BAB I PENDAHULUAN

1.1.Latar Belakang

Data mining ditujukan untuk mencari pola penting dari data yang tidak bisa ditemukan secara langsung mengingat jumlah data yang sangat beragam dan faktor-faktor yang dapat mempengaruhi pola-pola tersebut. Tujuan menggunakan data mining adalah agar pola-pola tersebut dapat dimanfaatkan untuk menghasilkan sesuatu yang berguna bagi perusahaan. Ada banyak data yang ada dalam sebuah perusahaan, jika data tersebut tidak digunakan maka data tersebut hanya akan menjadi sebuah tumpukan data yang tidak ada nilainya. Padahal dengan data mining tumpukan data tersebut dapat dianalisis sehingga dihasilkan pola yang dapat digunakan untuk melakukan prediksi terhadap perusahaan di masa yang akan datang.

Tidak hanya di perusahaan, data mining juga bisa digunakan oleh pihak mana saja asal ada data besar. di perguruan tinggi misalnya tidak mungkin pihak intitusi tidak memiliki data server untuk menyimpan data setiap mahasiswa dan karyawan, contohnya saja data dari dosen Universitas Muhammadiyah Yogyakarta yang mencapai 600 orang. Setiap dosen memiliki data pribadi yang tersimpan dalam sebuah database server. Data ini bisa dimanfaatkan dengan menggali data tersebut untuk mencari sebuah informasi yang tersembunyi dengan cara klasifikasi, teknik klasifikasi adalah sebuah metode dari data mining yang digunakan untuk memprediksi kategori atau kelas dari suatu data instance berdasarkan sekumpulan atribut-atribut dari data tersebut sedangkan algoritma C.45 digunakan untuk melakukan klasifikasi atau segmentasi atau pengelompokan data yang bersifat prediktif, algoritma C.45 adalah proses pembentukan decision tree.


(17)

1.2. Rumusan Masalah

Masalah yang dapat dirumuskan berdasarkan penjelasan latar belakang adalah sebagai berikut:

1. Menggali data dosen Universitas Muhammadiyah Yogyakarta dengan menggunakan metode data mining.

2. Memanfaatkan teknik klasifikasi untuk menggali data tersebut agar bisa menjadi sebuah informasi.

3. Decision Tree dapat memprediksi data menjadi sebuah pohon keputusan.

1.3. Tujuan Penelitian

Adapun tujuan dari penelitian ini adalah sebagai berikut:

1. Mencari informasi lama kerja dosen Fakultas Teknik Universitas Muhammadiyah Yogyakarta dengan metode Decision Tree.

2. Mencari tahu cara kerja dari teknik klasifikasi dengan mengunakan algoritma C.45.

1.4. Batasan Masalah

Mengingat luasnya ruang lingkup penelitian dalam implementasi teknik – teknik data mining, maka penelitian ini dibatasi pada:

1. Sumber data untuk penelitian ini, diperoleh dari database server BSI (Biro Sistem Informasi) Universitas Muhammadiyah Yogyakarta.

2. Data yang diambil untuk keperluan penelitian adalah data Dosen Fakultas Teknik Universitas Muhammadiyah Yogyakarta.

3. Analisis data dalam penelitian ini akan menggunakan bantuan perangkat lunak data mining yang berbasis open source seperti RapidMiner dan Office Excel 2013.


(18)

1.5. Manfaaat Penelitian

Penelitian ini secara teoritis diharapkan akan bermanfaat menambah pengetahuan dan variasi penelitian dalam penerapan teknik-teknik data mining pada area institusi. Hasil dari penelitian ini diharapkan dapat dijadikan sebagai perbandingan bagi peneliti lain yang tertarik dalam penerapan teknik – teknik data mining pada area tersebut.

Secara praktis hasil penelitian ini juga dapat bermanfaat bagi institusi pendidikan tinggi sebagai referensi dan sebagai informasi pendukung dalam mengambil kebijakan strategis. Model prediksi yang diperoleh dari penelitian ini juga dapat dipergunakan oleh institusi pendidikan tinggi yang memiliki program sarjana, sebagai sistem informasi pendukung untuk promosi dengan sasaran mahasiswa yang sedang mengikuti program Strata – 1.

1.6. Sistematika Penulisan

Sistematika penulisan disajikan untuk memberikan gambaran dari keseluruhan isi penelitian. Sistematika yang jelas dan terarah dapat dengan mudah dipahami oleh pembaca. Penulisan dalam penelitian ini dibagi ke dalam lima (5) bab, di antaranya sebagai berikut:

BAB I: PENDAHULUAN

Bab ini berisi latar belakang masalah, rumusan masalah, tujuan, batasan masalah manfaat, sistematika penulisan serta keaslian penulisan.

BAB II : TINJAUAN PUSTAKA DAN LANDASAN TEORI

Bab ini memuat uraian tentang tinjauan pustaka terdahulu dan landasan teori yang relevan dan terkait dengan tema skripsi yaitu berupa artikel ilmiah, hasil penelitian maupun buku.

BAB III : METODOLOGI

Bab ini memuat secara rinci langkah – langkah penelitian serta software pendukung didalam penelitian.


(19)

BAB IV: HASIL PENGUJIAN DAN PEMBAHASAN

Bab ini memuat hasil penelitian penulis yang menjelaskan tentang Klasifikasi Lama Kerja Dosen Fakultas Teknik Dengan Menerapkan Metode Decision Tree Dan Algoritma C.45 serta pengujian hipotesis disertai pembahasan yang diperoleh dari hasil pengukuran.

BAB V: KESIMPULAN

Bab terakhir ini berisi kesimpulan, saran. Kesimpulan diperoleh berdasarkan hasil analisis dan interpretasi data yang menyajikan secara ringkas seluruh penemuan penelitian yang ada hubungannya dengan masalah penelitian. Saran dirumuskan berdasarkan hasil penelitian, berisi uraian mengenai langkah-langkah apa yang perlu diambil oleh pihak-pihak terkait dengan hasil penelitian yang bersangkutan.

1.7. Keaslian Penelitian

Penggunaan data mining didunia pendidikan sudah banyak dilakukan untuk berbagai keperluan, diantaranya untuk menentukan faktor yang mempengaruhi kesuksesan siswa. Berbagai penyesuaian dan pengembangan metode dilakukan untuk menghasilkan model dengan tingkat kesalahan yang minimal sehingga dapat merepresentasikan kondisi yang sebenarnya dan dapat menarik kesimpulan yang tepat.

Penelitian yang menggunakan teknik data mining dengan metode klasifikasi juga sudah banyak dilakukan, seperti yang paling populer adalah prediksi cuaca. Namun untuk prediksi lama kerja dosen Universitas Muhammadiyah Yogyakarta dengan menerapkan metode Decision Tree dan algoritma C.45 tidak pernah ada sebelumnya di Universitas Muhammadiyah Yogyakarta karena penelitian ini merupakan penelitian pertama dengan mengangkat tema data mining, artinya tidak ada penelitian serupa sehingga keaslian penelitian ini sangat bisa dipertanggung jawabkan.


(20)

BAB II

TINJAUAN PUSTAKA DAN LANDASAN TEORI

2.1. Tinjauan Pustaka

Tinjauan pustaka atau disebut juga kajian pustaka (literature review) merupakan sebuah aktivitas untuk meninjau atau mengkaji kembali berbagai literatur yang telah dipublikasikan oleh akademisi atau peneliti lain terkait topik yang diteliti. Peneliti telah merangkum kajian pustaka yang akan menjadi acuan peneliti melakukan penelitian, diantaranya:

Julce Adiana Sidette, Eko Sediyono, Oky Dwi Nurhayati (2014) melakukan penelitian dengan topik “Pendekatan Metode Pohon Keputusan Menggunakan Decision Tree Untuk Sistem Informasi Pengukuran Kinerja PNS”. Mereka melakukan observasi dengan tahapan penelitian mengidentifikasi dan merumuskan masalah lalu diikuti dengan penentuan atribut yang menjadi objek penelitian.

Dimana 127 sampel data pegawai mulai dari P1 sampai P127 yang diambil penilaianya dan kelas yang mereka pilih adalah bagus dan buruk. Dari 127 pegawai yang masuk dalam kelas bagus adalah 56 dan yang masuk dalam kelas buruk adalah 71 dengan hasil entropy total 0,9899. lalu setelah entropy total diketahui dihitung gain dari tiap tiap atribut dan hasilnya dapat dilihat pada gambar dibawah ini.


(21)

Gambar 2.1 Informasi Nilai Gain

Dari hasil penelitian yang dilakukan Julce Adiana dkk maka dapat disimpulkan nilai gain kepemimpinan adalah menjadi yang terbesar jadi bisa dipastikan akan menjadi root pada pohon keputusan.

Windy Julianto, Rika Yunitarini, Mochammad Kautsar Sophan (2014) dari Universitas Trunojoyo Madura melakukan penelitian tentang “Algoritma C.45 Penilaian Untuk Kinerja Karyawan” dengan permasalahan minimnya tatap muka antara manager dan karyawan sehingga mereka membuat sistem pendukung keputusan untuk menilai kinerja karyawan dengan metode data mining. Sistem yang mereka bangun memakai beberapa kriteria antara lain: komunikasi, orientasi prestasi, inisiatif, pemikiran analitis, kepedulian terhadap tugas, kerja sama, pelayanan pelanggan, kerapian administrasi, pengaturan kerja, kemampuan teknis dan fungsionalitas.

Metodologi dari penelitian mereka menggunakan algoritma C.45 untuk membangun sebuah pohon keputusan atau decision tree dan untuk tes ukuran dari teori informasinya menggunakan entropy dan informasi gain. Perhitungan gain masih memiliki kekurangan. Salah satu kekurangan tersebut yakni pemilihan atribut yang tidak relevan sebagai pemartisi pada suatu simpul dan gain ratio merupakan normalisasi yang memperhitungkan entropy total.

Data digunakan berasal dari data karyawan Gajah Mada Lumajang dan terdiri dari total data karyawan yang sudah dikerjakan maupun pelamar dengan total 364 karyawan. Data training 192, data testing 152 dengan nilai yang dihitung memakai confusion matrix dan hasilnya precision 60%, recall 88.24%, accuracy 92 %, error rate 7,96%.


(22)

Teguh Budi Santoso (2014) menganalisa prediksi loyalitas pelanggan dengan menerapkan metode C.45 dari Teknik Informatika, Universitas Satya Negara Indonesia. Data sampel diambil pada bulan oktober sampai dengan November 2013 dengan atribut usia, pelayanan, promosi, harga, citra perusahaan dan kepercayaan. Jumlah data 40 pelanggan, dalam perhitungan entropy dan gain hasil klasifikasi pada data sampel atribut pelayanan sebagai root node dengan nilai gain 0,7083 sedangkan yang lainya menjadi child node.

Dari ketiga jurnal rangkuman yang dapat diambil adalah teknik klasifikasi merupakan metode data mining yang menggolongkan atribut target dengan membangun sebuah pohon keputusan menggunakan sistem aplikasi atau software open source sebagai pengujianya dengan perhitungan entropy dan infomasi gain sebagi tes hasil teorinya serta algoritma C.45 sebagai modelnya.

Dari hasil rangkuman jurnal tersebut maka peneliti tertarik menggunakan metode yang sama yaitu menggunakan algoritma C.45 untuk membangun sebuah pohon keputusan atau decision tree dengan mencari informasi tersembunyi dari data dosen Fakultas Teknik Universitas Muhammadiyah Yogyakarta menggunakan atribut lama kerja.

2.2. Landasan Teori

Pada penelitian kuantitatif landasan teori sangat berperan penting dalam sebuah penelitian, karena tanpa landasan teori maka penelitian akan berujung pada kesalahan atau yang sering dikenal dengan istilah trial and error.

Setiap teori bisa dikatakan sebagai dugaan sementara, karena hal tersebut memerlukan pembuktian bahwa sebuah teori akan memperoleh arti penting mana kala lebih banyak melukiskan, menerangkan dan meramalkan gejala yang ada.

2.2.1. Data Mining

Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan mesin pembelajaran (machine learning) untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar. Selain definisi di atas beberapa definisi juga diberikan seperti, “data mining


(23)

adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.” (Windy Julianto, 2014).

Data mining merupakan analisis dari peninjauan kumpulan data untuk menemukan hubungan yang tidak diduga dan meringkas data dengan cara yang berbeda dengan sebelumnya, yang dapat dipahami dan bermanfaat bagi pemilik data”. “Data mining adalah suatu proses menemukan hubungan yang berarti pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dengan menggunakan teknik pengenalan pola seperti teknik statistik dan matematika.” (Teguh Budi Santoso, 2014).

Kemajuan luar biasa yang terus berlanjut dalam bidang data mining didorong oleh beberapa faktor, antara lain:

1. Pertumbuhan yang cepat dalam kumpulan data.

2. Penyimpanan data dalam data warehouse, sehingga seluruh perusahaan memiliki akses ke dalam database yang baik.

3. Adanya peningkatan akses data melalui navigasi web dan intranet.

4. Tekanan kompetisi bisnis untuk meningkatkan penguasaan pasar dalam globalisasi ekonomi.

5. Perkembangan yang hebat dalam kemampuan komputasi dan pengembangan kapasitas media penyimpanan.

Berdasarkan definisi yang telah disampaikan, hal penting yang terkait dengan data mining adalah:

1. Data mining merupakan suatu proses otomatis terhadap data yang sudah ada. 2. Data yang akan diproses berupa data yang sangat besar.

3. Tujuan data mining adalah mendapatkan hubungan atau pola yang mungkin memberikan indikasi yang bermanfaat.

Hubungan yang dicari dalam data mining dapat berupa hubungan antara dua atau lebih dalam satu dimensi. Misalnya dalam dimensi produk, dapat dilihat keterkaitan pembelian suatu produk dengan produk yang lain. Selain itu, hubungan juga dapat dilihat antara dua atau lebih atribut dan dua atau lebih objek.


(24)

Sementara itu, penemuan pola merupakan keluaran lain dari data mining. Misalkan sebuah perusahaan yang akan meningkatkan fasilitas kartu kredit dari pelanggan, maka perusahaan akan mencari pola dari pelanggan – pelanggan yang ada untuk mengetahui pelanggan yang potensial dan pelanggan yang tidak potensial.

Beberapa definisi awal dari data mining meyertakan fokus pada proses otomatisasi. Berry dan Linoff, (2004) dalam buku Data Mining Technique for Marketing, Sales, and Customer Support mendefinisikan data mining sebagai suatu proses eksplorasi dan analisis secara otomatis maupun semi otomatis terhadap data dalam jumlah besar dengan tujuan menemukan pola atau aturan yang berarti (Larose, 2006).

Pernyataan tersebut menegaskan bahwa dalam data mining otomatisasi tidak menggantikan campur tangan manusia. Manusia harus ikut aktif dalam setiap fase dalam proses data mining. Kehebatan kemampuan algoritma data mining yang terdapat dalam perangkat lunak analisis yang terdapat saat ini memungkinkan terjadinya kesalahan penggunaan yang berakibat fatal. Pengguna mungkin menerapkan analisis yang tidak tepat terhadap kumpulan data dengan menggunakan pendekatan yang berbeda. Oleh karenanya, dibutuhkan pemahaman tentang statistik dan struktur model matematika yang mendasari kerja perangkat lunak (Larose, 2006).

Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik dari bidang – bidang ilmu yang sudah mapan terlebih dahulu. Terdapat beberapa teknik data mining yang sering disebut – sebut dalam literatur. Namun ada 3 teknik data mining yang populer, yaitu:

1. Association Rule Mining

Association Rule Mining (Asosiasi Peraturan Pertimbangan) adalah teknik mining untuk menemukan asosiatif antara kombinasi atribut. Contoh dari aturan asosiatif dari analisa pembelian disuatu pasar swalayan dapat mengatur penempatan barangnya atau merancang strategi pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu.


(25)

2. Clustering (Pengelompokkan)

Berbeda dengan association rule mining dan klasifikasi dimana kelas data telah ditentukan sebelumnya, pengklusteran dapat dipakai untuk memberikan label pada kelas data yang belum diketahui. Karena itu pengklusteran sering digolongkan sebagai metode unsupervised learning. Prinsip pengklusteran adalah memaksimalkan kesamaan antar kluster. Pengklusteran dapat dilakukan pada data yang memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi.

3. Klasifikasi

Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan sedang, pendapatan rendah.

Data – data yang ada, tidak dapat langsung diolah dengan menggunakan sistem data mining. Data – data tersebut harus dipersiapkan lebih dulu agar hasil yang diperoleh lebih maksimal, dan waktu komputasinya lebih minimal. Proses persiapan data ini sendiri dapat mencapai 60% dari keseluruhan proses dalam data mining.

Istilah data mining dan Knowledge Discovery in Database (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara garis besar dapat dijelaskan sebagai berikut.

1. Data Selection

Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.

2. Pre-processing/Cleaning

Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang


(26)

duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Juga dilakukan proses enrichment, yaitu proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.

3. Transformation

Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data.

4. Data mining

Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode dan algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.

5. Interpretation/Evalution

Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya. Penjelasan di atas dapat direfresentasikan pada gambar dibawah ini.

Gambar 2.2 Proses dari KDD


(27)

2.2.2. Klasifikasi

Metode klasifikasi adalah sebuah metode dari data mining yang digunakan untuk memprediksi kategori atau kelas dari suatu data instance berdasarkan sekumpulan atribut-atribut dari data tersebut. Atribut yang digunakan mungkin bersifat categorical (misalnya golongan darah: “A”, “B”, “O”, dst), ordinal (misalnya urutan: small, medium, dan large), integer-valued (misalnya banyaknya suatu kata pada suatu paragraf), atau real-valued (misalnya suhu).

Kebanyakan algoritma yang menggunakan metode klasifikasi ini hanya menggunakan data yang bersifat diskret dan untuk data yang bersifat kontinu (real-valued dan integer-valued) maka data tersebut harus dijadikan diskret dengan cara memberikan threshold (misal lebih kecil dari 5 atau lebih besar dari 10) supaya data dapat terbagi menjadi grup-grup. Sebagai contoh dari metode klasifikasi adalah menentukan e-mail yang masuk termasuk kategori spam atau bukan spam atau menentukan diagnosis dari pasien berdasarkan umur, jenis kelamin, tekanan darah, dan sebagainya (Tan, 2004).

2.2.3. Algoritma ID3

Iterative Dichotomicer 3 (ID3) adalah algoritma decision tree learning (algoritma pembelajaran pohon keputusan) yang paling dasar. Algoritma ini melakukan pencarian secara rakus pada semua kemungkinan pohon keputusan.

Algoritma ID3 dapat diimplementasikan menggunakan fungsi rekursif ( fungsi yang memanggil dirinya sendiri). Algoritma ID3 berusaha membangun decision tree (pohon keputusan) secara top-down (dari atas ke bawah), mulai dengan pertanyaan: “atribut mana yang pertama kali harus dicek dan diletakkan pada root?” pertanyaan ini dijawab dengan mengevaluasi semua atribut yang ada dengan menggunakan suatu ukuran statistik (yang banyak digunakan adalah information gain) untuk mengukur efektivitas suatu atribut dalam mengklasifikasikan kumpulan sampel data.

Karakteristik ID3 dalam membangun pohon keputusan adalah secara top-down dan divide-and-conquer. Top-down artinya pohon keputusan dibangun dari simpul akar ke daun, sementara divide-and-conquer artinya training data secara rekursif dipartisi kedalam bagian-bagian yang lebih kecil saat pembangunan pohon.


(28)

Decision Tree adalah sebuah struktur pohon, dimana setiap node pohon merepresentasikan atribut yang telah diuji, setiap cabang merupakan suatu pembagian hasil uji, dan node daun (leaf) merepresentasikan kelompok kelas tertentu. Level node teratas dari sebuah decision tree adalah node akar (root) yang biasanya berupa atribut yang paling memiliki pengaruh terbesar pada suatu kelas tertentu. Pada umumnya decision tree melakukan strategi pencarian secara top-down untuk solusinya. Pada proses mengklasifikasi data yang tidak diketahui, nilai atribut akan diuji dengan cara melacak jalur dari node akar (root) sampai node akhir (daun) dan kemudian akan diprediksi kelas yang dimiliki oleh suatu data baru tertentu.

2.2.4. Algoritma C.45

Algoritma C4.5 dan decision tree merupakan dua model yang tak terpisahkan, karena untuk membangun sebuah decision tree, dibutuhan algoritma C4.5. Di akhir tahun 1970 hingga di awal tahun 1980-an, J. Ross Quinlan seorang peneliti di bidang mesin pembelajaran mengembangkan sebuah model decision tree yang dinamakan ID3 (Iterative Dichotomiser), walaupun sebenarnya proyek ini telah dibuat sebelumnya oleh E.B. Hunt, J. Marin, dan P.T. Stone. Kemudian Quinlan membuat algoritma dari pengembangan ID3 yang dinamakan C4.5 yang berbasis supervised learning.

Serangkaian perbaikan yang dilakukan pada ID3 mencapai puncaknya dengan menghasilkan sebuah sistem praktis dan berpengaruh untuk decision tree yaitu C4.5. Perbaikan ini meliputi metode untuk menangani numeric attributes, missing values, noisy data, dan aturan yang menghasilkan rules dari trees.

Ada beberapa tahapan dalam membuat sebuah decision tree dalam algoritma C4.5 (Larose, 2005) yaitu :

1. Mempersiapkan data training. Data training biasanya diambil dari data histori yang pernah terjadi sebelumnya atau disebut data masa lalu dan sudah dikelompokkan dalam kelas – kelas tertentu.

2. Menghitung akar dari pohon. Akar akan diambil dari atribut yang akan terpilih, dengan cara menghitung nilai gain dari masing – masing atribut, nilai gain yang paling tinggi


(29)

yang akan menjadi akar pertama. Sebelum menghitung nilai gain dari atribut, hitung dahulu nilai entropy.

Untuk menghitung nilai entropy menggunakan persamaan I:

Keterangan:

S : himpunan kasus A : fitur

n : jumlah partisi S

Pi : proporsi dari Si terhadap S

Sementara itu perhitungan nilai gain menggunakan persamaan II:

Keterangan:

S : himpunan kasus A : atribut

n : jumlah partisi atribut A |Si| : jumlah kasus pada partisi ke-i |S| : jumlah kasus dalam S

Decision tree merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Metode decision tree mengubah fakta yang sangat besar menjadi sebuah pohon keputusan yang mempresentasikan aturan. Aturan dapat dengan mudah dengan bahasa alami dan mereka juga dapat diekspresikan dalam bentuk basis data seperti Structured Query Language untuk mencari record pada kategori tertentu. decision tree juga berguna untuk memadukan antara eksplorasi data dan pemodelan, dia sangat bagus sebagai langkah awal dalam proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik yang lain.


(30)

decision tree adalah sebuah struktur yang dapat digunakan untuk membagi kumpulan data yang besar menjadi himpunan – himpunan record yang lebih kecil dengan menerapkan serangkaian aturan keputusan. Sebuah model pohon keputusan terdiri dari sekumpulan aturan untuk membagi sejumlah populasi yang heterogen menjadi lebih kecil, lebih homogen dengan memperhatikan pada variabel tujuanya. Variabel tujuan biasanya dikelompokan dengan pasti dan model decision tree lebih mengarah pada perhitungan probabilitas dari tiap – tiap record terhadap kategori tersebut atau untuk mengklasifikasi record dengan mengelompokanya dalam satu kelas.

Data dalam decision tree biasanya dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan pohon. Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca, angin dan temperatur. Salah satu atribut merupakan atribut yang menyatakan data solusi per item data yang disebut target atribut. Atribut memiliki nilai – nilai yang dinamakan dengan instance. Misalkan atribut cuaca mempunyai instance berupa cerah, berawan dan hujan. Proses pada decision tree adalah mengubah bentuk data (tabel) menjadi model pohon, mengubah model pohon menjadi rule dan menyederhanakan rule.


(31)

BAB III METODOLOGI

Dalam penelitian ini metodologi memegang peranan penting guna mendapatkan data yang obyektik, valid dan selanjutnya digunakan untuk memecahkan permasalahan yang telah dirumuskan. Maka dengan demikian memecahkan metodologi sangat diperlukan dalam rangka mengumpulkan data untuk memecahkan suatu masalah sehingga menyusun laporan ini dapat dipertanggung jawabkan.

3.1. Prosedur Penelitian

Prosedur penelitian adalah langkah – langkah yang digunakan sebagai alat untuk mengumpulkan data dan menjawab pertanyaan – pertanyaan dalam penelitian. Didalam prosedur penelitian ini, penulis membahas tentang metode dan teknik pengumpulan data.

Penelitian eksperimen menggunakan data dalam penelitiannya dan mengasilkan kesimpulan yang mampu dibuktikan dengan pengamatan atau percobaan. Penelitian ini termasuk penelitian eksperimen dengan menggunakan data dosen Fakultas Teknik Universitas Muhammadiyah Yogyakarta. Prosedur penelitian akan dijelaskan pada gambar 3.1.

3.1.1. Identifikasi Masalah

Pada dasarnya semua penelitian akan selalu didahului dengan identifikasi masalah, hal ini berguna untuk peneliti agar fokus pada titik permasalahan. Dalam kasus ini peneliti ingin menganalisa dengan melakukan observasi klasifikasi lama kerja Fakultas Teknik di Universitas Muhammadiyah Yogyakarta dengan menggunakan algoritma C.45 sekaligus ingin mengetahui bagaimana pola dan cara kerja klasifikasi dalam data mining tersebut.


(32)

(33)

3.1.2. Menentukan Metode Data mining

Setelah identifikasi tahap selanjutnya adalah menentukan metode apa yang cocok digunakan dalam teknik klasifikasi, setelah melakukan pengamatan dan observasi peneliti menentukan algoritma C.45.

3.1.3. Analisis Data

Pada tahap ini peneliti melakukan analisis data seperti darimana data didapatkan, menentukan atribut apa saja yang diperlukan dan juga variabel apa yang cocok. Peneliti mendapatkan data ini dari database server BSI (Biro Sistem Informasi) Universitas Muhammadiyah Yogyakarta. Untuk bisa mendapatkan data tersebut perlu adanya hak akses, artinya data server tidak bisa langsung diakses tanpa adanya izin dari admin karena data tersebut bersifat rahasia.

Perlu diketahui peneliti sudah tiga kali mengganti topik penelitian hal ini dikarenakan ketersediaan data. awalnya, peneliti ingin menganalisa “Penerimaan Pegawai Baru Menggunakan Metode Decision Tree namun setelah menganalisa data ternyata data kurang lengkap dan terpaksa harus dihentikan. Topik yang kedua yaitu “Implementasi C.45 Terhadap Kinerja Dosen Menggunakan Decision Tree” namun setelah data dianalisa, penelitian juga terpaksa harus dihentikan karena data tidak mendukung. Lalu yang ketiga “ Klasifikasi Lama Kerja Dosen Fakultas Teknik Universitas Muhammadiyah Yogyakarta Dengan Menerapkan Metode Decision Tree Dan Algoritma C.45. Pada analisa data yang ketiga ini data yang diperlukan bisa dipakai meskipun ada beberapa data tidak valid.

3.1.4. Pemilihan data

Setelah data dianalisa dan ketersediaanya juga ada di database server BSI, selanjutnya data mentah akan diolah menjadi data yang berbentuk informasi. Data dipilih berdasarkan keperluan penelitian dengan melakukan seleksi data sehingga menjadi dataset.

3.1.5. Pengolahan data

Setelah data sudah dipilih tahap penelitian selanjutnya yaitu pengolahan data, bisa dikatakan disini sangat menentukan keberhasilan dari penelitian tersebut karena mulai dari dataset, atribut, variabelnya harus sangat diperhatikan.


(34)

3.1.6. Pengujian Data

Pengujian juga merupakan tahapan yang sangat menentukan apakah pengujian yang dibuat telah layak digunakan atau belum. Jika pengujian belum menghasilkan luaran yang sesuai dengan kebutuhan, maka tahapan penelitian kembali ke pengolahan data, jika sudah memasuki tahapan ulangan atau kegagalan perlu adanya pemecahan masalah terhadap kegagalan tersebut dengan analisa pengolahan data.

3.2. Bahan Penelitian

Dalam melakukan penelitian ini, berikut bahan penelitian yang digunakan: 3.2.1. Literatur

Yaitu jurnal, buku dan artikel yang berhubungan dengan Algoritma C.45, decision tree dan data mining yang relevan dengan penelitian dan semuanya digunakan sebagai bahan referensi untuk memperdalam pemahaman teori – teori dan penerapan data.

3.2.2. Data Institusi Universitas

Data berasal dari data server BSI ( Biro Sistem Informasi ) Universitas Muhammadiyah Yogyakarta.

3.3. Alat Penelitian

Adapun alat penelitian yang digunakan dalam penelitian ini adalah:

3.3.1. SQL Server 2014

SQL Server merupakan Relational Database Management System (RDBMS) yang digunakan untuk menghubungkan data yang ada pada server. SQL Server digunakan untuk mengelola basis data, seperti menyediakan basis data secara fisik dan membuat table – tabel.

3.3.2. WEKA

WEKA (Waikato Environment for Knowledge Analysis) adalah suatu perangkat lunak pembelajaran mesin yang populer ditulis dengan Java, yang dikembangkan di Universitas Waikato di selandia baru. WEKA adalah perangkat lunak gratis yang tersedia di bawah GNU (General Public License). Pada WEKA menyediakan penggunaan teknik klasifikasi menggunakan pohon keputusan dengan algoritma J48. Teknik klasifikasi dan algoritma yang digunakan di WEKA disebut classifier.


(35)

WEKA terdiri dari koleksi algoritma machine learning yang dapat digunakan untuk melakukan generalisasi atau formulasi dari sekumpulan data sampling. Algoritma ini bisa diterapkan secara langsung kedalam dataset atau bisa juga dipanggil dari kode java. WEKA memiliki tools untuk data re-processing, classification, regression, clustering, association rules, dan visualization. WEKA mengorganisasi kelas-kelas kedalam paket-paket dan setiap kelas dipaket dapat mereferensi kelas lain dipaket lain. Kelas yang paling penting adalah Classifier, yang mendeklarasikan struktur umun dari skema klasifikasi dan prediksi. Kelas ini memiliki 2 metode, yaitu build Classifier dan classify Instance, yang harus diimplementasikan oleh kelas-kelas yang menginduk kekelas ini. Semua kelas yang mengimplementasikan algoritma klasifikasi menginduk kekelas Classifier, termasuk kelas J48. J48 yang menangani himpunan data dalam format ARFF, tidak mengandung kode untuk mengkonstruksi pohon keputusan. Kelas ini mereferensi kelas-kelas lain, kebanyakan dipaket WEKA. Classifiers J48, yang mengerjakan semua prosses konstruksi pohon. Pada WEKA ada beberapa metode pemilihan variable dari suatu dataset, diantaranya BestFirst, ExhautiveSearch, FCBFSearch, GeneticSearch, GreedyStepwise, RaceSearch, RandomSearch, Rankerdan,RankerSearch.

3.3.3. RapidMiner

RapidMiner merupakan perangkat lunak yang bersifat terbuka (open source). RapidMiner adalah sebuah solusi untuk melakukan analisis terhadap data mining, text mining dan analisis prediksi. RapidMiner menggunakan berbagai teknik deskriptif dan prediksi dalam memberikan wawasan kepada pengguna sehingga dapat membuat keputusan yang paling baik. RapidMiner memiliki kurang lebih 500 operator data mining, termasuk operator untuk input, output, data preprocessing dan visualisasi.

RapidMiner memiliki beberapa sifat sebagai berikut:

1. Ditulis dengan bahasa pemrograman Java sehingga dapat dijalankan di berbagai sistem operasi.

2. Proses penemuan pengetahuan dimodelkan sebagai operator trees


(36)

4. Bahasa scripting memungkinkan untuk eksperimen skala besar dan otomatisasi eksperimen.

5. Konsep multi-layer untuk menjamin tampilan data yang efisien dan menjamin penanganan data.

6. Memiliki GUI, command line mode, dan Java API yang dapat dipanggil dari program lain.

Tools yang digunakan dalam RapidMiner ini adalah: 1. Panel operator view

Panel operator view merupakan induk langkah kerja dari proses analisa 2. Panel repository view

merupakan komponen utama dalam Design Perspective selain Operator View. View ini dapat digunakan untuk mengelola dan menata proses Analisis menjadi proyek dan pada saat yang sama juga dapat digunakan sebagai sumber data dan yang berkaitan dengan meta data.

3. Process view

Process View menunjukkan langkah – langkah tertentu dalam proses analisis dan sebagai penghubung langkah – langkah tersebut.

4. Parameter view

Digunakan untuk mengatur fungsionalitas dari beberapa operator yang membutuhkanya agar dapat dijalankan sesuai dengan proses analisa.

3.3.4. Microsoft Excel 2013

Microsoft excel adalah sebuah program aplikasi lembar kerja spreadsheet yang dibuat dan didistribusikan oleh Microsoft Corporation yang dapat dijalan pada Microsoft Windows dan Mac OS.

Microsoft excel merupakan suatu software yang digunakan untuk membuat tabel dalam software ini juga kita dapat menggunakan rumus – rumus guna menjumlahkan, mengurangi, mencari nilai rata - rata, mencari nilai max ataupun


(37)

min, serta menampilkan persyaratan suatu kondisi secara langsung tanpa harus menuliskan nya satu persatu.


(38)

BAB IV

HASIL PENGUJIAN DAN PEMBAHASAN

Hasil pengujian adalah hasil final yang berarti penelitian telah selesai dilakukan, semua yang berkaitan dengan pengujian akan dibahas pada bab ini mulai dari pengolahan dataset hingga pengujian data pada software. Pada penelitian ini peneliti memakai data dosen Fakultas Teknik Universitas Muhammadiyah Yogyakarta dengan atribut NIDN (Nomor Induk Dosen Nasional), nama, usia, alamat, status, lama kerja dan work unit name. Jumlah data yang dipakai berjumlah 31 yang terbagi atas empat fakultas yaitu Fakultas Teknik Sipil, Teknik Elektro, Teknik Mesin dan Teknologi Informasi.

4.1. Pengambilan Data

Pengambilan data ini menggunakan software sql server 2014 berikut antar muka sql server 2014 seperti gambar 4.1.

Gambar 4.1 Antar Muka Sql Server 2014

Sql server 2014 ini merupakan untuk menghubungkan data yang ada pada server ini bisa mengelola data secara fisik dan membuat tabel – tabel. Setelah menunggu beberapa detik akan muncul antar muka awal dari sql server 2014 seperti pada gambar 4.2.


(39)

Gambar 4.2 Antar Muka Awal Sql Server 2014

Untuk masuk ke database server peneliti harus login terlebih dahulu, untuk login diperlukan hak akses yang sudah diberikan kepada admin. Server name dari database server BSI (Biro Sistem Informasi) adalah 10.0.1.68\DATAWAREHOUSE seperti pada gambar 4.3.


(40)

login peneliti adalah “dede” dan password (dirahasiakan), peneliti menggunakan login dari penelitian lain karena milik peneliti sendiri terkendala dengan password yang tidak bisa diakses jadi peneliti menggunakan login yang sama dengan peneliti lain yang topiknya sama dengan peneliti. Setelah masuk ke database server memilih dimana data – data tersebut disimpan, yaitu di database AnalisaData yang bisa dilihat pada gambar 4.4.

Gambar 4.4 Database server BSI

Pada database AnalisaData terdapat folder view, peneliti ingin membuat sebuah data baru dari data yang sudah ada agar lebih mudah dan bisa digunakan jika sewaktu – waktu ingin mengambil data tersebut. Langkah – langkahnya klik tanda tambah pada database AnalisaData lalu klik kanan pada folder view lalu new view.


(41)

Gambar 4.5 Membuat Tabel Baru

Pada antar muka add table seperti gambar diatas langkah selanjutnya memilih tabel – tabel mana saja yang dibutuhkan untuk membuat data baru. Peneliti menggunakan tabel Dim_Employee yang berisi data – data dari seluruh karyawan Universitas Muhammadiyah Yogyakarta seperti nama, alamat, NIDN, nomor handphone dan masih banyak lagi. Tabel Dim_Emp_Work_Unit berisi data tempat dimana karyawan bekerja tabel Dim_Marital_Status sebagai data apakah karyawan telah menikah atau belum dan tabel Dim_Year berisi data tahun masuk kerja karyawan sedangkan tabel Fact_Employment sebagai penghubung antar tabel agar menjadi satu. Setelah selesai pilih add hingga muncul seperti gambar 4.6.


(42)

Setelah tampak tabel – tabel seperti gambar diatas centang yang diperlukan. Dimana peneliti memilih NIDN, Employee_Title_Name, Address, Date_Of_Birth dari tabel Dim-_Employee, Marital_Status dari tabel Dim_Marital_Status, Year_Name dari tabel Dim_Year dan Work_Unit_Name dari tabel Dim_Emp_Work_unit. Untuk mencentang tabel – tabel yang dipilih harus berurutan karena hasilnya akan muncul seperti urutan yang dicentang tadi misalnya jika NIDN dicentang pertama maka NIDN akan berada pada urutan pertama begitu seterusnya. setelah selesai lalu langkah selanjutnya adalah eksekusi seperti tanda ke 2 pada gambar 4.6 hingga muncul hasilnya seperti gambar 4.7.

Gambar 4.7 Hasil Dari Pembuatan Data Baru

Pada gambar 4.7 hasil telah didapatkan dan hasil dari seluruh dosen Universitas Muhammadiyah Yogyakarta adalah 7664 orang data ini berbanding terbalik dari data dikti yang hanya berjumlah 600 orang setelah peneliti cermati ternyata banyak kesamaan data dari data dosen tersebut. Pada saat peneliti mencoba melakukan distinct (menghapus kesamaan data) ternyata data tidak berubah hal ini karena Year_Name yang berbeda beda tidak masalah sebenarnya karena data yang peneliti butuhkan bukanlah keseluruhan dari


(43)

data dosen melainkan hanya mengambil dari fakultas teknik saja. Untuk langkah selanjutnya silahkan lihat gambar 4.8.

Gambar 4.8 Filter Data

Langkah selanjutya yaitu menyaring ( filter ), ini adalah teknik menyatukan semua data dari data yang sama. Peneliti menggunakan teknik ini agar tidak memilih data satu persatu karena hal ini sangat membuang waktu dan langkah – langkahnya yaitu pilih filter pada column work_unit_name letaknya ada diatas hasil, dan tuliskan Teknik Mesin pada filter tersebut lalu eksekusi dan hasilnya bisa dilihat pada gambar 4.9.


(44)

Copy kan semua data ke excel dan ulangi langkah tersebut untuk mengambil data dari Teknik Elektro, Teknik Sipil dan Teknologi Informasi.

Setelah semua data tadi diambil yaitu menyimpan data baru tersebut agar jika sewaktu – waktu dibutuhkan tinggal mencarinya di folder view. Peneliti menyimpan data baru dengan diberi nama DataKaryawan seperti gambar dibawah ini.

Gambar 4.10 Menyimpan Data

Dan jika DataKaryawan tadi belum muncul di folder views refresh seperti gambar 4.11. jika belum muncul juga logout dari database server lalu login lagi.


(45)

4.2. Data Sampel

Data sampel ini adalah data yang akan digunakan dalam pengujian yang diambil dengan cara copy data dari server lalu paste di Office Excel 2013 untuk lebih jelasnya bisa dilihat gambar dibawah ini.

Gambar 4.12 Sebelum Pengolahan Data

Dari gambar diatas dataset masih harus diolah lagi menjadi data informasi yang bisa digunakan nantinya dipengujian. Seperti kotak hitam pada gambar 4.12 yaitu atribut nama, banyak duplikat data yang seharusnya hanya ada satu data saja tapi memang setelah diteliti ternyata dikarenakan tahun lama kerja yang membuat atribut nama banyak menduplikasi. Maka dari itu peneliti perlu menghapus atribut nama ganda dan peneliti hanya mengambil tahun pertama dosen masuk saja begitu juga atribut status, lama kerja dan alamat . Data sampel yang sudah diolah bisa dilihat pada gambar 4.13.


(46)

Gambar 4.13 Sesudah Pengolahan Data

Dari gambar diatas terlihat data sudah jauh berbeda dengan gambar 4.12 pada atribut nama tidak ada lagi duplikasi data sementara pada atribut usia, alamat dan lama kerja terjadi perubahan. Atribut usia yang awalnya memakai tanggal lahir dirubah menjadi angka sedangkan atribut lama kerja yang awalnya (lihat gambar 4.13) diganti angka sama seperti atribut usia namun perbedaanya jika atribut usia hanya berupa angka atribut lama kerja memakai tahun dibelakang angka.

Perubahan mencolok terjadi pada atribut alamat, pada atribut alamat peneliti merubah alamat menjadi jarak sementara jauh dan dekat pada variabelnya. Bukan tanpa alasan peneliti merubah atribut alamat menjadi jarak dan jauh atau dekat pada varibelnya, jika tetap memakai alamat saat dipengujian RapidMiner akan menghitung satu persatu karena variabelnya yang banyak dan ini sangat mempengaruhi atribut yang lain. Peneliti tidak sembarangan menentukan varibael jauh dan dekat, untuk menentukan jauh dan dekat peneliti menggunakan google maps (kilometer) dimana alamat dosen dihubungkan dengan alamat Universitas Muhammadiyah Yogyakarta. Untuk lebih jelasnya silahkan lihat gambar 4.14.


(47)

Gambar 4.14 Menentukan Jarak

Pada gambar diatas untuk menentukan jauh dan dekat peneliti melihat jarak dan menit jika jarak hanya 1 sampai 10 kilometer berarti jarak dekat dan jarak jauh 11 kilometer lebih, berikut keterangan dalam tabel 4.1.

Tabel 4.1 Menentukan Jarak

No Jarak Nilai

1 1 - 10 km Dekat


(48)

4.3. Pengujian Dengan WEKA

Setelah data sampel telah selesai diolah tahap selanjutnya adalah Pengujian menggunakan WEKA.

Gambar 4.15 Antar Muka Awal WEKA

Gambar 4.15 merupakan antar muka awal dari WEKA, untuk masuk ke antar muka selanjutnya yaitu antar muka WEKA dapat dilihat pada gambar 4.16. Pada gambar 4.16 merupakan antar muka WEKA versi 3.8 pada antar muka ini terdapat menu, gambar serta tools. Dan untuk memulai pengujian pilih explorer pada antar muka kanan atas seperti pada gambar 4.16.


(49)

Gambar 4.16 Antar Muka WEKA

Langkah selanjutnya memilih file pada antar muka praproses WEKA seperti pada gambar 4.17.

Gambar 4.17 Antar Muka Praproses

Langkah selanjutnya memilih data tersebut disimpan, untuk data sampel harus dirubah terlebih dahulu kedalam CSV (Comma Separated Values) karena WEKA tidak mendukung tipe file excel. Untuk lebih jelasnya dapat dilihat pada gambar 4.18.


(50)

Gambar 4.18 Memilih File

Langkah selanjutnya yaitu centang atribut agar data bisa diuji seperti pada gambar 4.19 dan langkah selanjunya pilih klasifikasi untuk memilih klasifikasi yag diinginkan seperti pada gambar 4.20.


(51)

Pada antar muka klasifikasi terdapat banyak metode dari klasifikasi, karena peneliti menggunakan C.45 maka peneliti memilih C.45. untuk WEKA C.45 disebut J.48 untuk lebih jelasnya dapat dilihat pada gambar 4.20.

Gambar 4.20 Memilih Metode

Langkah selanjutnya setelah memilih metode klasifikasi yaitu memilih atribut target, dimana peneliti menggunakan lama kerja sebagai atribut target. Penjelasan dituangkan dalam gambar 4.21.


(52)

Gambar 4.21 Memilih Atribut Target

Setelah atribut diganti tahap selanjutnya yaitu menguji data sampel, dimana hasil akurasi dari klasifikasi ini 87.0968 % dan hasil bisa dilihat pada gambar 4.22.


(53)

Hasil uji pohon keputusan yang dilakukan oleh algoritma C.45 (J48 di WEKA) di WEKA menunjukan bahwa work unit name menjadi root node sementara status menjadi child node. Gambar pohon keputusan dapat dilihat seperti pada gambar 4.23.

Gambar 4.23 Hasil Pohon Keputusan Dari WEKA 4.4. Pengujian Dengan RapidMiner

Setelah data sampel telah selesai diuji dengan WEKA tahap selanjutnya yaitu pengujian menggunakan RapidMiner versi 7.2 sebagai analisis, antar muka dari RapidMiner bisa dilihat pada gambar 4.24.


(54)

Gambar 4.24 Antar Muka RapidMiner Versi 7.2

RapidMiner versi 7.2 ini merupakan versi bukan terbaru yang dikembangkan oleh Rapidminer. Versi terbaru dari RapidMiner adalah versi 7.3 dan paling awal versi 5.3, untuk masuk ke antar muka awal sedikit lambat mungkin memakan waktu 1 sampai 3 menit. Setelah menungu beberapa saat antar muka bisa dilihat pada gambar 4.25.

Gambar 4.25 Antar Muka Awal

Pada halaman awal pilih new process lalu pilih blank ini artinya akan melakukan proses analisa dari awal bukan yang sudah diproses sebelumnya tunggu beberapa saat hingga muncul tampilan seperti gambar 4.26.


(55)

Gambar 4.26 Antar Muka Halama Utama

Gambar 4.26 merupakan antar muka halaman utama dari RapidMiner yang terdapat menu – menu dari proses analisa dan prediksi. tahap selanjutnya menuju panel operators yang terletak dikiri bawah pada halaman utama, pada kotak pencarian panel operators ketik read. Read ini merupakan tipe file apa yang akan digunakan dalam penelitian dan dalam hal ini peneliti menggunakan excel sebagai tipe file selanjutnya drop dan drag ke process. Untuk lebih jelasnya silahkan lihat gambar 4.27.


(56)

Setelah read excel di drag ke process ketik split validation dan langkahnya sama seperti read excel tadi, split validation merupakan operator yang mempunyai 2 subproses yaitu training dan testing . Coba lihat pada gambar 4.28.

Gambar 4.28 Panel Operators

Setelah itu klik read excel pada panel process dan menuju ke import configuration wizard untuk mencari file excel seperti pada gambar 4.29.


(57)

Cari file excel yang sudah disimpan dan disiapkan seperti gambar 4.30 dan klik next dan abaikan 2 next step pada data import wizard.

Gambar 4.30 Pencarian Data

Di step yang terakhir peneliti menghilangkan centang pada atribut NIDN, nama dan usia karena ketiga atribut tersebut bukanlah bagian dari pengujian lalu di atribut lama kerja peneliti mengganti tipe atribut menjadi label hal ini karena lama kerja akan menjadi target objek nya klik finish dan jika kurang jelas lihat gambar 4.31.


(58)

Gambar 4.31 Pengaturan Data Import

Setelah import data selesai tahap pengujian akan kembali ke panel process hubungkan port inp (input) ke port fil (file) yang ada pada operator read excel, port out (output) dihubungkan ke port tra (training) pada split validation dan tiga port yang ada di split validation dihubungkan ke port res (result). Didalam setiap operator terdapat port yang ternyata mempunyai fungsinya masing – masing berikut penjelasan peneliti yang dituangkan dalam tabel 4.2.


(59)

Tabel 4.2 Tabel Fungsi Operator Operator Read

No Nama Port Fungsi

1. Input Fil (File) Objek dari file excel yang mana nantinya akan dibaca pada operator lain.

2. Output Out (Output) Mengirimkan keluaran berupa file dalam bentuk tabel – tabel atau biasa disebut ExampleSet.

Operator Validation

No Nama Port Fungsi

1. Input Tra (Training) Menerima ExampleSet dari Output Operator Read untuk dijadikan pelatihan data training.

2. Output Mod (Model) Mengambil ExampleSet yang sudah dilatih diinput training tadi dari subproses pengujian.

3. Output Tra (Training) Mengambil data training dari input training dan dilewatkan melalui port ini tanpa mengubah output.

4. Input Ave (Averagable) Mengembalikan vector kinerja yang telah diuji oleh subproses pengujian.


(60)

Gambar 4.32 Panel Process

Selanjutnya double klik pada operator validation hingga muncul subproses training dan testing seperti gambar 4.33.

Gambar 4.33 Panel Process Validation

Pada gambar 4.33 merupakan antar muka subproses pengujian training dan testing. ExampleSet yang sudah dilatih sebelumnya akan dibangun dalam metode yang yang diperlukan dalam hal ini peneliti menggunakan algoritma C.45 namun algoritma C.45 tidak ada dalam RapidMiner jadi peneliti menggunakan ID3 sebagai penggantinya, perlu


(61)

diketahui algoritma C.45 merupakan pengembangan dari ID3 dan ID3 ini untuk membangun sebuah pohon keputusan atau decision tree pada subproses testing peneliti menggunakan apply model dan performance. untuk meletakan ID3 pada subproses training caranya ketikan ID3 pada pencarian panel operators lalu drop and drag begitu juga apply model dan performance namun apply model dan performance diletakan di subproses testing untuk lebih jelasnya silahkan lihat gambar 4.34.

Gambar 4.34 Subproses Training dan Testing

Apply model fungsinya mempelajari informasi ExampleSet yang sudah dilatih dan biasanya untuk prediksi menggunakan model ini sedangkan performance ini digunakan untuk evaluasi statistik dari kinerja klasifikasi dan memberikan daftar nilai kriteria dari kinerja klasifikasi tersebut. Meletakan algoritma ID3 pada subproses training, di panel operators ketik ID3 begitu juga dengan apply model dan performance setelah itu dihubungkan ke port. Dan dalam setiap operator terdapat port yang masing – masing fungsinya akan dijelaskan dalam tabel 4.3.


(62)

Tabel 4.3 Tabel Fungsi Operator Operator ID3

No Nama Port Fungsi

1. Input (training) Menerima ExampleSet dari operator validation.

2. Output model Mengirimkan decision tree ke apply model.

3. Output Exa mengirimkan trainingset dari ExampleSet yang sudah diolah di ID3 untuk diuji pada subproses testing.

Operator Apply Model

No Nama Port Fungsi

1. Input model Menerima Model dari Output Operator ID3.

2. Input unlabelled Mengambil data testingset dan memastikan bahwa jumlah, jenis, urutan dan peran atribut dari data testing ini konsisten dengan trainingset.

3. output labelled mengirimkan semua olahan data yang diproses apply model lalu teruskan dioperator performance.

Operator Performance

No Nama Port Fungsi

1 Input labelled Menerima data dari Output Operator Apply Model.

Setelah port – port terhubung langkah selanjutnya klik operator ID3 untuk mengatur parameternya seperti tipe perhitunganya menggunakan tipe apa, peneliti menggunakan Imformation_gain untuk criterian untuk minimal size for split nya peneliti menggunakan pengaturan default yaitu 4 begitu juga minimal leaf size dan minimal gain seperti pada gambar 4.26 atau jika kurang jelas untuk parameternya lihat gambar 4.35.


(63)

Gambar 4.35 Subproses Training dan Testing

Gambar 4.36 Parameter ID3

Setelah langkah – langkah sudah dilakukan tahap terakhir yaitu memproses dengan klik proses seperti tanda panah pada seperti gambar 4.35 dan hasilnya seperti pada gambar 4.37.


(64)

Gambar 4.37 Hasil Proses Analisa

Antar muka hasil dari proses analisa bisa dilihat pada gambar 4.37 diketahui akurasi dari dataset yang diuji menggunakan Algoritma ID3 adalah 14.29%. Jika tingkat akurasi menggunakan angka 1 sampai 100 persen ini artinya vector kinerja dari klasifikasi dataset belum maksimal, penyebab belum maksimalnya adalah banyaknya atribut target atau class dalam dataset tersebut disamping itu data yang digunakan untuk menguji hanya berjumlah 31 dan berbanding 13 label, dengan label sebanyak itu perhitungan entropy dan gain juga tidak maksimal seperti pada pada gambar 4.37.

Dengan hasil akurasi yang hanya 14,29% bukan berarti pengujian ini gagal hanya saja untuk menerapkan metode klasifikasi pada data sampel dengan label yang banyak ditambah dengan data yang sedikit ini tidak cocok. Tidak hanya itu banyak faktor yang mempengaruhi hasil akurasi pengujian (bukan penelitian penulis) misalnya dari faktor datanya yang tidak relevan seperti dalam menentukan kelulusan calon mahasiswa dengan target atribut lulus dan tidak lulus, tentu atribut yang digunakan adalah nilai UN (Ujian Nasional),usia, jurusan tujuan dan hasil ujian dari intitusi jika atribut yang digunakan hanya id, nama dan usia artinya data tidak relevan dengan atribut target.


(65)

Untuk mengatasi ini peneliti memangkas dan mengolah kembali data sampel dengan merubah atribut target atau label menjadi lebih sedikit dengan cara menggabungkan lama kerja menjadi 3 label. Jika rata – rata lama kerja dosen Fakultas Teknik UMY adalah 13 sampai 30 tahun maka lama kerja 1 sampai 15 tahun masuk kategori golongan A, 16 sampai 25 tahun golongan B, 26 sampai 40 tahun golongan C. Data sampel bisa dilihat pada gambar 4.38 sedangkan untuk daftar tabel golongan bisa dilihat pada tabel 4.4.

Tabel 4.4 Daftar Golongan Lama Kerja

No Lama Kerja Golongan

1 1-15 tahun A

2 16-25 tahun B

3 26-40 tahun C


(66)

Setelah melakukan perubahan pada atribut label hasil akurasi yang didapatkan adalah 88.67 % ini menunjukan bahwa klasifikasi sudah baik seperti pada gambar 4.30.

Gambar 4.39 Hasil Akurasi

Hasil statistik menunjukan bahwa lama kerja dengan golongan B adalah 22 dosen, lama kerja dengan golongan C adalah 5 sedangkan lama kerja dengan golongan A ada 4. Dari status menikah ada 18 dosen dan tidak menikah 13 dosen. Dari work unit name dari Teknik Sipil adalah terbanyak dengan 15 dosen diikuti dengan Teknik Mesin 10, Teknologi Informasi 4 dan dari Teknik Elektro sebanyak 2, dari jarak dekat ada 19 dan jauh 12. Hasil statistik bisa dilihat pada gambar 4.40.


(67)

Hasil klasifikasi decision tree dari ExampleSet dimana yang menjadi root node adalah work unit name yang terbagi atas 4 cabang nilai atribut yaitu Teknik Elektro, Teknik Mesin, Teknik Sipil dan Teknologi Informasi. Bisa disimpulkan bahwa dosen dari Teknik Elektro masuk dalam lama kerja golongan B dengan warna biru mutlak yang berarti dosen dari Teknik Elektro telah mengajar di fakultas tersebut berkisar antara 16 sampai 25 tahun. Arti warna dari atribut menjelaskan bahwa tidak adanya golongan lama kerja yang lain.

Dari dosen teknik mesin yang berstatus menikah dan berjarak jauh masuk kategori lama kerja golongan B dengan biru mutlak sedangkan yang berstatus menikah dan berjarak dekat masuk golongan B, dari status tidak menikah masuk golongan A. kombinasi warna dari nilai atribut target menjelaskan dari hasil nilai yang ditampilkan terdapat golongan lama kerja yang lain.

Dari dosen teknik sipil yang berstatus menikah dan berjarak dekat lama kerjanya golongan C dengan kombinasi warna, biru dan merah. Dari yang berjarak jauh lama kerjanya masuk golongan C dengan warna merah mutlak sedangkan yang berstatus tidak menikah dan berjarak dekat lama kerjanya masuk golongan B dengan kombinasi warna, biru dan merah dan yang berjarak jauh lama kerjanya masuk golongan B dengan warna biru mutlak.

Dari dosen Teknologi Informasi yang berstatus menikah dan berjarak dekat lama kerjanya masuk golongan A dengan 2 kombinasi warna, biru dan hijau dan yang berjarak jauh lama kerjanya masuk golongan B dengan warna biru mutlak. Sedangkan yang berstatus tidak menikah lama kerjanya masuk golongan B dengan warna biru mutlak. Lihat gambar 4.41.


(68)

Gambar 4.41 Decision Tree Hasil Pengujian 4.5. Perbandingan Hasil Pengujian

Perbandingan hasil pengujian ini digunakan untuk membandingkan antara hasil pengujian yang dilakukan di WEKA menggunakan algoritma J48 dan RapidMiner menggunakan algoritma C.45, perbandingan antaran dua software ini meliputi tingkat akurasi, class recall dan class precision. Perbandingan hasil pengujian peneliti tuangkan kedalam tabel 4.5.

Tabel 4.5 Perbandingan Hasil Pengujian Akurasi

Algoritma C.45 87.0968%

Algoritma ID3 86.67%

Class Precision Menggunakan C.45 Class Precision Menggunakan ID3

Golongan A 100 % 100 %

Golongan B 87.50 % 90.91 %


(69)

4.6. Perhitungan Entropy dan Gain

Dalam pembentukan sebuah pohon keputusan atau decision tree diperlukan perhitungan entropy dan gain dimana gain yang paling tertinggi akan menjadi root node. Karena peneliti menggunakan software sebagai analisa jadi peneliti perlu membuktikan mengapa work unit name menjadi root node dari decisio tree, perhitungan entropy ini menggunakan persamaan I sebagai berikut.

Keterangan:

S : himpunan kasus

n : jumlah partisi S

Pi : proporsi dari Si terhadap S

Sementara itu, perhitungan nilai gain menggunakan persamaan II sebagai berikut.

Keterangan:

S : himpunan kasus A : atribut

Class Recall Menggunakan C.45 Class Recall Menggunakan ID3

Golongan A 50 % 50 %

Golongan B 95.50 % 90.91 %


(70)

n : jumlah partisi atribut A |Si| : jumlah kasus pada partisi ke-i |S| : jumlah kasus dalam S

Berikut ini adalah penjelasan lebih terperinci mengenai tiap – tiap langkah dalam pembentukan decision tree dengan menggunakan algoritma C.45 yang dituangkan dalam tabel 4.3.

Tabel 4.5 Hasil Perhitungan Node 1

NODE jumlah kasus Gol A Gol B Gol C Entropy Gain

total 31 4 22 5 1,15686934

WUN 0,5630108

TS 15 0 10 5 0

TI 4 1 3 0 0

TE 2 0 2 0 0

TM 10 3 7 0 0

Status

0,0302392

Menikah 18 2 12 4 1,22439445

Tdk

Menikah 13 2 10 1 0,99126426

Jarak

0,0061495

dekat 12 2 8 2

1,25162916

jauh 19 2 14 3

1,08698770

Berdasarkan tabel 4.4 entropy total lama kerja adalah 1,15686934 langkah selanjutnya yaitu menghitung entropy dari tiap – tiap atribut untuk menentukan node dari sebuah pohon keputusan. Pada tabel 4.1 diketahui entropy dari variabel work unit name adalah null penyebabnya karena didalam perhitungan entropy jika salah satu nilai variabel adalah null maka hasilnya akan tetap null. Dari hasil perhitungan diatas diketahui gain yang paling besar adalah WUN (work unit name) dimana atribut work unit name mendapat hasil


(71)

0,5630108, hasil gain dari work unit name didapatkan dari hasil normalisasi dengan menggunakan gain ratio. sedangkan gain dari status 0,0302392 dan jarak mendapatkan hasil gain 0,0061495. Untuk lebih jelasnya peneliti telah menghitung dari entropy dan gain di lembar lampiran.


(72)

BAB V

KESIMPULAN DAN SARAN

5.1. Kesimpulan

Pada penelitian hasil uji kesimpulan merupakan suatu rangkuman yang dapat diambil dari penelitian dan informasi apa yang telah diketahui dituangkan pada bab ini tentunya berdasarkan hasil uji. Dari hasil penelitian ini maka dapat disimpulkan sebagai berikut:

1. Dari hasil klasifikasi ini atribut work unit name merupakan root node pada lama kerja dosen Fakultas Teknik Universitas Muhammadiyah Yogyakarta sedangkan yang lainya menjadi child node.

2. Cara kerja dari decision tree ini mengelompokan atribut yang dihitung berdasarkan informasi gain dalam membangun sebuah pohon keputusan. 3. Informasi yang dapat diambil dari pengujian ini adalah bahwa rata – rata dosen

Fakultas Teknik telah mengajar di Fakultas Teknik dengan rentang lama kerja 16 sampai 25 tahun.

4. Hasil akurasi dari klasifikasi yang dihitung dari RapidMiner menggunakan ID3 adalah 86.67 %.

5. Hasil akurasi dari klasifikasi yang dihitung dari WEKA menggunakan J48 adalah 87.0968 %.

6. Dari pengujian yang dilakukan dengan RapidMiner tidak jauh berbeda dengan pengujian yang dilakukan dengan menggunakan WEKA.

5.2. Saran

Didalam penelitian ini juga terdapat saran dari hasil uji hal ini berguna jika pada suatu saat ada peneliti lain menggunakan metode serupa dan saran yang telah peneliti rangkum dari hasil uji sebagai berikut:

1. Untuk melakukan penelitian data mining, data sangat perlu diperhatikan mulai pemilihan atribut dan relevansi terhadap atribut target.


(73)

2. Dalam mencari informasi tersembunyi sah – sah saja data mana yang akan diteliti namun peneliti menyarankan memakai atribut target yang tidak banyak value hal ini berguna untuk keakuratan dalam hasil uji.

3. Teknik decision tree sebagai klasifikasi memang lebih mudah dipahami dan dimengerti namun hal yang harus diperhatikan adalah “apakah teknik decision tree tersebut cocok dengan data yang akan diteliti?”.

4. Usahakan menggunakan atribut target tidak lebih dari 5 hal ini untuk menghindari kesulitan dalam menentukan perhitungan root node dan child node.


(74)

DAFTAR PUSTAKA

Julce Adiana Sidette., Eko Sediyono., Oky Dwi Nurhayati., “Pendekatan Metode Pohon Keputusan Menggunakan Algoritma ID3 Untuk Sistem Informasi Pengukuran Kinerja PNS”., STMIK Uyelindo Kupang, 2014, hal. 4-10.

Windy Julianto., Rika Yunitarini., Mochammad, K, S., “Algoritma C.45 Untuk Penilaian Kinerja Karyawan”, Universitas Trunojoyo Madura, 2014, hal. 3-7.

Kusrini., Emha Taufiq Luthfi., “Algoritma Data Mining”, Penerbit ANDI, Yogyakarta, 2009.

Dennis Aprilla C, dkk., “Belajar Data Mining Dengan RapidMiner”, Jakarta, 2013.

Teguh Budi Santoso, “Analisa dan Penerapan Metode C.45 Untuk Prediksi Loyalitas Pelanggan”, Universitas Satya Negara Indonesia, 2014, hal 3-10.

Daniel T. Larose., Chantal D. Larose., “Discovering Knowledge in DataCopyRight Jhon Wiley & Son Inc., 2014

Pang-Ning Tan., Michael Steinbach., Vipin Kumar., ”Introduction to Data Mining”, CopyRight Pearson Addison-Wesley, 2006.


(75)

(76)

TABEL LENGKAP DATA SAMPEL DOSEN FAKULTAS TEKNIK UNIVERSITAS MUHAMMADIYAH YOGYAKARTA

Nama Usia Status

Lama Kerja

Work unit

name Jarak

Ir. H. M. Fathul Qodir Ar. 49 Menikah 23 tahun

Teknik

Elektro dekat

Ir. Agus Jamal, M.Eng. 50 Menikah 21 tahun

Teknik

Elektro jauh Ir. Aris Widyo Nugroho, M.T.,

Ph.D. 40 Menikah 21 tahun Teknik Mesin jauh

Tito Hadji Agung Santoso, S.T.,

M.T. 44 Menikah 13 tahun Teknik Mesin dekat

Bambang Riyanta, S.T., M.T. 45 Menikah 20 tahun Teknik Mesin dekat Dr. Sukamta, S.T., M.T. 46 Menikah 20 tahun Teknik Mesin jauh

Wahyudi, S.T., M.T. 46 Menikah 19 tahun Teknik Mesin dekat Totok Suwanda, S.T., M.T. 47 Menikah 20 tahun Teknik Mesin dekat Muhammad Nadjib, S.T.,

M.Eng. 50 Menikah 19 tahun Teknik Mesin jauh

Drs. Sudarisman, M.S.Mechs.,

PhD 57 Menikah 18 tahun Teknik Mesin dekat

Teddy Nurcahyadi, S.T., M.Eng. 37

Tidak

Menikah 13 tahun Teknik Mesin jauh

Ir. Sudarja, M.T. 54

Tidak

Menikah 15 tahun Teknik Mesin jauh

Willis Diana, S.T., M.T. 42

Tidak

Menikah 17 tahun Teknik Sipil jauh Edi Hartono, S.T., M.T. 43 Menikah 26 tahun Teknik Sipil jauh Ir. Wahyu Widodo, M.T. 53 Menikah 25 tahun Teknik Sipil dekat Ir. Fadillawaty S, M.T. 59 Menikah 26 tahun Teknik Sipil jauh Ir. M. Riang Endarto BS, M.S. 61 Menikah 36 tahun Teknik Sipil dekat Ir. Sentot Hardwiyono, M.T.,

Ph.D. 62 Menikah 21 tahun Teknik Sipil dekat

Sri Atmaja PJNR, S.T.,

M.Sc.Eng., Ph.D 38

Tidak

Menikah 16 tahun Teknik Sipil dekat Dr. Eng. Agus Setyo M,

M.Eng.Sc. 41

Tidak

Menikah 26 tahun Teknik Sipil dekat

Jazaul Ikhsan, S.T., M.T., Ph.D. 44

Tidak

Menikah 18 tahun Teknik Sipil jauh

Surya Budi Lesmana, S.T., M.T. 44

Tidak

Menikah 16 tahun Teknik Sipil dekat LAMPIRAN A


(77)

Burhan Barid, S.T., M.T. 46

Tidak

Menikah 20 tahun Teknik Sipil dekat

M. Heri Zulfiar, S.T., M.T. 49

Tidak

Menikah 19 tahun Teknik Sipil dekat

Ir. Anita Widianti, MT. 51

Tidak

Menikah 23 tahun Teknik Sipil jauh

Ir. Asat Pujianto, M.T. 51

Tidak

Menikah 23 tahun Teknik Sipil dekat

Ir. Mandiyo Priyo, M.T. 61

Tidak

Menikah 22 tahun Teknik Sipil dekat Slamet Riyadi, S.T., M.Sc.,

Ph.D. 38 Menikah 15 tahun

Teknologi

Informasi dekat

Dr. Ir. Dwijoko Purbohadi, M.T. 48 Menikah 21 tahun

Teknologi

Informasi dekat

Ir. Tony K. Hariadi, M.T. 48 Menikah 18 tahun

Teknologi

Informasi jauh

Haris Setyawan, S.T., M.Eng. 47

Tidak

Menikah 16 tahun

Teknologi

Informasi dekat LAMPIRAN A


(78)

TABEL DATA SAMPEL UJI

Status Lama Kerja

Work unit

name Jarak

Menikah golongan B Teknik Elektro dekat

Menikah golongan B Teknik Elektro jauh

Menikah golongan A Teknik Mesin dekat

Menikah golongan B Teknik Mesin dekat

Menikah golongan B Teknik Mesin dekat

Menikah golongan B Teknik Mesin dekat

Menikah golongan B Teknik Mesin dekat

Menikah golongan B Teknik Mesin jauh

Menikah golongan B Teknik Mesin jauh

Menikah golongan B Teknik Mesin jauh

Tidak Menikah golongan A Teknik Mesin jauh

Tidak Menikah golongan A Teknik Mesin jauh

Menikah golongan B Teknik Sipil dekat

Menikah golongan C Teknik Sipil dekat

Menikah golongan C Teknik Sipil dekat

Tidak Menikah golongan B Teknik Sipil dekat

Tidak Menikah golongan B Teknik Sipil dekat

Tidak Menikah golongan B Teknik Sipil dekat

Tidak Menikah golongan B Teknik Sipil dekat

Tidak Menikah golongan B Teknik Sipil dekat

Tidak Menikah golongan B Teknik Sipil dekat

Tidak Menikah golongan C Teknik Sipil dekat

Menikah golongan C Teknik Sipil jauh

Menikah golongan C Teknik Sipil jauh

Tidak Menikah golongan B Teknik Sipil jauh

Tidak Menikah golongan B Teknik Sipil jauh

Tidak Menikah golongan B Teknik Sipil jauh

Menikah golongan A Teknologi

Informasi dekat

Menikah golongan B Teknologi

Informasi dekat

Tidak Menikah golongan B Teknologi

Informasi dekat

Menikah golongan B Teknologi

Informasi jauh


(79)

POHON KEPUTUSAN DARI HASIL KLASIFIKASI DOSEN FAKULTAS TEKNIK UNIVERSITAS MUHAMMADIYAH YOGYAKARTA Peneliti : wahyudi saputra

Jurusan : Teknologi Informasi Tgl uji : 20 November 2016

Keterangan

Golongan A : lama kerja 1 – 15 tahun Golongan B : lama kerja 16 – 25 tahun Golongan C : lama kerja 26 – 40 tahun

Keterangan

Warna merah : Golongan C

Warna biru : Golongan B

Warna hijau : Golongan A LAMPIRAN C


(80)

TABEL DETAIL HASIL PERHITUNGAN ENTROPY DAN GAIN NODE 1 Peneliti : Wahyudi saputra

Pembimbing I : Eko Prasetyo, Ir. M.Eng. Pembimbing II : Asroni, S.T. M.Eng.

NODE

1 jumlah kasus Gol A Gol B Gol C Entropy Gain

total 31 4 22 5 1,15686934

WUN 0,5630108

TS 15 0 10 5 0

TI 4 1 3 0 0

TE 2 0 2 0 0

TM 10 3 7 0 0

Status 0,0302392

Menikah 18 2 12 4 1,22439445

Tdk

Menikah 13 2 10 1 0,99126426

Jarak 0,0061495

dekat 12 2 8 2 1,25162916

jauh 19 2 14 3 1,08698770


(81)

PERHITUNGAN ENTROPY TOTAL Peneliti : Wahyudi saputra

Pembimbing I : Eko Prasetyo, Ir. M.Eng. Pembimbing II : Asroni, S.T. M.Eng.

Objek

Jumlah kasus

Class atribut

Persamaan I

Total

31 Dosen

3 ( Golongan A, Golongan B, Golongan C )

Entropy (total)

= − ∗ log ( ) + − ∗ log ( )

+ − ∗ log ( )

= 1,15686934


(1)

PERHITUNGAN GAIN WORK UNIT NAME Oleh : Wahyudi saputra

Pembimbing I : Eko Prasetyo, Ir. M.Eng. Pembimbing II : Asroni, S.T. M.Eng.

Objek Variabel

Work unit name

Teknik Sipil (TS), Teknik Mesin (TM), Teknik Elektro(TE), Teknologi Informasi (TI).

TS = 15, TM = 10, TE = 2, TI = 4

= − ∗ log ( ) + − ∗ log ( ) + − ∗ log ( ) + − ∗ log ( ) = 1,66959502

= 0,94/1,66959502 = 0,5630108

Jumlah kasus per variabel

Persamaan III

Split (total, WUN)

LAMPIRAN D-5

Gain ratio

Catatan: 0,94 adalah gain maximum tanpa menggunakan split information Sumber: http://chem-eng.utoronto.ca/~datamining/


(2)

PERHITUNGAN GAIN STATUS Oleh : Wahyudi saputra

Pembimbing I : Eko Prasetyo, Ir. M.Eng. Pembimbing II : Ir. Asroni, S.T. M.Eng.

Objek Variabel

Status

Menikah, Tidak Menikah

Menikah = 18, Tidak Menikah = 13

= , − ( ∗ , ) + ( ∗ , )

= 0,0302392 Jumlah

kasus per variabel

Persamaan II

Gain (total, status)


(3)

PERHITUNGAN GAIN JARAK Oleh : Wahyudi saputra

Pembimbing I : Eko Prasetyo, Ir. M.Eng. Pembimbing II : Asroni, S.T. M.Eng.

Objek Variabel

jarak dekat , jauh

dekat = 12, Tidak Menikah = 13

= , − ( ∗ , ) + ( ∗ , )

= 0,0061495 Jumlah

kasus per variabel

Persamaan II

Gain (total, status)


(4)

TABEL DETAIL PERHITUNGAN NODE 2 Oleh : Wahyudi saputra

Pembimbing I : Eko Prasetyo, Ir. M.Eng. Pembimbing II : Asroni, S.T. M.Eng. NODE

2

Jumlah

Kasus Gol A Gol B Gol C Entropy Gain

WUN-TS 15 0 10 5 0

Status 0,0329296

Menikah 5 0 1 4 0

Tdk

Menikah 10 0 9 1 0

jarak 0,0066966

dekat 10 0 7 3 0

jauh 5 0 3 2 0

WUN-

TM 10 3 7 0 0

Status 0,0418867

Menikah 8 1 7 0 0

Tdk

Menikah 2 2 0 0 0

Jarak 0,0061495

Dekat 5 1 4 0 0

jauh 5 2 3 0 0

WUN-TI 4 1 3 0

Status 0,3727353

Menikah 3 1 2 0

Tdk

Menikah 1 0 1 0

Jarak 0,0075800

Dekat 3 1 2 0

Jauh 1 0 1 0

LAMPIRAN E


(5)

PERHITUNGAN GAINNODE2 Oleh : Wahyudi saputra

Pembimbing I : Eko Prasetyo, Ir. M.Eng. Pembimbing II : Asroni, S.T. M.Eng.

Objek

Jumlah kasus variabel

WUN (TS,TM,TI,TE)

TI = (1,3), TS = (5,10), TM = (7,3) TE=2

= − ∗ log ( ) + − ∗ log ( ) = 0,91829583

= 0,0302392/0,91829583 = 0,0329296

= − ∗ log ( ) + − ∗ log ( ) = 0,91829583

= 0,0061495/0,91829583 = 0,0066966

Persamaan III

Gain ratio

Split (WUN-TS-Jarak)

LAMPIRAN E-1

Split (WUN-TS-Status)


(6)

= − ∗ log ( ) + − ∗ log ( ) = 1

= 0,0061495/1 = 0,0061495

= − ∗ log ( ) + − ∗ log ( ) = 0,7219281

= 0,0302392/0,7219281 = 0,0418867

= − ∗ log ( ) + − ∗ log ( ) = 0,8112781

= 0,0302392/0,8112781 = 0,3727353

= − ∗ log ( ) + − ∗ log ( ) = 0,8112781

= 0,0061495/0,8112781 = 0,0075800

Split (WUN-TM-Jarak)

Gain ratio

Split (WUN-TM-Status)

Split (WUN-TI-Status)

Gain ratio Gain ratio

Split (WUN-TI-Jarak)

Gain ratio