PENCARIAN ATURAN ASOSIASI PADA BASISDATA EVALUASI PEMBELAJARAN UNTUK MELIHAT KETERKAITAN ANTARA KINERJA DOSEN, KONTRIBUSI MAHASISWA, DAN KEPUASAN MAHASISWA Skripsi Dikerjakan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Teknik Jurusan Informa
PENCARIAN ATURAN ASOSIASI PADA BASISDATA
EVALUASI PEMBELAJARAN UNTUK MELIHAT
KETERKAITAN ANTARA KINERJA DOSEN, KONTRIBUSI
MAHASISWA, DAN KEPUASAN MAHASISWA
Skripsi
Dikerjakan Untuk Memenuhi Salah Satu Syarat Memperoleh
Gelar Sarjana Teknik Jurusan Informatika
Disusun Oleh:
EDELTRUDIS DE’E BHIA
NIM. 06 5314 077
JURUSAN TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
FINDING ASSOCIATION RULES ON DATABASE OF
LEARNING EVALUATION TO FIND OUT THE
ASSOCIATION BETWEEN LECTURERS’ PERFORMANCE,
STUDENTS’ CONTRIBUTION, AND STUDENTS’
SATISFICATION
A Thesis
Presented as Partial Fulfillment of the Requirements
To Obtain the Sarjana Teknik Degree
In Informatics Engineering
By
EDELTRUDIS DE’E BHIA
Student Number : 06 5314 077
DEPARTMENT OF INFORMATICS ENGINEERING
FACULTY OF SCIENCE AND TECHNOLOGY
ABSTRAKSI
Penambangan data (data mining) adalah sebuah proses mengekstrak pola yang penting atau menarik dari sejumlah data yang sangat besar. Salah satu metode yang dikenal dalam penambangan data adalah analisis asosiasi yang menghasilkan aturan asosiasi (association rule). Analisis asosiasi adalah teknik penambangan data yang bertugas untuk menemukan aturan asosiasi antara suatu kombinasi item.
Pada tugas akhir ini diimplementasikan salah satu algoritma yang digunakan untuk mencari aturan asosiasi yaitu algoritma apriori. Implementasi algoritma ini akan digunakan untuk mencari pola keterkaitan antara data kategori
- – kategori penilaian yang digunakan pada evaluasi pembelajaran yang dilakukan oleh Pusat Pengembangan dan Penjaminan Mutu Pembelajaran (P3MP) Universitas Sanata Dharma Yogyakarta yang meliputi kinerja dosen, kontribusi mahasiswa dan kepuasan mahasiswa. Dari hasil implementasi algoritma tersebut diperoleh aturan asosiasi yang kuat dan bermakna yang memperlihatkan keterkaitan antara kinerja dosen, kontribusi mahasiswa dan kepuasan mahasiswa
[P1=1, P2=1] ==> [P3=1] (confidence= 0.93 yaitu ) dimana jika kinerja dosen sangat tinggi dan kontribusi mahasiswa sangat tinggi maka kepuasan mahasiswa juga akan menjadi sangat tinggi.
ABSTRACT
Data mining is a process to extract interesting or important patterns fromlarge amount of data. One of method in data mining is association analysis that
yielding association rules. Association analysis is a technique of data mining to
find the association rule between combination of items.In this final project one of algorithm to find association rules that is
Apriori algorithm was implemented. This algorithm implementation was used to
find out the association of several data that are used in the learning evaluation
which is conducted by Pusat Pengembangan dan Penjaminan Mutu Pembelajaran
(P3MP) Sanata Dharma University, Yogyakarta. The data consist of lectures’
performance, students’ contribution and students’ satisfication. The result of that
algorithm implementation is a strong and meaningful association rule which
shows association between lectures’ performance, students’ contribution, dan
[P1=1, P2=1] ==> [P3=1] (confidence= 0.93 students’ satisfication. The rule is
)
which means if lectures’ performance is very high and students’ contribution is
very high then students’ satisfication will be very high.KATA PENGANTAR
Puji dan syukur penulis haturkan ke hadirat Tuhan Yang Maha Esa karena atas berkat dan rahmatNya sehingga penulisan tugas akhir ini dapat terselesaikan dengan baik. Tugas akhir ini disusun sebagai salah satu syarat untuk memperoleh gelar Sarjana Teknik pada program studi Teknik Informatika di Fakultas Sains dan Teknologi Universitas Sanata Dharma, Yogyakarta.
Tugas akhir ini dapat terselesaikan berkat bimbingan, dukungan, bantuan, serta dorongan dari beberapa pihak. Oleh karena itu pada kesempatan ini penulis mengucapkan terimakasih kepada : 1.
Ibu Paulina Heruningsih Prima Rosa,S.Si.,M.Sc, selaku dosen pembimbing yang telah banyak memberikan bimbingan dalam penyusunan tugas akhir ini.
2. Bapak Eko Hari Parmadi, S.Si.,M.Kom dan Bapak Alb. Agung Hadhiatma S.T., M.T, selaku panitia penguji yang telah memberikan banyak kritik dan saran guna penyempurnaan tugas akhir ini.
3. Pusat Pengembangan dan Penjaminan Mutu Pembelajaran (P3MP) Universitas Sanata Dharma Yogyakarta yang telah mengijinkan penulis mengambil data evaluasi pembelajaran untuk menjawab kebutuhan data pada tugas akhir ini.
4. Seluruh staff dosen Teknik Informatika Universitas Sanata Dharma yang telah memberikan bekal ilmu, arahan dan pengalaman selama penulis
5. Alm. Bapak Bernadus Bhia, ema Martha Dhelo, adik Ermelinda N.Bhia dan
Genoveva Nggonde Bhia, segenap keluarga serta Kakak No yang telah memberikan banyak nasihat hidup, doa, semangat, dan perhatian sehingga penulis dapat menyelesaikan tugas akhir ini.
6. Semua teman – teman TI’ 06 dan anak – anak kost GITA Paingan 3 serta teman – teman HKF. Terimakasih untuk nasihat, canda tawa, semangat, doa, perhatian dan kebersamaan selama ini, serta 7. Semua pihak yang telah membantu penulisan baik secara langsung maupun tidak langsung, yang tidak dapat penulis sebutkan satu per satu.
Dengan rendah hati penulis menyadari bahwa tugas akhir ini masih jauh dari sempurna. Oleh karena itu penulis mengharapkan kritik dan saran untuk penyempurnaan tugas akhir ini. Besar harapan penulis agar tugas akhir ini bermanfaat dan dapat menjadi inspirasi bagi pembaca khususnya mahasiswa dikalangan Teknik Informatika untuk melakukan pengembangan lebih lanjut.
Yogyakarta, September 2010 Penulis
DAFTAR ISI
HALAMAN JUDUL..................................................................................... i HALAMAN JUDUL INGGRIS .................................................................. ii HALAMAN PERSETUJUAN..................................................................... iii HALAMAN PENGESAHAN...................................................................... iv PERNYATAAN KEASLIAN KARYA........................................................ v ABSTRAKSI................................................................................................ vi ABSTRACT................................................................................................... vii LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA
ILMIAH UNTUK KEPENTINGAN AKADEMIS ...................................... viii KATA PENGANTAR................................................................................... ix DAFTAR ISI................................................................................................. xi DAFTAR TABEL.......................................................................................... xiv DAFTAR GAMBAR..................................................................................... xv
Bab I. PENDAHULUAN...............................................................................1 I.1. Latar Belakang ................................................................................. 1 I.2. Rumusan Masalah ............................................................................ 3 I.3. Tujuan .............................................................................................. 4 I.4. Batasan Masalah .............................................................................. 4 I.5. Metodologi ...................................................................................... 4
II.1. Pengertian Penambangan Data ....................................................... 7 II.2.
Proses Penambangan Data .............................................................. 7 II.3. Metode Analisis Asosiasi .................................................................. 9 II.4. Algoritma Apriori ............................................................................. 12 II.5. Contoh Penerapan Algoritma Apriori .............................................. 15
Bab III. ANALISI DAN PERANCANGAN PENAMBANGAN DATA..... 20 III.1. Identifikasi Masalah ......................................................................... 20 III.2. Analisa Sistem .................................................................................. 21 III.2.1. Input Sistem ............................................................. 21 III.2.2. Proses Sistem ........................................................... 25 III.2.3. Output Sistem .......................................................... 27 III.3. Perancangan Sistem ......................................................................... 28 III.3.1. Diagram Konteks ..................................................... 28 III.3.2. Diagram Use Case .................................................. 28 III.3.3. Diagram Aktivitas ................................................... 34 III.3.4. Diagram Kelas ......................................................... 36 III.3.5. Detail Algoritma Tiap Method Pada Tiap Kelas.... 36 III.3.6. Diagram Sequence ................................................... 45 III.3.7. Desain Antar Muka ................................................. 46 Bab IV. IMPLEMENTASI PENAMBANGAN DATA............................... 48 IV.1. Implementasi Antar Muka ............................................................... 48
IV.I.3. Pengecekan Masukan ............................................... 54 IV.I.4.
Form Bantuan ........................................................... 56 IV.2. Program Sistem Pencarian Aturan Asosiasi Data Evaluasi
Pembelajaran .................................................................................... 56 IV.2.1.
Membaca Data dari File Excel ................................. 56 IV.2.2. Pemrosesan Awal Data Kategori Penilaian ............ 57 IV.2.3. Pencarian Candidate 1-Itemset ................................ 59 IV.2.4. Pencarian Frequent 1-Itemset .................................. 60 IV.2.5. Pencarian Frequent k-Itemset .................................. 61 IV.2.6. Pencarian Subset dari Semua Frequent k-Itemset .. 66 IV.2.7. Penentuan Aturan Asosiasi yang Kuat ................... 67 IV.2.8. Penyimpanan Data Hasil Apriori ............................ 68
Bab V. ANALISIS HASIL DAN PEMBAHASAN..................................... 69 Bab VI. KESIMPULAN DAN SARAN...................................................... 94 VI.1. Kesimpulan ..................................................................................... 94 VI.2. Saran ................................................................................................ 94 DAFTAR PUSTAKA ................................................................................... 96 LAMPIRAN ................................................................................................. 97 Lampiran 1 Contoh bentuk kuesioner evaluasi pembelajaran P3MP ....... 97 Lampiran 2 : Hasil apriori untuk minimum support 15 % dan
minimum confidence 60 % - 100 % ........................................................... 102
DAFTAR TABEL Tabel 2.1 Contoh Tabel Transaksi D .......................................................
11 Tabel 2.2 Tabel Transaksi .......................................................................
15 Tabel 2.3 Frequent itemset dengan minimum support = 60 % ................
16 Tabel 3.1 Contoh Data Kategori Penilaian ..............................................
22 Tabel 3.2 Kriteria kategori penilaian .......................................................
24 Tabel 3.3 Partisi atribut kategori penilaian ..............................................
24 Tabel 3.4 Data kategori penilaian setelah partisi .....................................
25 Tabel 3.5 Detail algoritma pada method di kelas Itemset ........................
36 Tabel 3.6 Detail algoritma pada method di kelas Candidate .................... 38
Tabel 3.7 Detail algoritma pada method di kelas LargeItemset ................ 39Tabel 3.8 Detail algoritma pada method di kelas Ls ................................. 40Tabel 3.9 Detail algoritma pada method di kelas ProsesApriori ............... 40Tabel 5.1 Aturan Asosiasi Yang Kuat dan Bermakna Dari Percobaan Jenis I .. ....................................................................................................89 Tabel 5.2 Aturan Asosiasi Yang Kuat dan Bermakna Dari Percobaan Jenis II .....................................................................................................
92
DAFTAR GAMBAR Gambar 2.1 Tahap – tahap Data Mining ................................................
8 Gambar 2.2 Data mining dan teknologi basisdata lainnya ......................
9 Gambar 2.3 Pencarian candidate itemset dan frequent itemset dengan minimum support = 60% .........................................................................
16 Gambar 3.1 Diagram Konteks .................................................................
28 Gambar 3.2 Diagram Use Case ............................................................... 28
Gambar 3.3 Diagram Aktivitas Pilih Data Dalam File Excel .................. 34Gambar 3.4 Diagram Aktivitas Cari Frequent Itemset dan Aturan Asosiasi Yang Kuat ................................................................................................35 Gambar 3.5 Diagram Kelas ....................................................................... 36 Gambar 3.6 Diagram Sequence Pilih Data Dalam File Excel ...................
45 Gambar 3.7 Diagram Sequence Cari Frequent Itemset dan Aturan Asosiasi Yang Kuat .................................................................................................. 45
Gambar 3.8 Desain Antar Muka Form Utama ........................................... 46Gambar 3.9 Desain Antar Muka Form Proses Apriori ............................... 47Gambar 4.1 Form Utama .................................................................. ......... 48Gambar 4.2 Form Proses Apriori ..................................................... ........ 49Gambar 4.3 Hasil Pilih File ....................................................................... 50Gambar 4.4 Hasil Pemrosesan Awal ......................................................... 51Gambar 4.7 Tampilan Save Dialog .........................................................53 Gambar 4.8 Pesan data berhasil disimpan ...............................................
53 Gambar 4.9 Pesan Kesalahan (1) .............................................................
54 Gambar 4.10 Pesan Kesalahan (2) ..........................................................
54 Gambar 4.11 Pesan Kesalahan (3) ............................................................ 55
Gambar 4.12 Form Bantuan ..................................................................... 56BAB I PENDAHULUAN I.1. Latar Belakang Perkembangan teknologi dan penemuan terbaru dalam pengumpulan
dan penyimpanan data telah memungkinkan berbagai organisasi untuk mengumpulkan berbagai data misalnya data nasabah, data transaksi, data akademik dan sebagainya. Jumlah data ini selalu bertambah setiap tahunnya sehingga menyebabkan terjadinya data explosion. Namun pertumbuhan akumulasi data yang pesat telah menciptakan kondisi yang sering disebut sebagai rich of data but poor of information. Hal ini dikarenakan data yang terkumpul itu tidak dapat digunakan untuk aplikasi yang berguna. Di dalam tumpukan data tersebut mungkin terdapat informasi
- – informasi yang sangat penting atau menjadi penting pada saat dibutuhkan. Namun karena ukuran data yang sangat besar, akan sangat sulit untuk menganalisanya secara manual. Oleh sebab itu diperlukan suatu cara yang dapat secara otomatis menganalisa data dan kemudian membuat kesimpulan untuk diperiksa lebih lanjut (Pramudiono, 2005)
Dengan adanya masalah semacam itu memunculkan teknologi baru yaitu penambangan data (data mining). Penambangan data adalah serangkaian proses untuk mengekstrak pola yang penting atau menarik dari sejumlah data yang sangat besar berupa pengetahuan yang selama ini tidak diketahui secara manual. (Han, 2001 ) Salah satu organisasi yang memiliki data dalam ukuran besar yaitu
Pusat Pengembangan dan Penjaminan Mutu Pembelajaran (P3MP) yang menangani tentang evaluasi pembelajaran di Universitas Sanata Dharma, Yogyakarta yang dilakukan setiap tengah semester. Evaluasi pembelajaran tersebut ditujukan untuk memberikan penilaian bagi para dosen dengan memperhatikan beberapa kategori penilaian yang meliputi kinerja dosen, kontribusi mahasiswa, dan kepuasan mahasiswa. Data evaluasi pembelajaran tersebut didapat melalui kuesioner yang dibagikan kepada mahasiswa. Dari kategori penilaian yang ada dapat dicari keterkaitan antara kategori tersebut, yang pada akhirnya dapat digunakan untuk mengetahui apakah ada hubungan pengaruh antara kinerja dosen, kontribusi mahasiswa, dan kepuasan mahasiswa.
Pada tugas akhir ini akan dicari aturan asosiasi antara kategori - kategori penilaian yang digunakan pada evaluasi pembelajaran yang dapat digunakan untuk penelitian selanjutnya guna meningkatkan kualitas proses pembelajaran. Data kategori penilaian tersebut di ambil dari basisdata evaluasi pembelajaran yang diperoleh dari P3MP Universitas Sanata Dharma, Yogyakarta. Informasi yang ingin didapatkan berupa aturan asosiasi yang memperlihatkan keterkaitan antara kategori penilaian yang meliputi kinerja dosen, kontribusi mahasiswa, dan kepuasan mahasiswa. Untuk menemukan aturan asosiasi tersebut sangat sulit jika dilakukan secara manual dengan menggunakan himpunan data (dataset) yang banyak.
Banyak algoritma yang dapat digunakan untuk menyelesaikan persoalan pada penambangan data. Pada kasus tersebut diatas metode yang sesuai adalah metode analisis asosiasi (association analysis) dengan algoritma apriori. Alasan penggunaan metode analisis asosiasi karena metode tersebut dapat digunakan untuk menemukan aturan asosiasi (association rule) antar item dalam suatu dataset, yaitu dengan membuat korelasi antar item yang dikelompokkan ke dalam transaksi kemudian mengambil kesimpulan berdasarkan hubungan yang terbentuk dari beberapa item data tersebut. Hal ini sesuai dengan masalah yang akan dipecahkan yaitu apakah ada hubungan pengaruh antara kinerja dosen, kontribusi mahasiswa, dan kepuasan mahasiswa. Sedangkan penggunaan algoritma apriori pada kasus ini karena algoritma apriori merupakan algoritma yang dinilai paling sederhana (Negandhi, 2007).
I.2. Rumusan Masalah
Bagaimana mengimplementasi penambangan data pada basisdata evaluasi pembelajaran guna melihat keterkaitan antara kinerja dosen, kontribusi mahasiswa, dan kepuasan mahasiswa dengan menggunakan metode analisis asosiasi dengan algoritma apriori?
I.3. Tujuan
Dapat menemukan aturan asosiasi pada basisdata evaluasi pembelajaran P3MP Universitas Sanata Dharma guna menentukan keterkaitan antara kinerja dosen, kontribusi mahasiswa, dan kepuasan mahasiswa.
I.4. Batasan Masalah 1. Algoritma yang digunakan adalah algoritma apriori.
2. Data
- – data yang diambil adalah data kategori penilaian evaluasi pembelajaran P3MP Universitas Sanata Dharma, Yogyakarta yang terdiri dari data kinerja dosen, kontribusi mahasiswa, dan kepuasan mahasiswa sejak semester genap 2007 / 2008 sampai dengan semester genap 2008 / 2009.
I.5. Metodologi
Berikut ini merupakan metodologi yang digunakan untuk menyelesaikan masalah pada tugas akhir ini :
1. Pembersihan data. Hal ini bertujuan untuk membuang data yang tidak konsisten dan noise seperti data
- – data yang hilang atau data yang tidak valid.
2. Integrasi data yaitu penggabungan data dari beberapa sumber.
3. Transformasi data. Pada tahap ini data diubah menjadi format data yang sesuai untuk ditambang.
4. Aplikasi teknik penambangan data dengan menggunakan algoritma apriori.
5. Presentasi Pola. Pada tahap ini pola direpresentasikan kepada pengguna akhir dalam bentuk yang dapat dipahami.
I.6. SISTEMATIKA PENULISAN
Bab I. Pendahuluan Bab ini membahas mengenai latar belakang, rumusan masalah, batasan masalah, tujuan, metodologi, dan sistematika penulisan. Bab II. Landasan Teori Bab ini membahas mengenai pengetahuan yang menjadi dasar teori
untuk mengimplementasikan penambangan data dengan menggunakan metode analisis asosiasi dengan algoritma apriori guna menemukan aturan asosiasi pada basisdata evaluasi pembelajaran P3MP Universitas Sanata Dharma.
Bab III. Analisis dan Perancangan Penambangan Data Dalam bab ini akan diidentifikasikan masalah yang akan diselesaikan
serta tahap tahap penyelesaian masalah tersebut dengan menggunakan algoritma apriori. Dalam bab ini pula akan dijelaskan perancangan program implementasi penambangan data dengan algoritma apriori.
Bab IV. Implementasi Penambangan Data Bab ini memuat implementasi algoritma apriori.
Bab V. Analisa Hasil dan Pembahasan Bab ini berisi analisa hasil program dan pembahasan masalah berdasarkan hasil yang telah didapat secara keseluruhan. Bab VI. Kesimpulan dan Saran Bab ini berisi kesimpulan dan saran dari hasil analisis serta pembahasan masalah berdasarkan hasil yang telah didapat.
BAB II LANDASAN TEORI II.1. Pengertian Penambangan Data Menurut Han dan Kamber (2001) penambangan data (data mining)
adalah serangkaian proses untuk mengekstrak pola yang penting atau menarik dari sejumlah data yang sangat besar berupa pengetahuan yang selama ini tidak diketahui secara manual. Penambangan data merupakan bagian dari knowledge discovery in databases (KDD), dimana penambangan data berfungsi sebagai proses untuk mengekstrak data menjadi informasi yang berguna.
II.2. Proses Penambangan Data
Penambangan data merupakan suatu rangkaian proses yang terdiri dari beberapa tahap, yaitu :
1. Pembersihan Data. Hal ini bertujuan untuk membuang data yang tidak konsisten dan noise seperti data
- – data yang hilang atau data yang tidak valid.
2. Integrasi data yaitu penggabungan data dari berbagai sumber.
3. Transformasi data. Pada tahap ini data diubah menjadi format data yang sesuai untuk ditambang.
4. Aplikasi teknik penambangan data yaitu mengaplikasikan algoritma untuk mengekstrak pola yang menarik.
5. Presentasi pola. Pada tahap ini pola direpresentasikan kepada pengguna akhir dalam bentuk yang dapat dipahami.
Tahap
- – tahap tersebut diilustrasikan pada gambar di bawah ini :
Sumber : Fayyad, et.al. (1996)
Suatu sistem atau query penambangan data mungkin saja menghasilkan ribuan pola, namun tidak semua pola tersebut adalah pola yang menarik atau penting. Ukuran suatu pola yang menarik atau penting adalah jika pola tersebut mudah dimengerti oleh manusia, bermanfaat,
valid / benar pada data baru atau data tes dan membenarkan beberapa
hipotesis.Penambangan data berkaitan erat dengan gudang data (data
warehouse ) dan OLAP (On-Line Analytical Processing). Gudang data
merupakan data mentah yang akan digunakan untuk analisa data menggunakan teknik penambangan data sedangkan OLAP adalah basisdata yang khusus digunakan untuk menunjang proses pengambilan keputusan (decision making). Teknologi yang ada di gudang data dan OLAP dimanfaatkan penuh untuk melakukan penambangan data. Gambar di bawah ini menunjukkan posisi masing
- – masing teknologi basisdata tersebut :
II.3.
Metode Analisis Asosiasi
Salah satu metode dalam penambangan data adalah metode analisis asosiasi (association analysis). Metode analisis asosiasi merupakan metode yang bertujuan untuk menemukan aturan asosiasi (association rule) antar item dalam suatu himpunan data (dataset), yaitu dengan membuat korelasi antar item yang dikelompokkan ke dalam transaksi kemudian mengambil kesimpulan berdasarkan hubungan yang terbentuk dari sekumpulan item data tersebut. Kumpulan item data ini sering disebut itemset.
Penting tidaknya suatu aturan asosiasi dapat diketahui dengan 2 parameter yaitu support dan confidence. Support adalah persentase kombinasi item dalam basisdata sedangkan confidence adalah kuatnya hubungan antar item dalam aturan asosiasi (Pramudiono, 2003). Pencarian aturan asosiasi dengan menggunakan analisis asosiasi bertujuan untuk menemukan semua aturan yang terdapat pada basisdata dengan minsup (minimum support) dan minconf (minimum confidence) yang melebihi batas tertentu. Suatu aturan asosiasi dirasa valid apabila mempunyai nilai
confidence / nilai kepastian ≥ 50 % (López-Cózar, 2000).
Support
dari aturan adalah rasio dari record yang mengandung dengan total record dalam basisdata. Untuk mendapatkan nilai support dapat menggunakan rumus :
................................................(2.1) Sedangkan Minsup (minimum support) menandakan ambang batas
(threshold) yang menentukan apakah sebuah itemset akan digunakan pada perhitungan selanjutnya untuk pencarian aturan asosiasi.
Confidence dari aturan asosiasi adalah rasio dari record
yang mengandung dengan total record yang mengandung . Untuk mendapatkan nilai confidence dapat menggunakan rumus : ............................................(2.2)
Atau dapat ditulis sebagai berikut: ..............(2.3).
Sedangkan Minconf (minimum confidence) menandakan ambang batas (threshold) dari sebuah aturan asosiasi untuk menentukan aturan asosiasi yang kuat (strong association rule).
Misalnya terdapat himpunan data transaksi D sebagai berikut:
Tabel 2.1 Contoh Tabel Transaksi D TID Itemset1 Bread, Milk
2 Bread,Diaper,Beer,Eggs
3 Milk,Diaper,Beer,Coke
4 Bread,Milk,Diaper,Beer
5 Bread,Milk,Diaper,Coke Misalkan akan dihasilkan rule
: {Milk,Diaper}→Beer Maka support menjadi
Confidence menjadi
Secara umum yang dilakukan dalam proses pencarian aturan asosiasi ini dapat dibagi menjadi 2 tahapan, yang terdiri dari : o
Pencarian frequent itemset Yaitu proses pencarian semua itemset yang memiliki nilai support
minsup
. Itemset ini disebut frequent itemset atau large itemset (l-
itemset ). Dalam tugas akhir ini proses pencarian frequent itemset menggunakan algoritma apriori.
o Pembentukan strong association rule
Yaitu proses mendapatkan aturan asosiasi yang kuat (strong
association rule ) dari kombinasi frequent itemset yang membentuk minconf
aturan asosiasi yang memiliki nilai confidence . Aturan asosiasi dapat ditemukan dari setiap frequent itemset.
II.4. Algoritma Apriori
Algoritma apriori merupakan algoritma untuk mencari frequent
itemset yang berdasarkan prinsip apriori, yaitu jika suatu itemset
merupakan frequent itemset maka semua subset-nya akan berupa frequent
itemset (Tan, et.al. 2006). Pembentukan frequent itemset dilakukan dengan
mencari semua kombinasi item
- – item yang memiliki support lebih besar atau sama dengan minsup yang telah ditentukan.
Pseudocode untuk pencarian frequent itemset menggunakan
algoritma apriori adalah sebagai berikut (Gunawan, 2003) :
= candidate itemset untuk ukuran k
= frequent itemset / large itemset untuk ukuran k = {candidate 1-itemset} for ( ) do begin = {large 1-itemset} // new candidate
for all transaction do begin for all candidates do //candidate contained in
end end Answer =
Algoritma diatas dapat dijelaskan sebagai berikut :
a. Pada iterasi pertama dihitung jumlah kemunculan setiap item dalam transaksi untuk menentukan large 1-itemset. Pada iterasi selanjutnya akan dihasilkan candidate k-itemset ( ) menggunakan frequent(k-1)-
itemset yang ditemukan pada iterasi sebelumnya. Candidate generation diimplementasikan menggunakan sebuah fungsi yang
disebut apriori-gen. Apriori-gen digunakan untuk menghasilkan
candidate itemset
, yang menyebabkan tidak seluruh itemset diolah pada proses selanjutnya, hanya yang memenuhi persyaratan saja yaitu sesuai dengan support yang telah ditentukan. Hal ini mempersingkat waktu proses pencarian seluruh aturan asosiasi.
b. Setelah itu, dilakukan penelusuran dalam basisdata untuk menghitung support bagi setiap candidate itemset dalam . Untuk setiap transaksi
t , dicari semua candidate itemset t dalam set yang terkandung
dalam transaksi tersebut. Kumpulan dari semua candidate itemset dalam yang terkandung dalam transaksi t disebut dan ditulis dengan notasi . c. Selanjutnya nilai support dari semua candidate k-itemset dalam dinaikkan. Penelusuran dilanjutkan pada transaksi berikutnya sampai semua transaksi dalam basisdata ditelusuri. Lalu akan dilakukan eliminasi candidate itemset yang memiliki nilai support lebih kecil dari minsup. Sedangkan semua candidate k-itemset yang memenuhi
minsup disimpan dalam yang akan digunakan untuk membentuk large (k+1)-itemset . Algoritma berakhir ketika tidak ada large itemset
baru yang dihasilkan. Pencarian frequent itemset menggunakan algoritma apriori memiliki 2 karakteristik penting. Pertama, apriori merupakan algoritma level-wise dimana proses pada algoritma ini membangkitkan frequent itemset per
level , dimulai dari level 1-itemset sampai ke itemset terpanjang dan candidate level
yang baru, dibentuk dari frequent itemset yang ditemukan di level sebelumnya lalu menentukan nilai supportnya. Kedua, algoritma ini menggunakan strategi generate and test untuk menemukan frequent
itemset . Pada tiap iterasi, candidate itemset yang baru, dihasilkan dari frequent itemset yang ditemukan pada iterasi sebelumnya. Nilai support
tiap candidate dihitung dan di bandingkan kembali dengan ambang batas
minsup nya. Jumlah iterasi yang dibutuhkan algoritma ini adalah , dimana merupakan ukuran maksimum dari frequent itemset.
Algoritma apriori menggunakan arah pencarian bottom-up, dimana arah pencarian dimulai dari frequent itemset menuju itemset terpanjang. Strategi yang digunakan adalah breadth-first search dimana proses pencarian dilakukan per level dan untuk tiap level-nya ditentukan nilai
support -nya untuk menemukan frequent itemset pada level tersebut.
Sedangkan strategi perhitungan nilai support dilakukan dengan horizontal
counting , dengan cara membaca transaksi satu persatu, jika ditemukan itemset yang dicari pada transaksi tersebut maka counter bertambah satu,
begitu selanjutnya.
II.5. Contoh Penerapan Algoritma Apriori
Berikut akan ditunjukkan cara kerja algoritma apriori untuk menemukan frequent itemset dan pembangkitan aturan asosiasi menggunakan data dari tabel transaksi yang diambil dari (Tan,et.al. (2006)). Minsup dan minconf yang ditentukan berturut
- – turut 60% dan 70%.
1 {Bread,Milk,Diapers} 2 {Bread,Diapers,Beer,Eggs} 3 {Milk,Beer,Coke} 4 {Bread,Milk,Diapers,Beer} 5 {Bread,Milk,Diapers,Coke}
Dari tabel diatas maka proses pencarian frequent itemset dengan algoritma apriori adalah sebagai berikut:
Candidate 1- Count Suppor Frequent 1- Count Support
itemset t (%) itemset (%){Beer} 3 60% {Beer} 3 60% {Bread} 4 80% {Bread} 4 80% {Coke} 2 40% {Diapers} 4 80% {Diapers} 4 80% {Milk} 4 80% {Milk} 4 80% {Eggs} 1 20%
Candidate 2- Count Suppor Frequent 2- Count Support
itemset t (%) itemset (%){Beer,Bread} 2 40% {Bread,Diapers} 4 80% {Beer,Diapers} 2 40% {Bread,Milk} 3 60% {Beer,Milk} 2 40% {Diapers,Milk} 3 60% {Bread,Diapers} 4 80% {Bread,Milk} 3 60% {Diapers,Milk} 3 60%
Candidate 3- Count Suppor Frequent 3- Count Support
itemset t (%) itemset (%){Bread,Diapers, 3 60% {Bread,Diapers, 3 60% Milk} Milk}
Gambar 2.3 Pencarian candidate itemset dan frequent itemset denganminimum support = 60%
Berdasarkan pencarian frequent itemset diatas maka dapat dibuat tabel frequent itemset sebagai berikut :
Tabel 2.3 Frequent itemset dengan minimum support = 60%Frequent itemset Count Support(%)
{Bread,Milk} {Diapers,Milk} {Bread,Diapers,Milk} 3 60% {Bread} {Diapers} {Milk} {Bread,Diapers} 4 80%
Dari contoh diatas dapat dilihat bahwa bila nilai minsup diturunkan maka akan banyak candidate itemset yang terbentuk dan kardinalitas
itemset yang lebih besar lagi, sehingga menyebabkan banyak pengulangan.
Tetapi nilai minsup yang besar akan menyebabkan sedikit ditemukan
frequent itemset sehingga menjadikan algoritma ini efisien, karena sedikit
sekali melakukan proses pembacaan basisdata dan perhitungan nilai support .
Sehingga dengan frequent itemset yang ditemukan diatas dapat diproses sebagai berikut :
Subset dari frequent itemset : {Bread} ,{Diapers}, {Milk},
{Bread,Diapers}, {Bread,Milk}, {Diapers,Milk}, {Bread,Diapers,Milk}.Dari subset yang ada dapat dibentuk aturan asosiasi sebagai berikut :
a. Bread ⇒ Diapers
c (Bread
⇒Diapers)= s (Bread,Diapers)/s Bread = 80/80 =100%
b. Diapers ⇒ Bread
c (
Diapers⇒Bread)=s (Bread,Diapers)/s Diapers =80/80 =100%
c. Bread ⇒ Milk
c (
Bread⇒Milk) =s (Bread,Milk)/s Bread
=60/80 =75%
d. Milk ⇒ Bread
c
( Milk⇒Bread) =s (Bread,Milk)/s Milk
=60/80 =75%
e. Diapers ⇒Milk
c (
Diapers⇒Milk) =s (Diapers,Milk)/s Diapers =60/80 =75%
f. Milk ⇒Diapers
c (
Milk⇒Diapers) =s (Diapers,Milk)/s Milk =60/80 =75%
g. Bread ⇒ Diapers & Milk
c (
Bread⇒Diapers & Milk )= s (Bread,Diapers,Milk)/s Bread =60/80 =75%
h. Diapers & Milk ⇒ Bread
c (Diapers&
Milk ⇒Bread)=s(Bread,Diapers,Milk)/s Diapers&Milk =60/60 =100% i. Diapers ⇒ Bread & Milk
c (
Diapers⇒Bread & Milk )= s (Bread,Diapers,Milk)/s Diapers =60/80 =75% j. Bread & Milk
⇒ Diapers
c (
Bread& Milk⇒Diapers)= s (Bread,Diapers,Milk)/s Bread&Milk =60/60 =100% k. Milk
⇒ Bread & Diapers
c (
Milk⇒Bread&Diapers )= s (Bread,Diapers,Milk)/s Milk =60/80 =75% l. Bread &Diapers
⇒ Milk
c
( Bread&Diapers⇒Milk) =s(Bread,Diapers,Milk)/sBread&Diapers
=60/80 =75%
Semua aturan asosiasi yang ada ternyata mempunyai nilai confidence ≥ 70% sehingga semua aturan asosiasi yang terbentuk diatas merupakan aturan asosiasi yang kuat (strong association rule).
BAB III ANALISIS DAN PERANCANGAN PENAMBANGAN DATA III.1. Identifikasi Masalah Setiap instansi / organisasi selalu melakukan penyimpanan data yang
sangat banyak dan beragam yang dibutuhkan demi terlaksananya kegiatan dalam organisasi tersebut. Salah satu organisasi yang memiliki data dalam ukuran besar yaitu Pusat Pengembangan dan Penjaminan Mutu Pembelajaran (P3MP) yang menangani tentang evaluasi pembelajaran di Universitas Sanata Dharma, Yogyakarta yang dilakukan setiap tengah semester. Evaluasi pembelajaran tersebut ditujukan untuk memberikan penilaian bagi para dosen dengan memperhatikan beberapa kategori penilaian yang meliputi kinerja dosen, kontribusi mahasiswa, dan kepuasan mahasiswa. Dari kategori penilaian yang ada dapat dicari keterkaitan antara kategori tersebut, yang pada akhirnya dapat digunakan untuk mengetahui apakah ada hubungan pengaruh antara kinerja dosen, kontribusi mahasiswa, dan kepuasan mahasiswa. Untuk menemukan keterkaitan tersebut sangat sulit jika dilakukan secara manual dengan menggunakan himpunan data (dataset) yang banyak. Masalah ini dapat diatasi dengan menggunakan teknologi penambangan data (data
mining ) karena dengan penambangan data, dapat ditemukan informasi yang berguna yang belum diketahui sebelumnya.
Pada tugas akhir ini akan dicari aturan asosiasi antara kategori - kategori penilaian yang digunakan pada evaluasi pembelajaran. Data kategori penilaian tersebut diambil dari basisdata evaluasi pembelajaran sejak semester genap 2007 / 2008 sampai dengan semester genap 2008 / 2009, yang diperoleh dari P3MP Universitas Sanata Dharma, Yogyakarta.
III.2. Analisis Sistem III.2.1. Input Sistem
Data diperoleh dari Pusat Pengembangan dan Penjaminan Mutu Pembelajaran (P3MP) Universitas Sanata Dharma, Yogyakarta. Data diperoleh dalam bentuk Microsoft Excel yang berisi daftar nilai P3MP selama 3 semester yang dimulai dari semester genap 2007 / 2008 sampai dengan semester genap 2008 / 2009 karena baru selama tiga semester ini digunakan bentuk kuesioner baru yang melibatkan tiga kategori penilaian yaitu kinerja dosen, kontribusi mahasiswa, dan kepuasan mahasiswa.
Dalam kuesioner tersebut terdapat 18 pertanyaan yang dapat dibagi menjadi tiga bagian kategori penilaiagn dengan rincian sebagai berikut: o
Pertanyaan nomor 1
- – 10 digunakan untuk menentukan indeks kinerja dosen, o
Pertanyaan nomor 11
- – 17 digunakan untuk menentukan kontribusi mahasiswa, dan o
Pertanyaan nomor 18 digunakan untuk menentukan kepuasan mahasiswa atas keseluruhan proses belajar mengajar.
- – rata, yang merupakan hasil perhitungan jumlah rata – rata nilai tiap soal dibagi jumlah soal yang ada pada masing
- – masing kategori. Jumlah data untuk penelitian ini adalah 1225 record yang terdiri atas atr
- – atribut sebagai berikut : o
- – 10 (nilai indeks kinerja dosen) o
- – 17 (nilai kontribusi mahasiswa) o
3 Manajemen BK I AB 5,60 4,97 4,76
9 Sociolinguistics C 5,52 4,43 4,64
8 Structure II B 5,97 5,16 5,52
7 Bahasa Inggris II 5,91 5,15 5,03
6 Teologi Moral 5,79 4,87 4,32
5 Spritualitas Kristiani 5,17 5,16 5,06
4 PPL I F 6,27 6,06 6,24
2 Filsafat Moral CF 5,28 5,03 5,22
Selain itu tiap soal memiliki rentang nilai dari 1 sampai 7. Contoh bentuk kuesionernya dapat dilihat pada lampiran 1.
1 Teori Kepribadian 5,28 5,01 5,11
Tabel 3.1 Contoh Data Kategori Penilaian No Mtk P1(1-10) P2(11-17) P3(18)P3 : Nilai rata - rata untuk pertanyaan nomor 18 (nilai kepuasan mahasiswa).
P2 : Nilai rata - rata untuk pertanyaan nomor 11
Mtk : Nama matakuliah o P1 : Nilai rata - rata untuk pertanyaan nomor 1
Nilai kategori penilaian yang digunakan pada penelitian ini berupa nilai rata
10 Bahasa Jurnalistik A 6,35 5,39 5,89 dst Nilai kategori penilaian ini biasa disebut sebagai atribut kuantitatif. Masalah pencarian aturan asosiasi pada atribut kuantitatif seperti ini disebut
Quantitative Association Rule Problem , dimana untuk atribut kuantitatif baik
yang dipartisi atau tidak ke dalam interval
- – interval, nilainya dipetakan ke bilangan bulat berurutan. Ada 5 langkah untuk menemukan aturan asosiasi kuantitatif (Ernawati, 2007) yaitu :
1) Tentukan jumlah partisi untuk setiap atribut kuantitatif 2) Untuk atribut kuantitatif baik yang dipartisi atau tidak ke dalam interval
- – interval, nilai – nilai dipetakan ke bilangan bulat berurutan, sehingga algoritma hanya melihat nilai
- – nilai (atau range nilai) untuk atribut kuantitatif.
3) Tentukan support untuk setiap nilai untuk atribut kuantitatif. Untuk atribut kuantitatif, nilai
- – nilai yang berdekatan dikombinasikan sepanjang supportnya lebih kecil dari max_support (suatu nilai yang ditentukan pengguna). Kemudian tentukan semua himpunan item yang
support nya lebih besar daripada min_support. Himpunan ini merupakan frequent itemset
. 4) Gunakan frequent itemset untuk membangkitkan aturan asosiasi. Ide umumnya jika ABCD dan AB adalah frequent itemset, maka dapat ditentukan kaidah AB→CD dengan menghitung nilai confidence =
support_count (ABCD) / support_count(AB). Jika nilai confidence
≥
min_confidence , maka aturan tersebut didapat.
5) Tentukan aturan yang menarik dari aturan – aturan yang dihasilkan.
Sesuai dengan langkah pengolahan data menggunakan algoritma