Penambangan aturan asosiasi pada dataset nilai akademik mahasiswa dengan algoritma apriori - USD Repository
PENAMBANGAN ATURAN ASOSIASI PADA DATASET NILAI
AKADEMIK MAHASISWA DENGAN ALGORITMA APRIORI
Skripsi Diajukan untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Sains Program Studi Ilmu Komputer
Oleh : Francisca Andika P
023124045
HALAMAN PERSEMBAHAN
Ukuran tubuhmu kurang penting; ukuran otakmu agak penting; ukuran hatimu adalah yang paling penting.
(B. C. Gorbes) Saya hanyalah seorang manusia, tetapi saya adalah seseorang. Saya tidak dapat melakukan segalanya , tetapi saya dapat melakukan sesuatu. Saya tidak akan menolak melakukan sesuatu yang dapat saya lakukan.
(Martha Graham)
Karya ini kupersembahkan untuk :
Yesus Kristus atas rahmat, karunia, dan berkatNya
Pa’e & Bu’e tercinta,
Kekasihku Toro,
Adikku Linda,
PERNYATAAN KEASLIAN KARYA
Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini tidak memuat karya/bagian karya orang lain, kecuali yang telah disebutkan dalam kutipan dan daftar pustaka, sebagaimana layaknya karya ilmiah.
Yogyakarta, 26 Maret 2007 Penulis Francisca Andika P
ABSTRAKSI
Data mining adalah sebuah proses mengekstrak pola yang penting ataumenarik dari sejumlah data yang sangat besar. Salah satu metode yang dikenal di dalam penambangan data (data mining) adalah analisis asosiasi yang menghasilkan aturan asosiasi (association rule). Analisis asosiasi adalah teknik data mining untuk menemukan aturan asosiasi antara suatu kombinasi item. Penting tidaknya suatu aturan asosiasi dapat diketahui dengan dua parameter, nilai penunjang (support) yaitu persentase kombinasi item tersebut dan nilai kepastian (confidence) yaitu kuatnya hubungan antar item dalam aturan asosiasi.
Pada tugas akhir ini diimplementasikan salah satu algoritma yang digunakan untuk mencari aturan asosiasi yaitu algoritma Apriori. Implementasi algoritma ini akan digunakan untuk mencari pola keterkaitan antar tingkat keberhasilan atau ketidakberhasilan suatu matakuliah dengan tingkat keberhasilan atau ketidakberhasilan mata kuliah lain dengan menggunakan data akademik mahasiswa yang diperoleh dari Program Studi Ilmu Komputer, Jurusan Matematika, Fakultas MIPA, Universitas Sanata Dharma, Yogyakarta tahun angkatan 2001 dan 2002. Hasil dari implementasi tersebut diperoleh aturan-aturan asosiasi yang terbentuk dari kejadian 2 item atau lebih dengan melakukan percobaan dengan nilai minimum support antara 0.3 s.d 0.6.5 dan nilai minimum confidence antara 0.5 s.d 0.7.
ABSTRACT
Data mining is a process to extract interesting or important patterns fromlarge amount of data. One of method in data mining is association analysis that
yielding association rule . Association analysis is technique of data mining to find
the association rule between item combination. Important or not in association rule
with two parameter , assess the supporter (support) that is the item combination
percentage and assess the certainty (confidence) that is its strength of relation
among the item in association rule.At the final project implementation one of algorithm used to look for the
association rule that is Apriori algorithm .This algorithm implementation will be
used to look for the related pattern usher the level of succeeding or fail of a lesson
with the level of succeeding or fail other lesson by using student academic record
dataset that obtained from Program Study of Computer Science, Mathematics
Majors, Faculty MIPA, University of Sanata Dharma, Yogyakarta of generation year
2001 and 2002. Result from the implementation obtained by a association rule which
is formed by occurence 2 item or more by conducting attempt with the value of
minimum support between 0.3 s.d 0.6.5 and assess the minimum confidence between
0.5 s.d 0.7.
KATA PENGANTAR
Segala puji dan syukur penulis panjatkan kepada Yesus Kristus atas karunia
rahmat dan berkatNya, sehingga skripsi dengan judul Penambangan Aturan Asosiasi pada Dataset Nilai Akademik Mahasiswa dengan Algoritma Apriori selesai disusun.
Skripsi ini disusun sebagai salah satu syarat untuk memperoleh gelar Sarjana Sains (S.Sc.) pada Program Studi Ilmu Komputer di Fakultas MIPA Universitas Sanata Dharma Yogyakarta.
Sebagai manusia biasa, penulis menyadari bahwa hambatan dan rintangan sekecil apapun merupakan pembelajaran dalam rangka menambah pengetahuan dan pengalaman. Berkat bantuan, kerjasama, dukungan, dari berbagai pihak dalam penyusunan skripsi ini maka skripsi ini dapat terselesaikan. Pada kesempatan ini penulis mengucapkan terimakasih dalam dan setulusnya atas kepada :
1. Ibu Paulina Heruningsih Prima Rosa, S.Si., M.Sc, selaku dosen pembimbing yang telah mencurahkan perhatian, waktu, ilmu, dan kesabarannya.
2. Drs. H.J. Haris Sriwindono, M.Kom. , selaku dosen penguji dan Kepala BAPSI ketika penelitian berlangsung, atas kesediaan membantu dalam pengambilan dataset, menguji serta masukan dan kritik yang membangun.
5. Mas Diar, Mbak Retno selaku karyawan BAPSI yang telah membantu dalam pengambilan dataset.
6. Pa’e & Bu’e tercinta, atas segala doa yang tiada hentinya, pengorbanan, kasih sayang yang tak terhingga, semangat dan harapan yang tak padam.
7. Sayang Toro, yang begitu menyayangiku untuk kasih sayang, perhatian, semangat dan dukungannya.
8. Pritty maniez makasih atas semua bantuannya, Nyit2 atas semangatnya, Astiwi thanks to the “mobile”, Kost Lovely : Ophék, Dõra, Déw..ik (thank’s ya kamarnya), Héncë, Plëndies, Pépéng, atas canda tawa dan persahabatan yang indah, serta semua teman-teman IKOM angkatan 2002.
9. Piepiet & Bulan thanks atas doa, semangat, keceriaan, dukungan serta semangat yang diberikan.
10. Kakak-kakakku Mbak Is, Mbak Anne, Mbak Etik, Mbak Atik, Mbak Oni serta adikku Linda atas segala doa, dukungan, kasih sayang, semangat, perhatian, canda tawa yang selalu mengiringiku.
11. Keluarga Bekasi Bapak, Ibuk, Mas Asta, & Tika, terimakasih karena telah menerimaku dalam keluarga.
DAFTAR ISI
HALAMAN JUDUL......................................................................................15 BAB I PENDAHULUAN…….......................................................................
G. Sistematika Penulisan…...................................................................... 21
F. Manfaat............................................................................................... 21
E. BatasanMasalah….............................................................................. 20
D. Tujuan…............................................................................................. 20
C. Metodologi …..................................................................................... 19
B. Rumusan Masalah…........................................................................... 19
17 A. Latar Belakang……............................................................................. 17
12 DAFTAR GAMBAR……..............................................................................
1 HALAMAN PERSETUJUAN PEMBIMBING..........................................
10 DAFTAR TABEL………...............................................................................
7 KATA PENGANTAR.................................................................................... 8 DAFTAR ISI...................................................................................................
6 ABSTRACT.....................................................................................................
5 ABSTRAKSI...................................................................................................
4 PERNYATAAN KEASLIAN KARYA.........................................................
3 HALAMAN PERSEMBAHAN.....................................................................
2 HALAMAN PENGESAHAN........................................................................
BAB II LANDASAN TEORI........................................................................ 23
BAB III ANALISIS DAN PERANCANGAN SISTEM..............................
43 A. Identifikasi Masalah............................................................................. 43
B. Analisis Sistem.................................................................................... 44
1. Input............................................................................................... 44
2. Proses.............................................................................................. 48
3. Output............................................................................................. 52
4. Analisa Kebutuhan Sistem............................................................ 52
C. Perancangan………………................................................................. 53
1. Perancangan Modul………............................................................ 53
2. Perancangan Struktur Data…......................................................... 56
3. Perancangan Antar Muka dengan Pengguna…………………….. 60 BAB IV IMPLEMENTASI DATA MINING……………………………...
70 BAB V ANALISA HASIL DAN PEMBAHASAN..……………………….
93 A. Percobaan Jenis I ................................................................................ 93
1. Percobaan dengan Dataset I........................................................... 93
2. Percobaan dengan Dataset II.......................................................... 103
B. Percobaan Jenis II................................................................................. 116
C. Pembahasan.......................................................................................... 125
BAB VI KESIMPULAN DAN SARAN....................................................... 129
A. Kesimpulan………………………………………………………….. 129 B. Saran…………………………………………………………….…… 131DAFTAR PUSTAKA………………………………………………………. 132
LAMPIRAN………………………………………………………………… 134
DAFTAR TABEL
Tabel 2.1 Contoh Tabel Transaksi D………………………………….…...57 Tabel 3.9 Format listbox bagian atas pada form Frequent Itemset.................
60 Tabel 3.16 Keterangan listbox yang terdapat pada form Strong association rule ..........……….…………………………………..
59 Tabel 3.15 Format listbox yang terdapat pada form Strong association rule…
59 Tabel 3.14 Keterangan listbox yang terdapat pada form Semua Rule……….
59 Tabel 3.13 Format listbox yang terdapat pada form Semua Rule……….......
58 Tabel 3.12 Keterangan listbox bagian bawah pada form Frequent Itemset….
58 Tabel 3.11 Format listbox bagian bawah pada form Frequent Itemset ……...
58 Tabel 3.10 Keterangan listbox bagian atas pada form Frequent Itemset …….
57 Tabel 3.8 Keterangan listbox pada form Frequent 1_Itemset ………………
32 Tabel 2.2 Tabel Transaksi ……………………………………….......…….
56 Tabel 3.7 Format listbox pada form Frequent 1_Itemset.…………………..
56 Tabel 3.6 Contoh salah satu isi array itemset …………………………..
48 Tabel 3.5 Keterangan array itemset ……………………………………..
47 Tabel 3.4 Tabel contoh itemset dengan matakuliah yang memperoleh nilai C,D,E,F…………………………………………………………..
46 Tabel 3.3 Nilai mahasiswa .........................………………………………..
45 Tabel 3.2 Matakuliah yang terdapat dalam satu rangkaian prasyarat...........
39 Tabel 3.1 Nim mahasiswa .............................……………………………...
37 Tabel 2.3 Frequent itemset minimum support 40%..………………....…...
60
Tabel 5.6 Frequent 1_itemset dengan minsup 0.45 pada dataset I……………98 Tabel 5.7 Frequent 2_itemset dengan minsup 0.45 pada dataset I…………...
98 Tabel 5.8 Frequent 3_itemset dengan minsup 0.45 pada dataset I…………..
99 Tabel 5.9 Aturan asosiasi dengan minsup 0.45 dan minconf 0.5 pada dataset I 99
Tabel 5.10 Frequent 1_itemset dengan minsup 0.5 pada dataset I………… 100Tabel 5.11 Frequent 2_itemset dengan minsup 0.5 pada dataset I……………. 100Tabel 5.12 Aturan asosiasi dengan minsup 0.5 dan minconf 0.5 pada dataset I 101Tabel 5.13 Frequent 1_itemset dengan minsup 0.55 pada dataset I………….. 101Tabel 5.14 Frequent 2_itemset dengan minsup 0.55 pada dataset I………….. 102Tabel 5.15 Aturan asosiasi dengan minsup 0.55 dan minconf 0.5 pada dataset I 102Tabel 5.16 Tabel frequent 1_itemset dengan minsup 0.6 pada dataset I……… 102Tabel 5.17 Frequent 1_itemset dengan minsup 0.65 pada dataset I………….. 103Tabel 5.18 Contoh format Dataset II…………………………………………. 103Tabel 5.19 Frequent 1_itemset dengan minsup 0.3 pada dataset II…………… 104Tabel 5.20 Frequent 2_itemset dengan minsup 0.3 pada dataset II………… 105Tabel 5.21 Frequent 3_itemset dengan minsup 0.3 pada dataset II…………… 105Tabel 5.22 Aturan asosiasi dengan minsup 0.3 dan minconf 0,5 pada dataset II 105Tabel 5.23 Frequent 1_itemset dengan minsup 0.35 pada dataset II…………. 108Tabel 5.24 Frequent 2_itemset dengan minsup 0.35 pada dataset II………… 108Tabel 5.25 Frequent 3_itemset dengan minsup 0.35 pada dataset II………… 109Tabel 5.26 Aturan asosiasi dengan minsup 0.35 dan minconf 0.5 pada dataset II 110Tabel 5.27 Frequent 1_itemset dengan minsup 0.4 pada dataset II………….. 111Tabel 5.28 Frequent 2_itemset dengan minsup 0.4 pada dataset II………….. 111Tabel 5.29 Frequent 3_itemset dengan minsup 0.4 pada dataset II………….. 111Tabel 5.37 Frequent 1_itemset dengan minsup 0.55 pada dataset II………… 114Tabel 5.38 Frequent 2_itemset dengan minsup 0.55 pada dataset II………… 114Tabel 5.39 Aturan asosiasi dengan minsup 0.55 dan minconf 0.5 pada dataset II…………………………………………………………. 115Tabel 5.40 Frequent 1_itemset dengan minsup 0.6 pada dataset II………….. 115Tabel 5.41 Frequent 2_itemset dengan minsup 0.6 pada dataset II………….. 115Tabel 5.42 Aturan asosiasi dengan minsup 0.6 dan minconf 0.5 pada dataset II 115Tabel 5.43 Frequent 1_itemset dengan minsup 0.65 pada dataset II……….... 116Tabel 5.44 Aturan asosiasi dengan minsup 0.4 dan minconf 0.6 pada dataset I 117Tabel 5.45 Aturan asosiasi dengan minsup 0.4 dan minconf 0.7 pada dataset I 119Tabel 5.46 Aturan asosiasi dengan minsup 0.45 dan minconf 0.6 pada dataset I 120Tabel 5.47 Aturan asosiasi dengan minsup 0.45 dan minconf 0.7 pada dataset I 121Tabel 5.48 Aturan asosiasi dengan minsup 0.5 dan minconf 0.6 pada dataset I 122Tabel 5.49 Aturan asosiasi dengan minsup 0.5 dan minconf 0.7 pada dataset I 123Tabel 5.50 Aturan asosiasi dengan minsup 0.55 dan minconf 0.6 pada dataset I 123Tabel 5.51 Aturan asosiasi dengan minsup 0.55 dan minconf 0.7 pada dataset I 124
DAFTAR GAMBAR
Gambar 2.1Data Mining merupakan bidang multidisipliner …..…………
24 Gambar 2.2 Tahap-tahap dalam Data Mining …….........................……....
26 Gambar 2.3 Contoh dari decision tree pembeli komputer ..……………….
28 Gambar 2.4 Pencarian candidate itemset dan frequent itemset dengan minimum support = 40%……………..............……………….
38 Gambar 3.1 Diagram Konteks ..................................……………………...
48 Gambar 3.2 DFD Level 1………………………………………….............
49 Gambar 3.3 DFD Level 2………………………...……..............................
50 Gambar 3.4 Perancangan Antar Muka Form Input …….............................
60 Gambar 3.5 Perancangan Antar Muka Form Tabel Mahasiswa..………….
61 Gambar 3.6 Perancangan Antar Muka Form Candidate 1_Itemset…………
62 Gambar 3.7 Perancangan Antar Muka Form Frequent Itemset...................
64 Gambar 3.8 Perancangan Antar Muka Form Candidate Itemset…………..
65 Gambar 3.9 Perancangan Antar Muka Form Semua Rule............................
66 Gambar 3.10 Perancangan Antar Muka Form Strong association rule …….. 67
Gambar 3.11 Perancangan Antar Muka Form Frequent Itemset_1……..….. 68 Gambar 3.12 Perancangan Antar Muka Form Infrequent 1_Itemset.............69 Gambar 4.1 Form Welcome ………………..…………………………….. 70 Gambar 4.2 Form Input …………………………….................…………..
71 Gambar 4.3 Form Dataset …………………………...................................
72 Gambar 4.4 Form Candidate 1_Itemset..………………………………….. 73
Gambar 4.5 Form Loading..................…...……………………………...... 74Gambar 4.13 Form Daftar Istilah……………………….……………….…..92 Gambar 4.14 Form About …………………………………………………..
92 Gambar 5.1 Grafik hubungan nilai minimum support terhadap jumlah aturan asosiasi yang kuat pada dataset I……………………………... 125
Gambar 5.2 Grafik hubungan nilai minimum support terhadap jumlah aturan asosiasi yang kuat pada dataset II…..………………………... 126Gambar 5.3 Grafik hubungan nilai minimum confidence terhadap jumlah aturan asosiasi yang kuat pada dataset I………………………. 127BAB I PENDAHULUAN A. Latar Belakang Data-data dalam suatu perusahaan biasanya disimpan dalam suatu basis data
untuk transaksi sehari-hari, seperti pencatatan transaksi jual beli, administrasi pengiriman barang , dan lain-lain. Hal itu disebut OLTP (Online Transaction
Processing). Data-data tersebut akan semakin bertambah seiring berjalannya waktu.
Data-data yang tersimpan dalam kurun waktu yang cukup lama akan mencapai ukuran gigabyte bahkan dapat mencapai terabyte.
Dengan menggunakan data-data tersebut, suatu perusahaan atau organisasi dapat mengambil keputusan untuk mendapatkan informasi yang berguna. Untuk mengambil keputusan melalui data-data tersebut, cara tradisional yang dipergunakan adalah dengan membangun database yang disebut OLAP (Online Analytical
Processing). OLAP mendasarkan diri pada pemrosesan kueri atas data multidimensi,
seperti jenis barang, waktu, lokasi dan sebagainya. Semakin besar volume data, kebutuhan menganalisa data untuk mempertahankan keunggulan dalam suatu kompetisi semakin harus dikembangkan, namun belum ada teknologi untuk
Salah satu instansi yang mempunyai data yang berukuran besar adalah Universitas Sanata Dharma Yogyakarta. Banyak sekali data yang disimpan oleh Universitas Sanata Dharma, salah satunya yaitu data nilai akademik mahasiswa yang setiap semester selalu bertambah sesuai jumlah mahasiswa dan matakuliah yang mereka ambil. Nilai tersebut dipakai untuk menentukan ipk, ips dan jumlah sks yang akan diambil oleh mahasiswa pada semester berikutnya. Selanjutnya nilai tersebut akan disimpan dan dibiarkan hingga dapat menjadi tumpukan data.
Dari data tersebut penulis mencoba untuk memanfaatkannya untuk mencari suatu informasi yang berguna. Dalam skripsi ini penulis menggunakan data mining untuk mencari informasi tersebut. Data mining merupakan serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Dengan teknologi data mining penulis dapat memperoleh informasi dari dataset nilai akademik mahasiswa sehingga tidak akan menjadi tumpukan data saja .
Data nilai akademik dapat dimanfaatkan untuk mengetahui pola keterkaitan antar tingkat keberhasilan / ketidakberhasilan suatu mata kuliah dengan tingkat keberhasilan / ketidakberhasilan mata kuliah lain yang diprasyaratinya dalam satu rangkaian aliran matakuliah. yang dikelompokkan ke dalam transaksi kemudian mengambil kesimpulan berdasarkan hubungan yang terbentuk dari beberapa item data tersebut.
Penting atau tidaknya suatu aturan asosiasi dapat diketahui dengan dua parameter, support yaitu presentase kombinasi item tersebut dalam database dan
confidence yaitu kuatnya hubungan antar item dalam aturan asosiasi. Algoritma yang
akan dipakai adalah algoritma Apriori karena di antara beberapa algoritma aturan asosiasi yang dikembangkan, algoritma Apriori merupakan algoritma yang dinilai paling efisien (Dyah,2005).
B. Rumusan Masalah
Bagaimana mengetahui pola keterkaitan antar tingkat keberhasilan atau ketidakberhasilan suatu matakuliah dengan tingkat keberhasilan atau ketidakberhasilan mata kuliah lain dari dataset nilai akademik mahasiswa dengan
data mining menggunakan teknik pencarian aturan asosiasi (association rule) dengan
algoritma Apriori?
C. Metodologi
1. Pembersihan data
Melakukan penggabungan data menjadi bentuk yang sesuai untuk data
mining serta membangun model berdasarkan pola-pola yang ditemukan pada langkah sebelumnya.
4. Aplikasi teknik data mining menggunakan algoritma Apriori.
5. Evaluasi pola yang ditemukan.
Untuk menemukan informasi yang bernilai dengan menggunakan algoritma Apriori.
6. Presentasi pengetahuan.
Dengan menggunakan teknik visualisasi.
D. Tujuan
Untuk mengetahui pola keterkaitan antar tingkat keberhasilan atau ketidakberhasilan suatu matakuliah dengan dengan tingkat keberhasilan atau ketidakberhasilan mata kuliah lain dari dataset nilai akademik mahasiswa dengan
data mining menggunakan teknik pencarian aturan asosiasi (association rule) dengan
algoritma Apriori.E. Batasan Masalah matakuliah Algoritma dan Pemrograman I merupakan matakuliah yang menjadi syarat untuk pengambilan matakuliah-matakuliah lain (dapat dilihat pada lampiran 2).
F. Manfaat
Hasil penelitian dari data mining ini akan menghasilkan aturan asosiasi yang merupakan hubungan keterkaitan tingkat keberhasilan atau ketidakberhasilan suatu makuliah terhadap tingkat keberhasilan atau ketidakberhasilan matakuliah lain. Kesimpulan dari aturan tersebut dapat digunakan sebagai pertimbangan untuk perbaikan kurikulum program studi, dalam hal menentukan apakah suatu matakuliah perlu diprasyarati oleh matakuliah lain dan menentukan sifat persyaratannya (nisbi atau mutlak). Selain itu informasi yang diperoleh dapat pula dipakai untuk perbaikan proses belajar mengajar dan pendampingan akademik.
G. Sistematika Penulisan
Bab I. Pendahuluan Dalam bab ini akan dijelaskan mengenai latar belakang masalah, rumusan
masalah, metodologi, tujuan, batasan masalah, manfaat, dan sistematika
Bab III. Analisa dan Perancangan Data Mining Dalam bab ini akan diidentifikasikan masalah yang akan diselesaikan dan
tahap-tahap penyelesaian masalah dalam data mining dengan algoritma
Apriori. Dalam bab ini pula akan dijelaskan perancangan program
implementasi data mining dengan algoritma Apriori.Bab IV Implementasi Data Mining Dalam bab ini akan dijelaskan tentang implementasi data mining dengan algoritma Apriori. Bab V. Analisa hasil dan Pembahasan Berisi analisa hasil program dan pembahasan masalah berdasarkan hasil yang telah didapat secara keseluruhan. Bab VI. Kesimpulan dan Saran Berisi kesimpulan dan saran dari hasil analisis serta pembahasan masalah berdasarkan hasil yang telah didapat.
BAB II LANDASAN TEORI A. Pengertian Data Mining Menurut Pramudiono (2003) perkembangan data mining yang pesat tidak
dapat lepas dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah yang besar terakumulasi. Tetapi pertumbuhan yang pesat dari akumulasi data telah menciptakan suatu kondisi yang disebut dengan “rich of data but poor of
information” karena data yang terkumpul itu tidak dapat digunakan dalam suatu
aplikasi yang berguna. Bahkan tidak jarang kumpulan data tersebut dibiarkan begitu saja sehingga tercipta “data tombs” (kuburan data).
Dalam jurnal ilmiah, data mining juga dikenal dengan nama KDD (Knowledge Discovery in Database). Namun pada tahun 1995, telah diadakan
International KDD Conference di Montreal yang berhasil mendefinisikan bahwa
KDD merupakan suatu proses dalam mengenali informasi atau suatu kebenaran baru dan benar-benar berguna serta mengenali pola yang dapat dimengerti dari data.
Tujuan utama dari proses KDD adalah memprediksikan nilai-nilai yang berguna dari variabel-variabel yang ada atau menemukan pola-pola dari sebuah gugusan data yang
Definisi data mining :
1. Menurut Pramudiono (2003), data mining merupakan serangkaian proses untuk menggali nilai tambah baru suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.
2. Menurut Sucahyo (2003), definisi sederhana dari data mining adalah ekstraksi informasi atau pola yang penting atau menarik dari data yang ada di basis data yang besar.
3. Menurut Edelstein dari Two Crows Cooperations data mining digunakan untuk menemukan pola yang tersembunyi dan hubungan antar data yang membantu di dalam hal membuat keputusan bisnis yang lebih baik.
4. Menurut Kumar dan Joshi, data mining adalah eksplorasi dari analisis baik secara otomatis maupun semi otomatis dari data yang berjumlah besar dengan tujuan untuk menemukan pola dan aturan yang berarti. Perlu diketahui bahwa data mining merupakan salah satu bidang yang cukup banyak didukung oleh cabang ilmu lain di dalam teknologi informasi yaitu statistik, teknologi basis data, machine learning, sistem pakar, algoritma paralel, algoritma genetika, pengenalan pola, visualisasi data, dan lain-lain. Applied
Ada beberapa faktor yang menjadi alasan utama mengapa menggunakan data
mining:
1. Banyaknya data yang terkumpul sehingga memerlukan waktu yang sangat lama dan tenaga ahli yang cukup banyak untuk menganalisisnya.
2. Komputer menjadi salah satu pilihan utama karena kemampuannya dalam kecepatan, ketepatan, tidak pernah lelah dan mudah dioperasikan.
3. Tekanan dari kompetisi bisnis yang terus menguat sehingga menjadikan informasi menjadi sangat penting dan harus segera dimiliki.
4. Mampu menemukan suatu pola yang tidak terpikirkan sama sekali. Menurut Sucahyo (2003) data mining merupakan salah satu aktifitas dibidang perangkat lunak yang dapat memberikan ROI (Return of Investment) yang tinggi.
Hal yang perlu diperhatikan adalah bahwa data mining berbeda dengan query
tools. Query dan data mining merupakan dua hal yang saling melengkapi.
Keberadaan data mining bukan untuk menggantikan query tetapi menambahkan beberapa tambahan yang berarti. Jika menggunakan query sederhana maka informasi
B. Tahap-Tahap Data Mining
Karena data mining adalah suatu rangkaian proses maka dibagi menjadi beberapa tahap antara lain :
1. Pembersihan data: untuk membuang data yang tidak konsisten dan noise.
2. Integrasi data: untuk menggabungkan data dari beberapa sumber.
3. Transformasi data : untuk mengubah data menjadi bentuk yang sesuai untuk di-mining.
4. Aplikasi teknik data mining.
5. Evaluasi pola yang ditemukan : untuk menemukan informasi yang menarik ataupun bernilai.
6. Presentasi pengetahuan dengan teknik visualisasi. Tahap-tahap diatas dapat digambarkan sebagai berikut :
C. Teknik Data Mining
Berdasarkan proses:
1. Supervised Learning Dalam supervised learning disyaratkan agar data analis telah mengidentifikasi atribut tujuan. Sebagai contoh, bila ada suatu pertanyaan tentang siapakah pelanggan yang baru-baru ini membeli mobil baru, untuk itu dapat dibuat target atribut 1 untuk “YA” dan 0 untuk “TIDAK”. Teknik-teknik yang termasuk dalam bagian ini antar lain Clasification, Regression, dan lain-lain.
2. Unsupervised Learning Berbeda dengan supervised learning, dalam unsupervised learning data analis tidak perlu mengidentifikasi atribut target. Teknik-teknik data
mining yang termasuk ke dalam bagian ini adalah Clustering, Association Rule, dan lain-lain.
Berikut ini adalah gambaran tentang teknik data mining yang paling populer dari teknik-teknik data mining yang ada:
1. Classification
Classification adalah proses untuk menemukan model atau fungsi
Desicion tree merupakan salah satu metode clasification yang paling
populer karena mudah untuk diinterpretasikan oleh manusia. Contoh dari decision tree dapat dilihat melalui gambar dibawah ini: <=30 age >40 no yes student yes excellent no yes credit rating
Gambar 2.3 Contoh dari decision tree pembeli komputer
(www.ilmu komputer.com/umum/iko-datamining.php.2003)
Setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung pohon menyatakan kelas data atau atribut data. Dari decision tree tersebut, diketahui bahwa salah satu kelompok yang potensial membeli komputer adalah orang yang berusia dibawah atau sama dengan 30 dan juga merupakan seorang pelajar.
Algoritma Decision tree yang sering dipakai adalah ID3 dan C4.5, namun akhir-akhir ini sedang dikembangkan suatu algoritma yang dikenal dengan RainForest. Metode-metode classification yang lain adalah Bayesian, Neural Network, Genetic Algorithm, Fuzzy, Basis data transaksi tersebut dapat dipakai untuk menyelesaikan masalah pemilik pasar swalayan atau toko antara lain dalam mengatur tata letak barang, penyiapan stok barang, dan lain-lain. Dengan menemukan semua aturan asosiasi dan korelasi di antara item data dimana kehadiran salah satu dari sejumlah item data menunjukkan secara tidak langsung adanya kehadiran item data lainnya, maka masalah tersebut bisa diselesaikan. Contoh dari aturan asosiasi adalah bisa diketahui berapa besar kemungkinan seorang pelanggan membeli roti bersamaan dengan susu. Dengan informasi tersebut, seorang pemilik pasar swalayan atau toko dapat mengambil keputusan- keputusan strategis tentang pasar swalayan atau tokonya dalam mengatur penempatan barang atau merancang kampanye pamasaran dengan menggunakan kupon diskon untuk kombinasi barang. Adapun algoritma pada teknik ini antara lain Apriori, FP-Growth,
Closure/closed dan lain-lain.
3. Clustering Berbeda dengan classification dimana kelas data telah ditentukan sebelumnya, clustering melakukan pengelompokan data
D. Aturan asosiasi (Association Rules)
Association rule adalah salah satu teknik data mining yang sudah mulai
dipopulerkan oleh Rakesh Agrawal, seorang peneliti di IBM Almaden Research Center yang berasal dari India, sejak tahun 1993 (Prasetyo,2006). Aturan asosiasi sering dipakai dalam penggalian data transaksi. Proses pencarian aturan asosiasi bertujuan untuk menemukan pola yang sering muncul, asosiasi antara suatu kombinasi item yaitu dengan membuat korelasi antara item data yang dikelompokkan ke dalam transaksi kemudian mengambil kesimpulan berdasarkan hubungan yang terbentuk dari beberapa item data. Hal-hal tersebut dapat merepresentasikan informasi penting yang ingin diketahui pada data yang ada.
Proses pencarian frequent itemset merupakan pra-syarat dan membutuhkan waktu sangat banyak, sehingga banyak algoritma dikembangkan untuk lebih mengefisienkan proses ini. Ada beberapa faktor yang mempengaruhi efisiensi pencarian frequent itemset diantaranya adalah bila basis data besar (jumlah transaksi yang banyak), item yang sangat banyak dan nilai support yang rendah.
Penting tidaknya suatu aturan asosiasi dapat diketahui dengan dua parameter,
support yaitu prosentase kombinasi item dalam database dan confidence yaitu
kuatnya hubungan antar item dalam aturan asosiasi (Pramudiono,2003). Pencarian
1 2 k
Definisi 1 : Misalkan I = {I , I , …, I }, X I adalah kumpulan dari item-item yang
disebut itemset.Definisi 2 : Misalkan I = {I 1 , I 2 , …, I k } adalah sebuah gugus dari k atribut yang
berbeda, disebut juga literal. D adalah basis data, dimana setiap record (tuple) t memiliki pengidentifikasi yang unik (TID), dan mengandung sebuah item sedemikian hingga t I. Untuk transaksi t berisi X yang merupakan sekumpulan item yang ada dalam I, sehingga X t, aturan asosiasi adalah sebuah aturan berbentuk X Y, dimana X I, Y I, dan X Y = .
Definisi 3 : Support dari aturan asosiasi X Y adalah rasio dari record yang
mengandung X Y dengan total record dalam basis data. Secara matematis dapat ditulis,
t D |
X Y t
Supp(X Y) = ...................................................(2.1) D
Untuk mendapatkan nilai support menggunakan rumus :
Support (X,Y) = Count (X,Y) / |D|................................................(2.2)
Definisi 6 : Confidence dari aturan asosiasi X Y adalah rasio dari record yang
mengandung X Y dengan total record yang mengandung X. Secara matematis dapat ditulis,
t D |
X Y t
Conf( X Y) = .................................................(2.3) t D | X t
Untuk mendapatkan nilai confidence menggunakan rumus:
Confidence (X Y) = support (X,Y) / support (X).........................(2.4)
Definisi 7 : Minconf (minimum confidence) menandakan ambang batas (threshold)
dari sebuah aturan asosiasi untuk menentukan aturan asosiasi yang kuat (strong association rule).
Beberapa istilah lain yang digunakan dalam aturan asosiasi adalah sebagai berikut :
· k-itemset : itemset dengan kardinalitas k (gugus item yang memiliki k buah item). · candidate k-itemset : itemset yang mungkin merupakan frequent k-itemset. · frequent k-itemset (F k ): frequent itemset dengan kardinalitas k.
· Aturan asosiasi yang kuat (strong association rule) : aturan asosiasi yang nilai
confidence-nya memenuhi parameter ambang batas minimum confidence.Jumlah transaksi D = |D| = 4 Jumlah transaksi yang terdiri dari item (2,3) = Count (2,3) = 2 Maka support (2,3) = Count (2,3) / |D|
= 2 / 4 = 0.5
Confidence (2 3) = support (2,3) / support (2)
= 0.5 / 0.75 = 0.67
Secara umum yang dilakukan dalam proses pencarian aturan asosiasi ini dapat
:
dibagi menjadi dua tahapan, yaitu
· Pencarian frequent itemset
Yaitu proses pencarian semua frequent itemset dari kandidat itemset yang memenuhi nilai minsup. Dalam skripsi ini proses pencarian frequent itemset menggunakan algoritma Apriori.
·
Pembentukan strong association rule Yaitu proses mendapatkan aturan asosiasi yang kuat (strong association rule) dari kombinasi frequent itemset yang membentuk aturan asosiasi yang memiliki nilai confidence lebih besar atau sama dengan dari nilai minconf .
E. Algoritma Apriori
Algoritma Apriori adalah algoritma analisis keranjang pasar yang digunakan untuk menghasilkan aturan asosiasi, dengan pola “if-then”. Algoritma ini menggunakan pendekatan iteratif yang dikenal dengan level-wise search, dimana k- kelompok produk digunakan untuk mengeksplorasi (k+1)-kelompok produk atau (k+1)-itemset (Yulita dkk, 2004). Algoritma Apriori merupakan algoritma untuk mencari frequent itemset yang berdasarkan prinsip Apriori, yaitu jika suatu itemset merupakan frequent itemset, maka semua subset-nya akan berupa frequent itemset (Sukarya,dkk). Pembentukan frequent itemset dilakukan dengan mencari semua kombinasi item-item yang memiliki support lebih besar atau sama dengan minsup yang telah ditentukan.
Proses pada algoritma ini membangkitkan frequent itemset per level, dimulai dari level 1-itemset sampai ke itemset terpanjang, kandidat level yang baru dibentuk dari frequent itemset yang ditemukan di level sebelumnya lalu menentukan nilai
support-nya. Detail algoritma Apriori adalah sebagai berikut : k C : candidate itemset dengan ukuran k F k : frequent itemset dengan ukuran k
D : data seluruh transaksi
//Prune Step C t = subset (C k , t); t For all kandidat c C do c.count++; end L k = { c C k | c.count minsup} End Answer = k F k ;