Proses Data Mining dalam Sistem Pembelaj

Proses Data Mining dalam Sistem Pembelaj aran
Berbantuan Komputer
Mewat i Ayub
Jurusan Teknik Inf ormat ika,
Fakul t as Teknol ogi Inf ormasi
Universit as Krist en Maranat ha, Bandung
Email : mewat i. ayub@eng. maranat ha. edu

Abstract
Web-based educat i onal syst ems and int el l igent t ut oring syst ems col l ect
l arge amount s of st udent s dat a, f rom web l ogs t o st udent model s. Dat a
mining appl icat ions on t hose dat a can hel p discovering rel evant knowl edge
f or improving comput er aided l earning syst em. Using t he knowl edge,
t eacher can underst and more about how st udent s l earn by st udying a
group of st udent s in order t o enhance t eaching and l earning. In t his paper,
dat a mining process
wil l be separat ed int o dat a col l ect ion, dat a
t ransf or mat ion, and dat a anal ysis. Associat i on rul es, cl assif i cat i on, and
cl ust ering are dat a mining al gorit hms t hat expl ored in dat a anal ysis f or
comput er ai ded l earning syst ems.


Keywords : dat a mining, comput er aided l earning syst em, knowl edge
1. Pendahuluan
Ket ersediaan dat a yang berlimpah yang dihasilkan dari penggunaan
t eknologi inf ormasi di hampir semua bidang kehidupan, menimbulkan
kebut uhan unt uk dapat memanf aat kan inf ormasi dan penget ahuan yang
t erkandung di dalam limpahan dat a t ersebut , yang kemudian melahirkan
dat a mining. Dat a mining merupakan proses unt uk menemukan
penget ahuan ( knowl edge discovery) yang dit ambang dari sekumpulan dat a
yang volumenya sangat besar. Aplikasi dat a mining pada pengelolaan
bisnis, pengendalian produksi, dan analisa pasar misalnya, memungkinkan
diperolehnya pola dan hubungan yang dapat dimanf aat kan unt uk
peningkat an penj ualan, at au pengelolaan sumber daya dengan lebih baik.
Dunia pendidikan memiliki dat a yang berlimpah dan berkesinambungan
mengenai siswa yang dibina dan al umni yang dihasilkannya. Hal ini
membuka peluang dit erapkannya dat a mining unt uk pengelolaan
pendidikan yang lebih baik [ Jing, 2004] dan dat a mining dalam
pelaksanaan pembelaj aran berbant uan komput er yang lebih ef ekt if
[ Merceron, 2005] .

21


Jurnal Sist em Inf ormasi Vol. 2 No. 1 Maret 2007 : 21-30

Sist em pembelaj aran berbant uan komput er (comput er aided l earning
syst em) dapat diimplement asikan sebagai sist em t ut orial berbasis web
( web-based t ut oring t ool ) [ Merceron, 2005] at au sist em t ut orial cerdas
( int el l igent t ut oring syst em ) [ Nilakant , 2004] . Di dalam sist em t ut orial
berbasis web maupun sist em t ut orial cerdas, set iap int eraksi siswa dengan
sist em akan dicat at dalam suat u basis dat a dalam bent uk web log at au
model siswa ( st udent model ). Set elah sist em t ersebut digunakan dalam
proses pembelaj aran selama j angka wakt u t ert ent u, maka akan t erkumpul
sej umlah besar dat a. Kumpulan dat a t ersebut dapat diproses lebih lanj ut
dengan dat a mining unt uk memperoleh pola baru yang dapat digunakan
unt uk meningkat kan ef ekt if it as dalam proses pembelaj aran.
Makalah ini akan membahas bagaimana dat a mining dapat dimanf aat kan
unt uk meningkat kan ef ekt if it as dalam proses pembelaj aran berbant uan
komput er dari sudut pedagogi.

2. Data Mining


Dat a mining mengacu pada proses unt uk menambang ( mining)
penget ahuan dari sekumpulan dat a yang sangat besar [ Jiawei, 2001] .
Sebenarnya dat a mining merupakan suat u langkah dalam knowl egde
discovery in dat abases (KDD). Knowl edge discovery sebagai suat u proses
t erdiri at as pembersihan dat a ( dat a cl eaning), int egrasi dat a ( dat a
int egrat ion), pemilihan dat a ( dat a sel ect ion), t ransf ormasi dat a ( dat a
t ransf or mat ion), dat a mining, evaluasi pola ( pat t ern eval uat ion) dan
penyaj ian penget ahuan ( knowl edge present at i on).
Kerangka proses dat a mining yang akan dibahas t ersusun at as t iga t ahapan,
yait u pengumpulan dat a ( dat a col l ect i on), t ransf ormasi dat a ( dat a
t ransf or mat ion), dan analisis dat a ( dat a anal ysis) [ Nilakant , 2004] . Proses
t ersebut diawali dengan preprocessi ng yang t erdiri at as pengumpulan dat a
unt uk menghasilkan dat a ment ah ( raw dat a) yang dibut uhkan oleh dat a
mining, yang kemudian dilanj ut kan dengan t ransf ormasi dat a unt uk
mengubah dat a ment ah menj adi f ormat yang dapat diproses oleh kakas
dat a mining, misalnya melalui f ilt rasi at au agregasi. Hasil t ransf ormasi
dat a akan digunakan oleh analisis dat a unt uk membangkit kan penget ahuan
dengan menggunakan t eknik sepert i analisis st at ist ik, machine l earning,
dan visualisasi inf ormasi.
Data mentah

Pengumpulan
data

Dataset
Transformasi
data

Pengetahuan
Analisis data

Evaluasi

Penget ahuan kurang
Perbaikan dat aset
Perubahan sist em
22

Proses Dat a Mining dalam Sist em Pembelaj aran Berbant uan Komput er
(Mewat i Ayub)


Gambar 1. Aliran informasi dalam dat a mining
Pada gambar 1 dit unj ukkan diagram yang menggambarkan aliran inf ormasi
dalam proses dat a mi ning yang diadapt asi dari [ Nilakant , 2004] . Proses
dat a mining pada gambar t ersebut dit unj ukkan sebagai proses yang
it erat if . Hasil evaluasi penget ahuan yang dihasilkan dat a mining dapat
menimbulkan kebut uhan penget ahuan yang lebih lengkap, perbaikan
kumpulan dat a (dat aset ) at au perubahan pada sist em.

3. Data mining dalam pembelaj aran
Unt uk menent ukan variabel apa saj a yang perlu dicat at dari int eraksi siswa
dengan sist em, perlu dikembangkan suat u model int eraksi siswa-sist em.
Gambar 2 menunj ukkan analisis int eraksi t ersebut pada beberapa lapisan
(layer) yang berbeda [ Nilakant , 2004] .
Apabila evaluasi sist em t ut orial dit erapkan pada lapisan t erluar, maka akan
dilakukan pre-t est sebelum pelaj aran dimulai dan post -t est set elah
pelaj aran selesai diberikan. Perbedaan pre-t est dan post -t est akan
menunj ukkan perubahan kinerj a set iap siswa dengan granularit as pada
t ingkat pelaj aran. Jika diperlukan analisis yang lebih t erinci, maka
eksplorasi hasil belaj ar ( l earning out come) harus dilakukan pada lapisan
yang lebih dalam. Sebagai cont oh, pembelaj aran dalam suat u pelaj aran

t ersusun at as beberapa sesi. Set iap sesi diawali dan diakhiri dengan t es
unt uk mengevaluasi perubahan kinerj a set iap siswa per sesi. Selama suat u
sesi, siswa akan mencoba mengerj akan sej umlah soal. Unt uk mengerj akan
suat u soal, siswa mungkin akan mencoba beberapa kali sebelum
mendapat kan solusi yang paling t epat . Dari int eraksi t ersebut , beberapa
inf ormasi dapat dicat at oleh sist em, sepert i misalnya apakah siswa dapat
menj awab set iap soal dengan benar, berapa kali siswa mencoba sebelum
akhirnya memberikan j awaban yang t epat . Pada t ingkat granularit as yang
paling baik, set iap usaha siswa menj awab soal dibedakan at as melanggar
at au memenuhi sej umlah at uran. Inf ormasi mengenai pelanggaran at au
pemenuhan t ersebut dapat dicat at , dan akan menghasilkan represent asi
st at us kognit if siswa, yang dikenal sebagai model siswa.

23

Jurnal Sist em Inf ormasi Vol. 2 No. 1 Maret 2007 : 21-30

Pelajaran
Sesi
Soal

Usaha
Aturan

Gambar 2. Model int eraksi siswa-sist em (lapisan granularit as)
Inf ormasi yang dihasilkan pada berbagai lapisan t ersebut di at as dapat
saling melengkapi, sehingga analisis dat a dapat menunj ukkan hubungan
ant ara dat a dari berbagai lapisan. Sebagai cont oh, unt uk set iap
pelanggaran at uran yang dicat at , inf ormasi mengenai siswa yang
melakukan pelanggaran, pelaj aran yang sedang diikut i, soal yang sedang
dipelaj ari, sert a usaha yang menyebabkan pelanggaran harus disimpan
j uga. Pada t abel 1 dit unj ukkan ringkasan dat a yang dapat disimpan unt uk
set iap usaha yang dilakukan siswa dalam menj awab soal.

Tabel 1. Taksonomi variabel dari usaha siswa menj awab soal
Kegiat an
persiapan



evaluasi


inf ormasi yang dipakai siswa
sebelum
mencoba
menj awab suat u soal

wakt u yang diperlukan
unt uk menj awab soal

inf ormasi mengenai usaha
siswa menj awab suat u soal

at uran
(relevan,
dipenuhi, dilanggar)
t ingkat umpan balik
yang dimint a
permint aan melihat
solusi


inf ormasi yang berhubungan
dengan hasil (out come) dari
suat u usaha.







24

Ket erangan

umpan balik yang
t ersedia
banyaknya soal
banyaknya usaha
t ingkat kesulit an soal
kont eks soal






pelaksanaan
lat ihan soal

Variabel

Proses Dat a Mining dalam Sist em Pembelaj aran Berbant uan Komput er
(Mewat i Ayub)

Tahap pengumpulan dat a akan menyediakan dat a dalam volume yang
cukup besar, namun analisis dat a t idak dapat langsung dilakukan t erhadap
kumpulan dat a t ersebut , karena harus dilakukan t ransf ormasi t erhadap
dat a sehingga analisis siap dilakukan.
Dat a ment ah yang dihasilkan dari pengumpulan dat a, biasanya t ersimpan
dalam bent uk beberapa t abel basis dat a. Karena analisis dat a umumnya
dilakukan t erhadap suat u t abel t unggal, maka perlu dilakukan

penggabungan (j oin) beberapa t abel yang relevan. Hasilnya adalah suat u
st rukt ur yang disebut dengan dat aset , sepert i t ampak pada gambar 3
[ Nilakant , 2004] . Dat aset dapat dikelompokkan secara vert ikal sebagai
kumpulan at ribut dan secara horisont al sebagai kumpulan inst ans. Set iap
at ribut mempunyai t ipe dat a, yang dapat berupa numerik, t eks, at au
bent uk lainnya. Jika domain nilai suat u at ribut berhingga, maka disebut
at ribut nominal. Suat u inst ans adalah dat a yang dihasilkan dari suat u
kej adian di dunia nyat a, yang dicat at dalam beberapa at ribut .
at ribut 1

at ribut 2

. . .

at ribut n

inst ans-1

x1, 1

x1, 2

. . .

x1, n

inst ans-2

x2, 1

x2, 2

. . .

x2, n

. . .

. . .

. . .

. . .

xm, 1

xm, 2

. . .

xm, n

. . .
inst ans-m

Gambar 3. Format Dat aset
Transf ormasi dat aset dapat dilakukan dalam beberapa cara, ant ara lain
f ilt rasi dat aset dan konversi at ribut [ Nilakant , 2004] [ Jiawei, 2001] . Filt rasi
dat aset dilakukan dengan mengurangi ukuran dat aset , yait u dengan
membuang beberapa inf ormasi yang t idak relevan. Sebagai cont oh, dari
analisis t erhadap dat a ment ah dit emukan bahwa beberapa soal dalam basis
dat a cenderung menimbulkan pelanggaran t erhadap at uran t ert ent u. Unt uk
eksplorasi penyebabnya, analisis harus dibat asi hanya t erhadap kumpulan
soal t ersebut . Dengan menyaring inf ormasi t ersebut , proses analisis akan
memberikan hasil yang lebih dapat diandalkan ( rel iabl e). Filt rasi dilakukan
t erhadap salinan dat a, sehingga dat a asli t idak mengalami perubahan dat a.
Cara berikut nya unt uk t ransf ormasi dat a adalah konversi at ribut , yait u
bekerj a pada nilai at ribut di set iap inst ans dari dat aset . Tuj uan dari
konversi at ribut adalah mengubah at ribut bernilai kont inu (t idak
berhingga) menj adi at ribut dengan nilai nominal (berhingga), karena
sebagian cara analisis dengan machine l earning t idak dapat berf ungsi pada
at ribut yang bernilai kont inu.
25

Jurnal Sist em Inf ormasi Vol. 2 No. 1 Maret 2007 : 21-30

Terdapat dua cara unt uk melakukan diskrit isasi nilai at ribut . Cara pert ama
dengan melakukan penelusuran ( scanning) seluruh dat aset unt uk semua
nilai kont inu yang muncul, kemudian menggunakan nilai t ersebut sebagai
domain dari at ribut nominal. Teknik ini membuat domain nilai menj adi
himpunan t ert ut up dari nilai yang mungkin muncul, sehingga dat aset
menj adi ‘ sparse’ .
Terdapat t eknik lainnya, yait u ‘ binning’ , yang mendef inisikan kumpulan
kelas nominal unt uk set iap at ribut , kemudian menet apkan set iap nilai
at ribut ke dalam salah sat u kelas. Misalnya, j ika domain at ribut numerik
mempunyai nilai dari 0 sampai dengan 100, domain t ersebut dapat dibagi
menj adi empat bin (0. . 24, 25. . 49, 50. . 74, 75. . 100). Set iap nilai at ribut
akan dikonversi menj adi at ribut nominal yang berkorespondensi dengan
salah sat u bin.
Terdapat t iga cara unt uk mendef inisikan int erval nilai, yait u equal -widt h,
equal -f requency, dan cust omised. Equal -widt h akan membagi int erval nilai
at ribut menj adi n int erval yang lebarnya sama. Equal -f requency
menghit ung int erval dari set iap kelas sehingga set iap kelas yang
dialokasikan akan mempunyai f rekuensi inst ans dat aset yang hampir sama.

4. Penerapan Teknik Data Mining
Proses analisis dat a dengan menerapkan t eknik dat a mining dapat
dilakukan melalui analisis st at ist ik at au dengan pendekat an machine
l earning. Analisis dat a pembelaj aran dengan pendekat an machine l earning
akan menggunakan t iga t eknik, yait u associat ion rul es, cl ust ering, dan
cl assi f icat ion [ Nilakant , 2004] [ Merceron, 2005] .
Algorit ma associ at ion rul e (AR) digunakan unt uk menemukan hubungan
ant ar nilai t ert ent u dari at ribut nominal dalam suat u dat aset . At uran yang
dihasilkan dapat dit ulis dalam bent uk “ if -t hen” dengan mempert imbangkan
besaran support dan conf idence unt uk menilai reliabilit as at uran. Bent uk
umum at uran dalam associat i on rul e adalah :
(X = x i ) →(Y = yi ) [ sup, conf ]
dengan X = { x 1, x 2, . . . , x n}, Y = { y1, y2, . . . , ym }, sup = probabilit as
bahwa suat u inst ans dalam dat aset mengandung X ∪Y, conf = probabilit as
kondisional bahwa inst ans yang mengandung X j uga mengandung Y.
Pada gambar 4 dit unj ukkan cont oh at ribut dat aset yang dapat dit urunkan
dari Tabel 1 yang akan digunakan sebagai acuan unt uk pembahasan dalam
algorit ma AR, classif icat ion, dan clust ering berikut ini. Dat aset t ersebut
dapat merupakan gabungan dari beberapa dat a yang diperoleh saat siswa
berint eraksi dengan sist em pembelaj aran.

26

Proses Dat a Mining dalam Sist em Pembelaj aran Berbant uan Komput er
(Mewat i Ayub)

No

At ribut

Ket erangan

1

IdSiswa

Ident it as siswa

2

NoSoal

Nomor soal yang dikerj akan

3

JenisSalah

Jenis kesalahan

4

NoAt uran

Nomor at uran/ konsep yang dipakai dalam soal

5

JmlCoba

Banyaknya usaha siswa mencoba menj awab soal

6

Tingkat

Tingkat pencapaian dalam pengerj aan soal

7

Nilai

Nilai yang diperoleh

Gambar 4. Cont oh At ribut Dat aset
Dalam mining dat a pembelaj aran, algorit ma AR dapat dimanf aat kan unt uk
menemukan kesalahan yang sering t erj adi pada saat siswa mengerj akan
lat ihan soal. Sebagai cont oh, dari dat aset pada gambar 4, diperoleh
kumpulan inst ans mengenai siswa yang melakukan kesalahan dengan
f rekuensi t ert ent u. Diasumsikan kumpulan inst ans t ersebut memenuhi
kondisi j ika siswa melakukan kesalahan A dan kesalahan B, maka mereka
j uga melakukan kesalahan C, misalnya dengan support 30% dan conf idence
60%, akan dit ulis sebagai :
A and B → C [ 30%, 60%]
At uran t ersebut dapat dibaca sebagai berikut : dari 30% siswa yang
melakukan kesalahan A dan kesalahan B (dari seluruh siswa yang
mengerj akan lat ihan soal), 60% diant aranya melakukan kesalahan C.
Algorit ma AR j uga dapat menyat akan hubungan ant ara beberapa at ribut
yang berbeda, misalnya kesalahan A pada konsep X menimbulkan kesalahan
B pada konsep Y, yang dit ulis sebagai
A and X → B and Y
Teknik cl assif i cat ion bekerj a dengan mengelompokkan dat a berdasarkan
dat a t raining dan nilai at ribut klasif ikasi. At uran pengelompokan t ersebut
akan digunakan unt uk klasif ikasi dat a baru ke dalam kelompok yang ada.
Classif icat ion dapat direpresent asikan dalam bent uk pohon keput usan
( decision t r ee). Set iap node dalam pohon keput usan menyat akan suat u t es
t erhadap at ribut dat aset , sedangkan set iap cabang menyat akan hasil dari
t es t ersebut . Pohon keput usan yang t erbent uk dapat dit erj emahkan
menj adi sekumpulan at uran dalam bent uk IF condit ion THEN out come.

27

Jurnal Sist em Inf ormasi Vol. 2 No. 1 Maret 2007 : 21-30

Perbedaan ut ama ant ara at uran hasil algorit ma AR dengan at uran hasil
cl assi f icat ion adalah cl assif i cat i on hanya membuat model unt uk sat u
at ribut , yait u at ribut kelas. Pada algorit ma AR, bagian konsekuen at uran
(bagian kanan at uran) dapat mengandung lebih dari sat u at ribut ,
sedangkan pada cl assi f icat ion hanya mengandung nilai at ribut dari at ribut
kelas. Hal ini dapat digunakan unt uk analisis secara t op-down, yait u mulai
dengan algorit ma AR unt uk memperoleh hubungan ant ara beberapa
at ribut , kemudian analisis dipersempit pada at ribut t ert ent u dengan
menggunakan cl assi f i cat ion.
Dengan menggunakan dat aset hasil belaj ar siswa sepert i pada gambar 4,
sebagai dat a t raining pada suat u t ahun, dapat dibuat pohon keput usan
unt uk memperkirakan dist ribusi nilai siswa pada t ahun berikut nya. Gambar
5 menunj ukkan cont oh pohon keput usan yang dihasilkan dari t eknik
cl assi f icat ion. Pada gambar 5 t erlihat klasif ikasi siswa yang didasarkan
pada j umlah kesalahan yang dilakukan siswa dan t ingkat pencapaian dalam
pengerj aan soal. Pemilihan at ribut yang digunakan dalam pohon keput usan
dit ent ukan secara heurist ik dengan inf or mat ion gain [ Jiawei, 2001] .

jml-salah?

≤n

>n

tingkat
pencapaian?
≤m
kelas-1

>m
kelas-2

tingkat
pencapaian?
≤p
kelas-2

>p
kelas-3

Gambar 5. Cont oh Pohon Keput usan
Teknik cl ust ering bekerj a dengan mencari kemiripan di ant ara obj ek
dengan memperhat ikan karakt erist ik obj ek, sekelompok obj ek yang mirip
akan t ermasuk ke dalam sat u cl ust er . Teknik yang dapat digunakan unt uk
melakukan cl ust ering ant ara lain algorit ma k-means at au algorit ma kmedoids [ Jiawei, 2001] . Cl ust ering dapat dit erapkan unt uk mengenali
karakt erist ik siswa yang mengalami kesulit an belaj ar. Misalnya kit a ingin
menganalisis siswa yang sudah mencoba mengerj akan lat ihan, namun t idak
dapat menyelesaikannya sampai t unt as. Dalam hal ini, dat a yang dapat
28

Proses Dat a Mining dalam Sist em Pembelaj aran Berbant uan Komput er
(Mewat i Ayub)

digunakan adalah j umlah kesalahan yang dilakukan seorang siswa dalam
mengerj akan suat u soal. Dengan demikian, siswa-siswa dengan f rekuensi
dan j enis kesalahan yang hampir sama (mirip), dapat dikelompokkan dalam
sat u clust er yang sama. Sebagai cont oh, bila n < m, clust er 1 adalah
kelompok siswa yang f rekuensi kesalahannya lebih kecil dari n, clust er 2
adalah kelompok siswa dengan f rekuensi kesalahan di ant ara n sampai
dengan m, dan clust er 3 adalah kelompok siswa dengan f rekuensi
kesalahan lebih besar dari m. Cont oh visualisasi clust ering dapat
dit unj ukkan sepert i pada gambar 6. Pada gambar t ersebut t erdapat t iga
cl ust er dan beberapa out l ier .

id.siswa

frekuensi kesalahan
Gambar 6. Cont oh Clust ering

5. Kesimpulan
Penerapan dat a mining dalam sist em pembelaj aran berbant uan komput er
diawali dengan pengumpulan dat a, yang dilanj ut kan dengan t ransf ormasi
dat a, dan diakhiri dengan analisis dat a. Pada pengumpulan dat a, harus
didef inisikan suat u model int eraksi siswa-sist em unt uk menet apkan dat a
yang harus dicat at dari suat u proses pembelaj aran. Model int eraksi siswasist em t ersebut dapat t ersusun at as beberapa lapisan unt uk memungkinkan
penangkapan dat a pada t ingkat granularit as yang berbeda. Proses
t ransf ormasi dat a mengubah dat a ment ah menj adi dat aset yang siap
dianalisis. Transf ormasi dapat dilakukan pada inst ans dat aset melalui
proses f ilt rasi, maupun pada at ribut dari dat aset melalui f ilt rasi at aupun
konversi. Analisis dat a hasil pembelaj aran dapat dilakukan dengan
menerapkan t eknik algorit ma associat ion r ul es, cl assif icat ion, dan
cl ust ering unt uk menghasilkan penget ahuan yang dapat membant u guru
29

Jurnal Sist em Inf ormasi Vol. 2 No. 1 Maret 2007 : 21-30

dalam mengelola kelasnya dengan memahami cara belaj ar siswa, dan
memberikan umpan balik proakt if kepada siswanya.

Daftar Pustaka
Jiawei, H. , Kamber, M. (2001). Dat a Mining Concept s and Techniques,
Morgan Kauf mann Publishers.
Jing, L. (2004). Dat a Mining Applicat ions in Higher Educat ion,
www. spss. com/ event s/ e_id_1471/ Dat a Mining in Higher Educat ion. pdf ,
diakses t anggal 7 Februari 2007.
Nilakant , K. (2004). Applicat ion of Dat a Mining in Const raint Based
Int elligent
Tut oring
Syst em,
www. cosc. cant erbury. ac. nz/ research/ report s/ HonsReps/ 2004/ hons_04
08. pdf , diakses t anggal 28 Februari 2007.

Merceron, A. , Yacef , K. (2005). Educat ional Dat a Mining : a Case St udy,
ht t p: / / www. it . usyd. edu. au/ ~kalina/ publis/
merceron_yacef _aied05. pdf , diakses t anggal 7 Februari 2007.

Merceron, A. , Yacef , K. (2005). TADA-Ed f or Educat ional Dat a Mining,
imej . wf u. edu/ art icles/ 2005/ 1/ 03/ print ver. asp,
diakses t anggal
November 2006.

30

1