BAB 2 TINJAUAN PUSTAKA
DAN LANDASAN TEORI
2.1 Tinjauan Pustaka
Data mining atau penambangan data adalah proses ekstraksi dari prediksi informasi yang tersembunyi dari
sebuah kumpulan data. Hasil penambangan data dapat berupa pengetahuan baru yang didapatkan dari proses
penambangan data tersebut. Dalam penerapannya, penambangan data ini memiliki dua hasil utama yaitu
sebuah prediksi dan sebuah deskripsiinformasi atau pengetahuan baru. Prediksi ini adalah sebuah proses
pengolahan data yang ada pada dataset yang akan menghasilkan sebuah prediksi nilai di masa yang akan
datang. Sedangkan deskripsi lebih fokus kepada pencarian pola - pola dan informasi yang menggambarkan
keadaan data agar dapat disajikan kepada pengguna data selanjutnya Geetha, et al., 2008.
Salah satu proses yang dapat dilakukan pada data mining adalah klasifikasi. Metode Artificial Neuron
Network ANN merupakan salah satu metode untuk melakukan klasifikasi. Dalam penelitian tentang
Jaringan Syaraf Tiruan Dengan Algoritma Ba ckpropagation untuk Penentuan Kelulusan Sidang Skripsi Matondang,
2013 diketahui bahwa algoritma pada metode ANN yang sering digunakan adalah algoritma Backpropagation. Pada
metode dengan algoritma ini menggunakan metode ini, kunci keberhasilan dari hasil dari ANN terdapat pada
pelatihan data. Pada penelitian ini pelatihan data masih dilakukan pada iterasi pertama saja sehingga
belum dapat mencapai nilai eror sesuai dengan target peneliti. Pada penelitian tentang Analisis Metode
Data mining atau au penam
ba ba
ng ng
an data adalah proses ekstraksi dari p
prediksi informasi ya ang
n tersembunyi dari
sebuah kum m
p pulan data
ta . Hasil penamban
ga ga
n data dapat berupa
p pengetahuan
b b
ar ar
u u
ya ya
ng ng
d d
id i
apatkan da
d ri proses
penamb mbangan
da a
ta a
t ersebut.
D D
al ala
am pener
erapannya, pen
nambanga ga
n n
data i
i ni
ni m
em ilik
k i
i du
d a hasi
i l
l utama
a yaitu
s sebuah
h p
pre r
diks ks
i dan sebuah deskr
ip psi
si inf
nf or
orm masi
atau peng
nget etah
ah ua
a n
n baru. Predi
ks i ini ad
al ah
sebua ua
h h
pros ses
pe e
ng ngo
olah h
a an
data yang a
da pada datase
t ya
a ng
ng aka
an me
me ng
n ha
a s
si lkan sebua
h pred
ik si nilai di masa
yan n
g g
akan n
da da
tang ng
. Sedangkan de
sk ri
psi lebih fo
ku s
s ke
kepa p
da penc
a ar
ian po la
- pola
da n
in fo
rmasi ya
ng men gg
gambarkan an
kead aa
n data aga r
da pa
t di sa
ji ka
n ke
pada penggu una da
data a
se ela
nj n
utny a
Geeth a,
et al., 2 00
8 .
Salah satu prose e
s s ya
y ng
ng d dapat dilakukan pada
da da
ta ta
mi mining adalah klasifikasi
si . Metode Artificial
N N
eu eu
ro ro
n Ne
Netw w
or or
k k
ANN merupakan salah satu meto to
de de
u u
nt nt
uk me
me la
la ku
ku ka
ka n
n kl
kl as
as if
if ik
ikas as
i. i.
D Dal
al a
am p
p en
en el
el it
it ia
ia n
n te
tent nt
ang Ja
a ri
ri ng
ngan an
S Sya
yara a
f f Tiruan
an Dengan A
Algori i
tm tm
a Ba
Ba ck ck
pr prop
opag agation
untuk Penentuan Kelulu u
s san Si
Sidang Skripsi Matondang, 2013 diketahui bahwa
a algori
tma pada metode ANN yang sering digunakan adala
a h
h algor
ritma Backpropagation. Pada metode dengan algoritm
m a in
ni menggunakan metode ini, kunci keberhasilan dari
ha hasil dari ANN terdapat pada
pelatihan data
Pada penelitian
ini pelatihan
data
Jaringan Syaraf Tiruan Backpropagation untuk Pengenalan Sel Kanker Otak Handayani, 2013, dalam menggunakan
metode ANN, selain pelatihan data, hal penting yang perlu diperhatikan adalah arsitektur ANN yang dibuat
dan juga bobot yang akan digunakan untuk membandingkan hasil yang keluar. Hasil dari penelitian kurang
maksimal karena bobot dan arsitektur yang digunakan kurang sesuai. Permasalahan mengenail bobot pada metode
ANN dapat diatasi pada penelitian tentang Peramalan Penjualan Mobil Menggunakan Jaringan Syaraf Tiruan dan
Certainty Factor Pakaja, et al., 2012. Pada penelitian ini digunakan metode Certainty Factor yang
dikombinasikan pada ANN. Fungsi Certainty Factor adalah memberikan nilai pembanding yang terbaik yang digunakan
untuk melakukan koreksi bobot dari hasil yang dikeluarkan ANN. Dengan metode ini, tingkat akurasi
hasil data akan bertambah. Salah satu kegunaan lain dari penggunaan metode ANN yaitu digunakan untuk
peramalan data yang akan datang. Pada penelitian tentang Penerapan Algoritma Jaringan Saraf Tiruan
Backpropagation dalam Memprediksi Tingkat Suku Bunga Bank Anwar, 2011, diketahui bahwa parameter
pelatihan data untuk memprediksi sesuatu hal dapat berpengaruh pada hasil prediksi. Pada penelitian ini
keakuratan prediksi mencapai 94 yang menandakan bahwa akurasi sudah sangat baik.
Dari penelitian yang yang pernah dilakukan terhadap data EEG dengan melakukan klasifikasi
berdasarkan penyakit – penyakit yang dapat dideteksi melalui data EEG diketahui bahwa penyakit – penyakit
yang dapat diklasifikasikan adalah penyakit epilepsi, Mood Disorder, Dementia, Schizophrenia dan Attention
dan juga bobot yang g
ak akan dig
ig un
un ak
a an untuk membandingkan
hasil yang kel
eluar. Hasil dari penelitian kurang
maksimal kar arena bobo
o t dan arsitektur
yang digunakan kurang s
s e
esuai. Permasa a
la la
ha han
n me
me ng
ng en
en ail bobot
t pada metode ANN d
dapat diat at
as asi
i pada pen
el el
it itia
ia n
n tentang
Pe P
ramalan Penj
njualan Mo Mo
bil Meng ng
gu gu
na kan
Ja Ja
ri ri
ngan Sya a
ra ra
f Tiru uan
a dan
C C
ertain inty
ty Fac ac
t to
r Pa
ka ja, et
a a
l. l
, 20 20
12 1
. Pada
pene e
li li
ti ti
an i
ni digunakan m
etode Certa in
nty t
F F
ac ac
to to
r ya
yang di
ko ko
m mbin
n a
as ikan pada ANN.
F un
gsi Cer ta
inty F
Fac a
to to
r r
a a
dala ah
r r
me me
mb mb
er i
ik an nilai p
em ba
ndin g
yang t
erbaik yan g
g digu gu
n nakan
n un
un tuk
me la
kukan ko
reks i
bo bo
t dari h
as sil
y y
ang dike
l lu
arkan AN
N. Den ga
n me
to de
ini ,
ti ngkat
akuras si
i hasi
l data akan
be rtam
bah. Sal
ah satu kegu
na aan
l l
a ain
n da
dari penggunaa
n meto
de ANN yai
tu digunak
an n
u untuk
uk perama
lan da
da t
ta y
y ang
akan d
datang. g
P P
ad ad
a pe neliti
i an
an tentang Penerapan Algo
o ri
ri tm
tm a Jaringan Saraf Tir
rua ua
n n
Ba Ba
ck c
propagation dalam Memprediksi Tingkat Suku u
B B
un un
g ga
Ba Ba
nk nk
A Anwar
a ,
, 20
20 11
11 ,
d d
ik ik
et et
ah ah
ui ui
b b
h ahwa
p p
ar aram
am et
et er
pe pe
la latihan da
da ta
ta u
u nt
nt uk
m mem
empr predik
k si
si s
s es
esua u
tu hal al
d dapat
berp p
en en
ga g
ruh h pada hasil
l predi diksi. Pad
d a
a pe
p ne
i liti
tian ini keakuratan prediksi me
e ncapai
94 yang menandakan bahwa akurasi sudah sangat b
b aik.
Dari penelitian
yang g
yang pernah dilakukan
terhadap data EEG de deng
ngan melakukan klasifikasi berdasarkan
penyakit –
penyakit yang
dapat dideteksi
Deficit Hyperactivity Disorder. Dari penelitian tersebut klasifikasi data EEG menggunakan Weka dan
memanfaatkan algoritma J48 yang memberikan hasil akurasi tes untuk mengidentifikasi negatif orang –
orang yang tidak memiliki penyakit spesifisitas berada diantara 94 hingga 100 sedangkan akurasi tes
untuk mengidentifikasi positif orang – orang memiliki penyakit sensitifitas berada diantara 70 hingga 100
Pandey Kundra, 2014. Angka pasti akurasi dari spesifisitas dan sensitifitas deteksi penyakit epilepsy
melalui data EEG ini dapat diketahui pada penelitian Epileptic EEG Detection Using Neural Networks and Post-
Classification dimana hasil akurasi spesifisitas berada pada angka 99.99 dan untuk akurasi sensitifitas berada
pada angka 91.29 Patnaik Manyam, 2008 . Pada penelitian tersebut digunakan metode Wavelet Transfor
untuk melakukan ekstraksi fitur dan proses klasifikasi menggunakan ANN dengan algoritma backpropagation. Pada
penelitian tentang The Use Of Wavelet Power Spectrum For Detection And Identification Of Thinking -Induced
Eeg Signals, data EEG yang diambil dari hasil perekaman alat dengan 20 kanal sinyal dapat diklasifikasikan ke
dalam dua kelas yaitu kondisi rileks da n tidak rileks. Proses analisis dan klasifikasi menggunakan spektral
daya yang sebelumnya menggunakan transformasi wavelet sebagai pra pengolahan data EEG dimana dalam proses ini
dapat memberikan keberhasilan klasifikasi sebesar 85 untuk kondisis rileks dan 83 untuk kondisi non rileks.
Pada penelitian ini dilakukan juga klasifikasi tanpa melewati proses pra pengolahan data, dimana hasil
klasifikasi tanpa proses pra pengolahan data dapat menurunkan keberhasilan klasifikasi menjadi 58 untuk
kondisi rileks dan 60 untuk kondisi tidak rileks. Dari orang yang tidak
m m
e emilik
k i
i pe
p nyakit spesifisitas
berada diantara a
94 hingga 100 se eda
d ngkan akurasi tes
untuk mengid identifikasi
s positif orang –
orang memiliki penyakit
t sensitifitas
as be
b ra rada
da d
d ia
ia ntara 70
hingga 100 Pande
dey Ku und
ndra ra
, 20 20
14 1
. A
A ng
ng ka
ka p
pas a
ti akura rasi dari
spe esifisit
t as
as dan sen
en si
si ti
ti fi
tas de
de te
t ksi peny
ny ak
a it e
pi pi
lepsy m
melalu u
i i
da da
ta E
E EG
ini dap at
diket ah
ui ui
pad d
a a
p peneli
itian Epil
l ep
ep ti
ti c
EE EEG De
tection Us in
g Neural Net t
w works
s an
and d
Po st
s -
Cl as
as s
sific c
a at
ion dimana has il
akurasi spesi fi
isi s
ta a
s s
be b
rad da
pa pa
da da
a n
ng ka 99.99
da n untu
k akur
as i sensitif
i itas b
be erada
a pa
pa da
ang ka
91.29 P
at na
ik Manyam, 2
00 8
. P
P ada
pene l
li tian ter
se but
di gu
na ka
n me
tode W
avelet Transfo
or r
untu k
melakukan ek
st ra
ks i
fi tu
r da
n proses k la
sifika kasi
i me
meng gu
g nakan ANN deng
an algorit
ma backpropagat
io on.
. Pada
da pene
l li
tian t
t e
entang g
Th Th
e e
Use Of Of Wavel
l et
et Power
Spectru rum
m For Detection And Iden
n t
tifi fi
cation Of Thinking -Ind d
uc uc
ed ed
Ee Ee
g g
Signals, data EEG yang diambil dari hasil per r
ek ekam
am a
an al
al at
at d d
enga g
n 20
20 k
kan anal
al s
s inyal da
dapa pa
t t
di di
kl klas
if ifik
k as
as ik
ik an
an ke da
dala lam dua ke
ke la
la s
s ya ya
it it
u ko ko
nd nd
is is
i ri ri
le le
ks d d
a n a
tidak r ril
il eks.
Pros s
es es
ana a
li lisis dan
kl kl
asifik ikasi menggu
gunakan s
spektral daya yang sebelumnya
m enggun
n akan transformasi wavelet
sebagai pra pengolahan n
data EE EG dimana dalam proses ini
dapat memberikan keber r
hasila an klasifikasi sebesar 85
untuk kondisis rileks da an 83
3 untuk kondisi non rileks. Pada penelitian ini dila
a k
kukan juga klasifikasi tanpa
penelitian ini dapat disimpulkan bahwa proses pra pengolahan data sebelum proses klasifikasi dapat
memberikan peningkatan keberhasilan klasifikasi. Hal ini dikarenakan pada metode transformasi wavelet dapat
mengatasi sinyal yang non stasioner Djamal, et al., 2005. Pada penelitian sebelumnya ini tidak dilakukan
eksperimen lebih jauh mengenai keterkaitan unsur waktu pada data EEG yang dimiliki dalam melakukan
klasifikasi. Proses penambangan data sangat berpengaruh p ada
jenis datanya. Pada data EEG, data yang dihasilkan oleh EEG bersifat data temporal sehingga proses penambangan
data dilakukan menggunakan teknik temporal data mining. Pada teknik ini, pemrosesan data akan dilakukan
berdasarkan kurun waktu tertentu. Pada proses klasifikasi epilepsi berdasarkan data EEG, sebuah data
tertentu belum dapat menunjukan apakah data terebut memiliki gejala penyakit epilepsi atau belum. Butuh
beberapa data dalam waktu tertentu untuk dapat menentukan apakah data tersebut adalah d ata yang
memiliki gejala epilepsi atau tidak. Maka dari itu, eksperimen untuk menentukan waktu dalam melakukan
klasifikasi penyakit epilepsi dibutuhkan untuk menemukan batas waktu terbaik. Pada penelitian yang
pernah dilakukan menggunakan Time Domain dan Frequency Domain Features pada data EEG. Sebelum dilakukan
pemrosesan data, terlebih dahulu data EEG dimasukan ke dalam pra proses. Pada bagian ini, data EEG dengan
durasi 23.6 detik dilakukan pemotongan dimana tiap segmen pemotongan memiliki durasi 1 detik. Pemotongan
ini digunakan untuk melakukan pengenalan dan pembelajaran pada ANN untuk mengenali pola dari data-
mengatasi sinyal yan n
g g
non st stas
as ioner Djamal, et al.,
2005. Pada pene nelitian sebelumnya
in i
i tidak dilakukan eksperimen l
lebih jauh h
mengenai keterka it
it an unsur waktu
pada d
d a
ata EEG ya ya
ng ng
d d
im im
il il
ik ik
i dalam m
melakukan klasif
ifikasi. Pr
r os
os es
es pen
n am
am b
ba ngan data sa
ng gat
a ber
er pe
pe n
ngaruh h
p ada jeni
i s da
dat tany
y a
a. Pada data EEG, data yan
g g diha
ha si
si lk
lk an o
oleh EEG be
be rsif
if at data temporal sehingga pros
es es pen
en am
am bang
g an
a da
a t
ta dil il
ak ukan m
en ggunakan teknik
te mporal
d data
a mi
mi ni
ni ng
g .
Pa Pada
d t
eknik ini,
pemro se
san data akan dila
la ku
ku kan
n be
be rda
as arkan kurun
wa kt
u te
rtentu .
Pa da
p pro
ro se
es s
klasi if
ikasi ep ilep
si ber
da sa
rk an
d at
a EEG, s eb
b ua
u h da
ata a
te t
rt en
tu belum dap at menunjuka
n apakah data
tere rebu
t t
me mi
mi li
l ki gejala
a pe
pe ny
ny akit epile
e ps
ps i
i atau bel
um m
. Butu
tu h
h beberapa
d d
ata da
la la
m m
wakt ktu
u tertentu untuk dap
ap at
at me
menentukan apakah data tersebut adalah d ata ya
ya n
ng me
memi ili
li ki gejala epilepsi atau tidak. Maka da
da ri
ri i
i t
tu, ek
ek sp
s er
er im
im en
en u
u nt
nt uk
uk m
m en
en en
en tu
tu ka
ka n
n wa
wa kt
kt u
u da
da la
la m
m m
mela laku
ku kan
kl l
as as
if ifik
ik as
as i
i pe
penyak it
it e
pile epsi
di d
bu bu
tu tu
hk hk
an an untuk
menemu k
kan batas waktu terb
b ai
a k. Pada pene
li litian yang
pernah dilakukan mengg gunakan
Time Domain dan Frequency Domain Features
pada a data
EEG. Sebelum dilakukan pemrosesan data, terleb
bih da ahulu data EEG dimasukan ke
dalam pra proses. Pada b
b a
agian ini, data EEG dengan durasi
23 6 detik
dilaku k
kan pemotongan
dimana tiap
data yang dipotong Srinivasan, et al., 2005. Hasil dari klasifikasi menggunakan memberikan akurasi sebesar
99,6. Pada penelitian ini, data yang digunakan adalah
data EEG dari dari penderita epilepsi yang disediakan oleh Universitas Bonn. Terdapat beberapa penelitian
yang telah menggunakan data ini untuk melakukan penelitian terhadap data EEG. Salah satu penelitian di
Indonesia dengan menggunakan data ini adalah penelitian yang berjudul Klasifikasi Sinyal Eeg Menggunakan
Koefisien Autoregresif, F Ǧ
Score, dan Least Squares Support Vector Machine Karyawan et al., 2011. Pada
penelitian ini data EEG diklasifikasikan menggunakan LS-SVM dengan kombinasi autoregresif sebagai fitur
ekstraksi dan F-score sebagai fitur seleksinya. Pada penelitian ini menitik beratkan pada klasifikasi orang
sehat dengan mata terbuka dan orang dengan penderita epilepsi pada kondisi kejang. Dari penelitian ini
didapatkan akurasi klasifikasi sebesar 99,64. Pada penelitian ini, hanya digunakan 2 dataset dari
keseluruhan 5 dataset yang ada pada data yang disediakan. Pada penelitian ini data EEG tidak
melakukan eksperimen pada unsur waktu yang terdapat pada data EEG.
Penelitian dengan data yang sama juga pernah dilakukan dengan menggunakan ANN sebagai
pengklasifikasi. Pada penelitian ini, kelima dataset digunakan untuk klasifikasi. Dimana masing-masing
dataset mewakili masing-masing kelas yang ada. Klasifikasi dilakukan pada kombinasi dataset S dan Z,
kemudian dataset S, F, dan Z, serta yang terakhir adalah dataset S, F, Z, N, dan O. Penelitian ini
data EEG dari dari p p
en en
d derita
a e
e pi
p lepsi yang disediakan
oleh Universitas as Bonn. Terdapat
be be
berapa penelitian yang telah
h menggunak
a an data ini
un untuk melakukan
peneliti i
a an terhadap da
da ta
ta E
E EG
EG. Sa Sa
la l
h satu p pen
e elitian di
Indone nesia deng
gan an m
m enggunakan
d dat
at a
a in
ini i
adalah p pen
e elitian
yan ng
ber rju
judul Kl
l as
as if
if i
ik as
i i
Si Si
ny y
al Eeg eg
Mengg gunakan
K Koefis
s ie
ie n
n Auto
to regresif,
F Ǧ
Score, da
da n
Le Le
as as
t Squa uares
Supp ppor
or t
t Ve e
ct or
Machine K
aryawan et a l.
l., 20 2011
11. P
ad a
a pe
e ne
nel liti
i an ini
d at
a EEG diklasif ik
asikan men
ngg gg
u unaka
an LS
LS -S
-S VM
M dengan ko
mb inasi autore
gr esif se
ba agai
f fitur
r ek
ek stra
raks i dan
F-score se ba
gai fi
tur sele ks
in nya.
. Pa
P da
pene l
li tian
ini menitik b
er at
ka n pada
k lasifi
ka a
si orang ng
seha t
dengan mata te
rb uka da
n or
ang dengan p
p enderi
rita a
ep pil
e ep
si pada kond is
i kejang. Da
ri penel it
t ia
n n
in n
i i
didapa tk
an n
a aku
ku ra
ra si
si k
k la
la sifika
ka si
s s
eb eb
es es
ar ar
9 9,
64 . Pad
ada a
pe p
nelitian ini, hanya
d digunakan 2 dataset da
da ri
ri ke
ke se
se luruhan 5 dataset yang ada pada data
a y
an an
g di
di se
se di
di ak
ak an.
Pa Pa
da da
p p
en en
elitia ia
n n
in in
i i
da data
E E
EG EG
t tid
id ak
me me
la laku
k kan ek
eksp sper
r im
im en
en p
ad ad
a a
unsu su
r r
wa kt
ktu u
yang t
ter erd
dapat pada
a d
d ata EE
EE G
G. Penelitian denga
an data yang sama juga pernah
dilakukan dengan mengg
gunakan ANN sebagai pengklasifikasi. Pada
pe p
nel litian ini, kelima dataset
digunakan untuk klasif fik
kasi. Dimana masing-masing d t
t kili
i i
k l d
menggunakan metode Time-Frequency Analysis dimana proses klasifikasi yang menggunakan ANN memberikan
akurasi terbaik dengan memberikan akurasi sebesar 100 untuk kombinasi pertama, 100 untuk kombinasi kedua,
dan 89 untuk kombinasi ke 3 Tzallas et al., 2009.
2.2 Dasar Teori