Modifikasi Speed-Up Robust Feature (SURF) dengan Histogram of Oriented Gradient (HOG) pada Klasifikasi Citra Blur

BAB 2
TINJAUAN PUSTAKA

2.1 Pengolahan Citra
Pengolahan Citra Digital adalah teknologi menerapkan sejumlah algoritma komputer untuk
memproses gambar digital. Hasil dari proses ini dapat berupa gambar atau suatu set
perwakilan karakteristik atau properti dari gambar asli. Tujuan utama dari pengolahan citra
digital adalah untuk memungkinkan manusia untuk mendapatkan gambar berkualitas tinggi
atau karakteristik deskriptif dari gambar asli (Zhou et al. 2010).

2.2 Distribusi pixel (Histogram)
Sebuah histogram citra adalah alur dari frekuensi relatif dari peristiwa masing-masing nilai
pixel yang diizinkan pada citra terhadap nilai-nilai itu sendiri (Salomon & Breckon, 2011).
Jika kita menormalkan sebuah alur frekuensi, sehingga total jumlah semua entri frekuensi
selama rentang yang diperbolehkan adalah satu, kita dapat memperlakukan histogram citra
sebagai fungsi probabilitas diskrit kepadatan yang mendefinisikan kemungkinan nilai pixel
yang terjadi di dalam citra.
Histogram memberikan deskripsi global utama dalam citra (Acharya & Ray, 2005).
Sebagai contoh histogram citra greyscale, jika histogram citra sempit, maka dapat diartikan
bahwa citra terlihat kurang baik (secara visual) karena perbedaan level grey yang ada pada
citra umumnya rendah. Sedangkan jika histogram citra lebar, maka dapat diartikan hampir

semua level grey, kontras dan visibilitas citra meningkat.

2.3 Deteksi Tepi (Edge detection)
Tepi atau edge dapat didefinisikan sebagai batas antara dua wilayah pada citra yang
memiliki karakteristik berbeda berdasarkan beberapa fitur (misalnya tingkat abu-abu,

Universitas Sumatera Utara

6

warna dan tekstur) (Marques, 2011). Seperti pada citra greyscale , yang biasanya
berhubungan dengan variasi yang tajam dari intensitas di bagian citra. Gambar 2.1
mengilustrasikan konsep ini dan menunjukkan perbedaan antara tepi ideal (transisi tajam)
dan tepi lereng (transisi bertahap antara daerah gelap dan terang pada citra).
Deteksi tepi biasanya bergantung pada perhitungan turunan pertama atau kedua
sepanjang tampilan intensitas citra (Marques, 2011). Turunan pertama memiliki sifat
berbanding lurus dengan perbedaan intensitas di tepi, sehingga turunan pertama dapat
digunakan untuk mendeteksi keberadaan tepi pada titik tertentu dalam citra. Turunan kedua
dapat digunakan untuk menentukan apakah pixel terletak pada sisi gelap atau terang pada
tepi. Selain itu persimpangan nol antara puncak positif dan negatif dapat digunakan untuk

menemukan pusat pada tepi yang tebal. Berikut adalah ilustrasi tepi :

Gambar 2.1 Ilustrasi tepi ideal dan tepi lereng pada citra (Marques, 2011).

2.3.1 Turunan Pertama deteksi tepi (First-order derivative)
Pada dasarnya, batas suatu objek adalah langkah perubahan dalam tingkat intensitas. Untuk
mendeteksi posisi tepi dapat digunakan diferensiasi ordo pertama, diferensiasi ordo
pertama tidak memberikan respon ketika diterapkan pada perubahan intensitas yang tidak
berubah, sebuah perubahan intensitas dapat diungkapkan oleh perbedaan titik yang
berdekatan (Nixon & Aguado, 2008).
Perbedaan perhitungan titik horizontal yang berdekatan akan mendeteksi perubahan
vertikal dalam intensitas dan sering disebut detektor-tepi horizontal berdasarkan
perlakuannya. Sebuah operator horizontal tidak akan muncul pada perubahan intensitas

Universitas Sumatera Utara

7

horizontal karena perbedaannya adalah nol. Ketika diterapkan pada citra � aksi detector-


tepi horizontal membentuk perbedaan antara dua titik horizontal yang berdekatan, seperti
mendeteksi tepi vertikal ,

,

= |� , − �

, seperti berikut: (Nixon & Aguado, 2008)

+ ,

|



,� − ;

,�

(2.1)


untuk mendeteksi tepi horizontal dibutuhkan detektor-tepi vertikal yang membedakan poin
vertikal yang berdekatan. Hal ini akan menentukan perubahan intensitas horizontal, tetapi
tidak yang vertikal, sehingga detektor-tepi vertikal mendeteksi tepi horisontal,

, seperti

berikut:

,

= |� , − �

, +

|



, �;


,� −

(2.2)

gambar 2.2 (b) dan (c) menampilkan aplikasi operator vertikal dan horizontal pada citra
persegi pada gambar 2.2 (a).

Gambar 2.2 Turunan pertama deteksi tepi (Nixon & Aguado, 2008).

Universitas Sumatera Utara

8

tepi kiri vertikal pada gambar 2.2 (b) muncul pada samping persegi (citra asli) yang
disebabkan oleh proses diferensiasi. Demikian juga dengan tepi atas pada gambar 2.2(c)
muncul diatas persegi (citra asli).
Mengkombinasikan kedua operator E yang dapat mendeteksi tepi vertikal dan
horizontal secara bersamaan, yaitu,


,

= |� , − �

+ ,

+�, −�

, +

−�

|

|

∀ ,

,� −


(2.3)

menghasilkan

,

=|

�, −�

+ ,

, +

∀ ,

,� −

(2.4)


persamaan 2.4 memberikan koefisien diferensiasi yang dapat konvolusikan dengan gambar
untuk mendeteksi semua poin tepi, seperti yang ditunjukkan pada gambar 2.2 (d). Titik
cerah di sudut kanan bawah dari tepi pada Gambar 2.2 (d) jauh lebih terang dari titik-titik
lainnya. Hal ini karena itu adalah satu-satunya titik yang dideteksi sebagai tepi oleh kedua
operator vertikal dan horizontal dan karena itu jauh lebih terang dari titik tepi lainnya.
Sebaliknya, titik sudut kiri atas tidak terdeteksi oleh kedua operator sehingga tidak muncul
di gambar 2.2 (d).

2.3.2 Turunan kedua deteksi tepi (Second-order derivative)
Prinsip deteksi tepi berdasarkan turunan kedua adalah hanya untuk mendeteksi titik tepi
yang memiliki maxima lokal dalam nilai-nilai gradien (Acharya & Ray, 2005). Dalam hal
ini, kita mendapatkan puncak di turunan pertama dan persimpangan nol pada turunan kedua
pada titik-titik tepi. Oleh karena itu titik di mana turunan kedua memiliki persimpangan nol
diperlakukan sebagai titik tepi. Operator Laplacian adalah operator tepi yang paling umum
digunakan turunan kedua deteksi tepi. Dimana laplacian dari sebuah citra
dirumuskan sebagai berikut : (Acharya & Ray, 2005)

,

dapat


Universitas Sumatera Utara

9

�2

,

+

�2

,
� 2

,

=


,
� 2

=

+ ,

+

− ,



,

(2.6)

=

, +


+

, −



,

(2.7)

� 2

(2.5)

Dimana turunan kedua deteksi tepi :
�2

Dan

�2



,

2

yang menghasilkan ekspresi laplacian yang dinyatakan sebagai jumlah produk :
,

=

+ ,

+

− ,

+

, −

−4

,

(2.8)

2.4 Bag of visual words
Bag of words merupakan suatu skema yang digunakan untuk kategorisasi teks dan
pencarian teks. Dalam penelitian ini bag of words digunakan untuk pembangunan
codebook, yaitu kosakata visual dimana pola yang paling representative (codified) di dalam
codebook sebagai kosakata visual. Kemudian representasi gambar yang dihasilkan melalui
analisis frekuensi sederhana setiap codeword dalam citra. Representasi ini telah digunakan
dalam berbagai jenis klassifikasi citra diantaranya dalam penelitian Cruz-Roa et al. (2009)
menganalisis pola visual histopathology menggunakan bag of word. Penelitian tersebut
mengidentifikasi koleksi citra menggunakan bag of word yang berhubungan dengan konsep
semantik gambar histopatologi. Raza et al. (2011) menganalisis pengaruh skala dan rotasi
invariant descriptor dalam skema bag of word.
Terdapat tiga langkah utama dalam skema bag of word, diantaranya adalah deteksi fitur
dan deskrispi citra, cluster fitur, dan pembangunan kantong fitur (bag of feature). Gambar
2.3 akan menunjukkan langkah-langkah bag of visual words:

Citra Blur

Citra Keabuan (Grayscale)

Bag of Visual Words

Deteksi Interest Point Menggunakan
Speed-Up Robust Feature

Ekstraksi Interest Point meggunakan
Speed-Up Robust Feature

Histogram Feature Vector

Penentuan Cluster pada fitur dengan
nilai k yang telah ditentukan

Gambar 2.3 Tahapan Bag of visual words (diadoptasi dari Raza et al. (2011).

Universitas Sumatera Utara

10

2.5 Deteksi skala (scale detection)
Representasi ruang skala adalah serangkaian citra yang diwakili pada tingkat resolusi yang
berbeda (Mikolajczyk & Schmid, 2001). Resolusi yang berbeda dibentuk dengan konvolusi
menggunakan kernel Gaussian (Mikolajczyk & Schmid, 2001):


,

=



(2.9)

dimana I adalah citra dan x = (x,y). Dengan demikian dapat direpresentasikan fitur (seperti
tepi atau sudut) pada resolusi yang berbeda dengan menerapkan fungsi yang sesuai
(kombinasi turunan) pada skala yang berbeda.
Derivatif Amplitudo spasial, secara umum, menurun berdasarkan skala. Dalam kasus
bentuk invarian skala, derivatif harus konstan atas skala. Untuk mempertahankan nilai
invarian fungsi skala turunan harus dinormalisasi sehubungan dengan observasi skala.
Skala yang dinormalisasikan derivatif D atas orde m didefenisikan sebagai berikut
(Mikolajczyk & Schmid, 2001):
…….

=



,

…….

=



…….

(2.10)

Derivatif yang dinormalisasi berjalan baik pada skala pola intensitas. Pertimbangkan

dua gambar dan dicitrakan pada skala yang berbeda. Hubungan antara dua gambar ini
=

kemudian didefinisikan





, dimana

sebagai berikut (Mikolajczyk & Schmid, 2001):


…….

=



…….

=

. Derivatif citra kemudian terkait





(2.11)

kemudian untuk derivatif yang dinormalisasikan, didapatkan : (Mikolajczyk & Schmid,
2001)
……

,

=



……

,

(2.12)

Dengan nilai-nilai yang sama diperoleh pada skala relatif yang sesuai. Untuk menjaga
perubahan informasi yang seragam antara tingkat resolusi yang berurut dan factor skala
harus didistribusikan secara eksponensial.
Gambar 2.4 menampilkan titik-titik pada citra yang menampilkan seleksi skala yang
memungkinkan (citra hitam putih). Titik-titik hitam adalah point untuk fungsi laplacian

Universitas Sumatera Utara

11

yang tidak mempunyai nilai maximum. Titik-titik ini terletak pada daerah yang homogen
dan tidak mempunyai nilai maximum dalam jangkauan jarak yang dianggap dalam skala.
Skala yang dipilih untuk titik adalah benar jika rasio antara skala karakteristik dalam poin
yang sesuai adalah sama dengan faktor skala dalam citra. Titik yang sesuai ditentukan oleh
proyeksi dengan perkiraan transformasi matrik. Dalam beberapa kasus skala maxima, titik
dianggap benar, jika salah satu dari maxima sesuai dengan rasio yang benar. Titik dengan
skala yang benar ditampilkan dalam titik putih.

Gambar 2.4 Titik karakteristik pada citra (Mikolajczyk & Schmid, 2001).

2.6 Deteksi fitur Speed-up Robust Feature (SURF)
Untuk mendeteksi fitur pada citra, digunakan SURF dalam bag of visual words. SURF
mengambil interest point pada citra, dimana interest point ini adalah deskripsi pada setiap
bagian citra.
Penentuan interest point SURF feature menggunakan matrix hessian, dimana matrix
hessian didefenisikan sebagai berikut: (Bay et al. 2006).

dimana �


�, � = [


�, � = �

� /�

dengan input citra pada point � =

�, �
�, �




�, �
]
�, �

(2.13)

adalah konvolusi dari orde kedua derivatif Gaussian
,

, dan serupa untuk �

�, � (Bay et al. 2006).

Dengan menggunakan perkiraan orde kedua derivative Gaussian dapat dievaluasi dengan

Universitas Sumatera Utara

12

sangat cepat menggunakan citra yang dintegralkan. Seperti yang ditunjukkan pada gambar
2.5 dengan menggunakan filter kotak 9x9 memperkirakan orde kedua derivative Gaussian
dengan skala (�=1.2) .

Gambar 2.5 Orde kedua gaussian yang terdiskrit dan dikelompokkan secara derivatif
parsial dalam arah y dan arah xy, (diambil dari Bay et al. 2006).
,

Dengan pendekatan perkiraan adalah
(diambil dari Bay et al. 2006)
|�

, |� ||�

|�

, |� ||�

9 |�

9 |�

, dan

, dimana determinan hessian

=0.912..≅0.9,

(2.14)

dimana || |� adalah norma frobenius yang menghasilkan (diambil dari Bay et al. 2006)
(



)=



.9

(2.15)

Penentuan skala deteksi SURF ditentukan dengan filter yang digunakan, skala dasar
SURF menggunakan filter 9x9 dengan �=1.2 . Dengan menggunakan kotak filter dan citra

integral, SURF tidak harus menggunakan filter yang sama ke output secara iteratif, SURF
dapat menggunakan filter dengan ukuran berapapun dengan kecepatan yang sama terhadap
citra asli dan bahkan secara parallel (Bay et al. 2006). Dengan itu SURF merupakan
multiscale detector, dimana menggunakan 4 skala terhadap deteksi interest point pada citra
dengan skala yang digunakan adalah 1.6, 3.2, 4.8 dan 6.4. Penentuan interest point
diwakilkan dalam bentuk lingkaran kecil (blob), seperti berikut :

Universitas Sumatera Utara

13

Gambar 2.6 100 Interest point tertinggi yang diwakilkan dengan bulatan (blob) pada
citra.
Pada gambar 2.6 memperlihatkan deteksi dengan menggunakan 4 skala, dimana bulatan
terkecil menunjukkan pendeteksian pada skala yang terkecil yaitu 1.6. pendeteksian ini
merupakan pendeteksian fitur pada citra dengan menggunakan skala invarian, seperti yang
dijelaskan pada bagian 2.5.

2.7 Histogram of Oriented Gradient (HOG)
Metode histogram of oriented gradient didasarkan pada evaluasi histogram lokal yang
dinormalisasi dari orientasi gradien gambar dalam grid (Dalal & Triggs, 2005).Tahapan
histogram of orientated gradient dapat digambarkan seperti berikut:
Citra Blur

Konversi ke Citra Grayscale

Hitung Gradien Pixel

Hitung Kuantisasi Orientasi Gradien
Dengan Skala 9 Biner

Gabungkan Histogram

Fitur Histogram of
Oriented Gradient

Gambar 2.7 Tahapan Histogram of oriented gradient

Universitas Sumatera Utara

14

2.7.1. Konversi Citra Warna ke Citra Greyscale
Konversi greyscale merupakan tahap pertama dalam banyak algoritma analisis citra.
Walaupun citra greyscale memuat informasi yang lebih sedikit dibandingkan dengan citra
warna, mayoritas penting pada citra tetap terjaga. Seperti tepi, region, dan gumpalan citra
tetap ada.
Citra RGB dikonversikan ke citra greyscale menggunakan transformasi berikut:
(Salomon & Breckon. 2011)

� � − �� �

,

=





,

,

+





,

,

+





,

,

(2.16)

dimana (n,m) individual index pixel dari citra greyscale dan (n,m,c) adalah individual
chanel pada lokasi pixel (n,m) pada citra warna untuk chanel c, merah untuk chanel r, biru
chanel b, dan hijau chanel g. dengan koefisien standar NTSC

=0.2989,

=0.587 dan

=0.1140.

2.7.2. Menghitung Gradien Pixel
Setelah citra blur dikonversikan menjadi citra greyscale, maka akan dihitung gradien secara
vertical dan horizontal (memusatkan). Lalu akan dihitung arah sudut dengan membagi citra
menjadi region yang lebih kecil (“cells"). Pada gambar 2.8 akan ditunjukkan tahap
penentuan nilai gradien, dimana gradien dihitung secara vertikal dan horizontal dengan
penentuan arah yang ditunjukkan pada gambar 2.9. Kemudian gradien akan dihitung satupersatu dengan menggunakan cell block (grid) dengan memindahkan grid secara
overlapping seperti yang ditunjukkan pada gambar 2.10. Tahap perhitungannya adalah
seperti berikut (diadoptasi dari Dalal & Triggs, 2005):


Gradien vertical dan horizontal :
-1
-1

0

1

0
1

Gambar 2.8 Gradien terpusat pada angka 0

Universitas Sumatera Utara

15



Derajat :



Orientasi: � =

=√

+

Gambar 2.9 Arah orientasi gradien

Untuk menentukan pixel mana yang harus dihitung, HOG menggunakan cells block
dan overlapping terhadap citra, tahapannya dapat digambarkan sebagai berikut:
Cells
Block

A11

A12

A13

A14

A15

A16

A17

A18

A21

A22

A23

A24

A25

A26

A27

A28

A31

A32

A33

A34

A35

A36

A37

A38

A41

A42

A43

A44

A45

A46

A47

A48

A51

A52

A53

A54

A55

A56

A57

A58

A61

A62

A63

A64

A65

A66

A67

A68

A11

A12

A13

A14

A15

A16

A17

A18

A21

A22

A23

A24

A25

A26

A27

A28

A12

A13

A22

A23

Overlapping Block

Ukuran Citra 640x480

Gambar 2.10 Block grid dengan ukuran 2x2 dan overlapping sebesar 50% dari block
sebelumnya.

2.7.3. Menghitung Kuantisasi Orientasi Biner dengan skala 9 bin (0-180)
Tahap selanjutnya dalam Histogram of oriented gradient adalah mengkuantisasi orientasi
gradient dalam skala 9 bin (0-180) dengan menggunakan interpolasi trilinear (lihat Gambar
2.11). Metode interpolasi trilinear diterapkan untuk memilih sel spasial dan orientasi yang
menemukan perbedaan bin tetangga terdekat dan menghasilkan rasio sesuai dengan bin
terdekat, sehingga 9 bin digunakan dengan benar. Jadi jika dimisalkan �=85 maka jarak ke

bin terpusat adalah bin 70 dan bin 90 maka derajat 5 dan 15 menghasilkan rasio

= ,

Universitas Sumatera Utara

16

= , maka �=85 digolongkan kepada �=90, dapat diilustrasikan sebagai berikut (diadoptasi

dari Dalal & Triggs, 2005):

85

170

130

150

90

110

3/4

70

50

30

10

1/4

Gambar 2.11 Contoh tahap kuantisasi orientasi biner dengan skala 9 bin (0-180)

2.7.4. Menggabungkan Histogram
Hasil perhitungan kuantisasi pada tiap blok yang dibentuk, akan digabungkan untuk
menghasilkan histogram setiap cell pada blok. Tahap penggabungan histogram dapat
digambarkan sebagai berikut (diadoptasi dari Dalal & Triggs, 2005):

A16

A17

A18

A26

A27

A28

HOG Blok 2x2 cell
Blok 1

H(a16)

H(a16)

H(a26)
Blok 1

H(a17)

...

Blok 2

H(a26)

H(a17)

H(a27)

Blok N

H(a27)

H(a17)

H(a27)

H(a18)

H(a28)

Blok 2

Gambar 2.12 Penggabungan histogram dari setiap blok.

Pada Gambar 2.12, nilai histogram akan dihitung berdasarkan letak grid (block cells).
Blok 1 merupakan block cells yang berisikan cell A16, A17, A26 dan A27, blok 2

Universitas Sumatera Utara

17

merupakan block cells yang berisikan cell A17,A18,A27 dan A28. A17 dan A18 dihitung
pada blok 1 dan blok 1, hal ini dikarenakan oleh overlapping block sebesar 50%, yang
artinya setengah nilai cell blok pada blok sebelumnya tetap digunakan untuk menghitung
setengah nilai cell blok di depannya. Maka masing-masing blok tersebut dihitung nilai
histogramnya dan digabungkan berdasarkan blok yang telah dibentuk.

2.8. K-means Clustering
K-means bertujuan meminimalkan fungsi tujuan kuadrat kesalahan sederhana secara
iteratif dalam bentuk (Salomon & Breckon, 2011):

Dimana

�= ∑

=

∑�

|



| , in class j

(2.17)

menyatakan koordinat vektor dari jth kluster dan {

} adalah point yang

ditetapkan kepada jth kluster. Tahapan algoritma k-means clustering dapat dilihat pada
Gambar 2.13 (diadoptasi dari Salomon & Breckon, 2011):

Start

Secara acak menempatkan k poin dalam ruang
fitur. Ini adalah lokasi pusat (centroid) awal
kelas k

Menetapkan setiap titik untuk kelas yang letak
centroidnya paling dekat

Apakah ada point yang berubah
kelasnya sejak iterasi sebelumnya?

Tidak

End

Ya

Hitung ulang centroid dari masing-masing kelas

Gambar 2.13 Tahapan k-means clustering

Universitas Sumatera Utara

18

Gambar 2.14 Algoritma k-means (diadoptasi dari Salomon & Breckon, 2011).

Penjelasan k-means clustering dapat di lihat pada gambar 2.14, dimana secara
konseptual untuk mempartisi sebuah data set ke dalam beberapa jumlah kluster k. pada
gambar tersebut ditetapkan k=2. Yang berarti menetapkan 2 centroid sebagai pusat
pembedaan antara 2 kelas pada gambar tersebut. Penetapan data atau titik vector pada
gambar 2.14 disekitar centroid, menggunakan fungsi jarak. Fungsi jarak yang digunakan
pada umumnya adalah menggunakan jarak euclidean.

2.9. Support Vector Machine (SVM)
Support vector machine menggunakan pemetaan nonlinear untuk mengubah data pelatihan
asli ke dimensi yang lebih tinggi. Dalam dimensi baru ini, akan mencari hyperplane
pemisah optimal linear (yaitu, "batas keputusan" memisahkan data dari satu kelas dengan
kelas yang lain). Dengan pemetaan nonlinear yang tepat untuk dimensi yang cukup tinggi,
data dari dua kelas dipisahkan dengan hyperplane. SVM menemukan hyperplane ini
menggunakan vektor dukungan (batas kelas) dan margin (didefinisikan oleh vektor
dukungan) (Han & Kamber, 2006).

Universitas Sumatera Utara

19

Support vector machine mencari jarak margin maximum dari hyperplane, untuk
memisahkan 2 kelas yang berbeda. Support vector machine dapat dilustrasikan sebagai
berikut :

Gambar 2.15 Support vector machine dan hyperplane (diadoptasi dari Han & Kamber,
2006).

bobot dapat disesuaikan sehingga hyperplane mendefinisikan sisi margin dari data training
yang ada, formulasinya dapat ditulis sebagai berikut (Han & Kamber, 2006):
:

:

+

+

+

+

+



maka dari itu, data manapun yang setara atau diatas
data manapun yang setara atau dibawah

= + , dan
= −

tergolong ke dalam kelas +1, dan

tergolong ke dalam kelas -1.

2.10 Klasifikasi
Klasifikasi merupakan tahapan analisa data untuk menentukan label atau kelas data dengan
menggunakan suatu model atau klasifier (Han & Kamber, 2006). Klasifikasi data dilakukan
dengan 2 tahapan. Tahapan pertama menggunakan klasifier untuk suatu set kelas atau
konsep data atau yang disebut learning step (training phase). Dimana algoritma klasifikasi
membangun klasifier dengan manganalisis atau “belajar dari” satu set pelatihan yang terdiri

Universitas Sumatera Utara

20

dari tupel database dan label kelas terkait. Tahap pertama klassifikasi digambarkan pada

Aturan
Klasifikasi

Gambar 2.16.

Output (Klasifier yang
telah di training)

Algoritma Klasifikasi

Input Data Training

Gambar 2.16 Tahap pertama klasifikasi.
Tahap kedua model digunakan untuk klasifikasi. pertama keakuratan prediksi dari
classifier diperkirakan. jika kita menggunakan training set untuk mengukur keakuratan
classifier, perkiraan ini kemungkinan akan optimis, karena classifier cenderung overfit data
(dalam “pembelajaran data” memungkinkan untuk menggabungkan beberapa anomali
tertentu dari training data yang tidak ada dalam data set secara keseluruhan). Oleh karena
itu, satu set tes digunakan, terdiri dari tupel tes dan label kelas. Tupel tersebut dipilih secara
acak dari kumpulan data umum. Tupel tersebut independen dari tupel pelatihan, yang
berarti bahwa tidak digunakan untuk membangun classifier. Keakuratan classifier pada set
tes yang diberikan adalah persentase dari uji set tupel yang diklasifikasikan dengan benar
oleh classifier. Tahap kedua klassifikasi dapat digambarkan pada Gambar 2.17.

Input Data Training

Output (Hasil
Klasifikasi)

Klasifier yang telah di
training

Input Data Baru
(selain data testing)

Gambar 2.17 Tahap kedua klasifikasi

Universitas Sumatera Utara