Perbandingan Metode Ekstraksi Ciri FFT, PCA, dan FPE dalam Pengenalan Karakter Tulisan Tangan

PERBANDINGAN METODE EKSTRAKSI CIRI FFT, PCA, DAN
FPE DALAM PENGENALAN KARAKTER TULISAN TANGAN

AZIZ RAHMAD

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012

PERBANDINGAN METODE EKSTRAKSI CIRI FFT, PCA, DAN
FPE DALAM PENGENALAN KARAKTER TULISAN TANGAN

AZIZ RAHMAD

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer


DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012

ABSTRACT
AZIZ RAHMAD. Comparison of FPE, PCA, and FFT Feature Extraction Method on Handwriting
Character Recognition. Supervised by MUSHTHOFA.
The main purpose of this research is to create a fully functioned system to translate any
handwritten mathematic expression into LaTeX code. This research itself serves as one of the
basic part of the system, the handwritten character recognition system. Three feature extraction
methods were compared and evaluated. They are Feature Point Extraction, Principle Components
Analysis, and Fast Fourier Transform. Classification method used in this research is K-Nearest
Neighbors. Accuracy measurement of the three methods shows that the maximum accuracy score
by Feature Point Extraction is around 26%, while Principle Component Analysis and Fast Fourier
Transform score is approximately 60% and 70%, respectively. FPE, despite its high score on
optical character recognition (around 86% accuracy score), did not perform well due to the fact
that the FPE method used in this research did not aware of the position of each feature point. PCA
and FFT proved to be better for handwritten character recognition, with FFT being the one to have

the highest accuracy score.
Keywords: FFT, FPE, handwriting character recognition, KNN, PCA

Judul Skripsi :
Nama
NRP

:
:

Perbandingan Metode Ekstraksi Ciri FFT, PCA, dan FPE dalam Pengenalan
Karakter Tulisan Tangan
Aziz Rahmad
G64070116

Menyetujui:
Pembimbing,

Mushthofa, S.Kom, M.Sc
NIP. 19820325 200912 1 003


Mengetahui:
Ketua Departemen Ilmu Komputer,

Dr. Ir. Agus Buono, M.Si, M.Kom
NIP. 19660702 199302 1 001

Tanggal Lulus:

RIWAYAT HIDUP
Penulis dilahirkan di Dumai, Riau pada tanggal 26 Januari 1990 dari ayah bernama
Zairusman dan ibu yang bernama R.A. Asiah Julianti. Penulis merupakan anak pertama dari dua
bersaudara, anak kedua bernama Alifah.
Penulis memulai masa pendidikan resmi pada tahun 1995 di SD 03 YKPP Dumai,
kemudian melanjutkan pendidikan sekolah menengah selama enam tahun di Ma’had Al-Zaytun,
Indramayu, Jawa Barat. Pada tahun 2007, penulis lulus sekolah menengah dan melanjutkan
pendidikan di Institut Pertanian Bogor.

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah atas segala curahan rahmat dan karuniaNya sehingga skripsi ini dapat diselesaikan. Skripsi yang berjudul Perbandingan Metode Ekstraksi

Ciri FFT, PCA, dan FPE dalam Pengenalan Karakter Tulisan Tangan ini merupakan hasil
penelitian yang dilakukan oleh penulis yang dimulai dari bulan Agustus 2011 sampai bulan
Desember 2011.
Penulis mengucapkan terima kasih kepada Bapak Mushthofa, S.Kom, M.Sc sebagai
pembimbing yang telah memberi saran, masukan, dan ide-ide kepada penulis dalam menyusun
skripsi ini. Penulis juga mengucapkan terima kasih kepada seluruh staf pengajar Departemen Ilmu
Komputer atas ilmu yang telah diberikan, serta tidak lupa kepada staf tata usaha yang membantu
administrasi selama kuliah di Institut Pertanian Bogor.
Penulis berterima kasih setulus-tulusnya kepada orang tua dan adik yang telah memberikan
kasih sayang, perhatian, doa, dan semangat selama kuliah di IPB, serta dukungannya dalam bentuk
moral maupun material.
Terima kasih yang sebesar-besarnya kepada teman-teman terbaik dari Ilkomerz 44 yang
memberikan dukungan, bantuan, dan saran kepada penulis selama kuliah sampai penulis
menyusun skripsi. Kepada semua pihak lainnya yang telah memberikan kontribusi yang besar
selama pengerjaan penelitian ini yang tidak dapat disebutkan satu per satu, penulis ucapkan terima
kasih banyak.
Semoga penelitian ini dapat memberikan manfaat kepada pembaca sebagai referensi
penelitian lanjutan dan pengembangan ilmu pengetahuan.

Bogor, Maret 2012


Aziz Rahmad

DAFTAR ISI
Halaman
DAFTAR GAMBAR ....................................................................................................................... vi
DAFTAR LAMPIRAN .................................................................................................................... vi
PENDAHULUAN............................................................................................................................. 1
Latar Belakang .............................................................................................................................. 1
Tujuan Penelitian .......................................................................................................................... 1
Ruang Lingkup Penelitian ............................................................................................................. 1
Manfaat Penelitian ........................................................................................................................ 1
TINJAUAN PUSTAKA .................................................................................................................... 1
Citra Digital .................................................................................................................................. 1
TeX dan LaTeX ............................................................................................................................ 2
FPE (Ekstraksi Titik Ciri) ............................................................................................................. 2
PCA (Principal Component Analysis) .......................................................................................... 2
FFT (Fast Fourier Transform) ...................................................................................................... 3
Jarak Euclid................................................................................................................................... 3
K-Nearest Neighbors .................................................................................................................... 3

METODE PENELITIAN .................................................................................................................. 4
Studi Literatur ............................................................................................................................... 4
Pengumpulan Sampel.................................................................................................................... 4
Praproses Sampel .......................................................................................................................... 4
Segmentasi .................................................................................................................................... 4
Ekstraksi ciri ................................................................................................................................. 5
Cross-Validation ........................................................................................................................... 5
Klasifikasi KNN ........................................................................................................................... 6
Analisis ......................................................................................................................................... 6
HASIL DAN PEMBAHASAN ......................................................................................................... 6
Pengumpulan dan Praproses Sampel ............................................................................................ 6
Segmentasi .................................................................................................................................... 7
Ekstraksi Ciri ................................................................................................................................ 7
Cross-validation............................................................................................................................ 8
Klasifikasi ..................................................................................................................................... 8
Analisis ......................................................................................................................................... 8
KESIMPULAN DAN SARAN ....................................................................................................... 10
Kesimpulan ................................................................................................................................. 10
Saran ........................................................................................................................................... 10
DAFTAR PUSTAKA ..................................................................................................................... 10

LAMPIRAN .................................................................................................................................... 12

v

DAFTAR GAMBAR
Halaman
1
2
3
4
5
6
7
8
9
10

Representasi citra ........................................................................................................................ 1
Ilustrasi pemotongan (segmentasi) citra. ..................................................................................... 4
Diagram alir metode penelitian. .................................................................................................. 4

Salah satu tabel yang dipindai ke dalam komputer. .................................................................... 6
Hasil pindaian yang telah diolah dan ditata. ................................................................................ 6
Berkas yang melalui proses pembersihan. ................................................................................... 7
Tiga kondisi segmentasi. ............................................................................................................. 7
Grafik tingkat akurasi metode FPE. ............................................................................................ 9
Grafik tingkat akurasi menggunakan metode PCA. .................................................................... 9
Grafik tingkat akurasi menggunakan metode FFT. ................................................................... 10

DAFTAR LAMPIRAN
Halaman
1
2
3
4

Daftar bentuk-bentuk umum dan kombinasi tetangga yang bersesuaian................................... 13
Pengelompokan khusus dalam klasifikasi huruf ....................................................................... 17
Tabel lengkap penghitungan akurasi ......................................................................................... 20
Contoh matriks confusion.......................................................................................................... 24


vi

1

PENDAHULUAN
Latar Belakang
Tulisan ketik telah umum digunakan,
tetapi masih banyak orang yang lebih
memilih tulisan tangan karena pembuatannya
lebih sederhana dan praktis, contohnya dalam
pembuatan dokumen yang menggunakan
karakter-karakter yang tidak umum, seperti
dokumen matematika. Sayangnya, penelitian
tentang pengenalan tulisan tangan masih
sangat
jarang
dibandingkan
dengan
pengenalan tulisan cetak (optical character
recognition).

Metode ekstraksi ciri telah banyak
diterapkan dalam berbagai aspek ilmu
pengetahuan. Beberapa metode ekstraksi ciri
yang umum digunakan dalam pengenalan
tulisan tangan adalah Analisis Komponen
Utama (Principal Component Analysis atau
PCA) (Joliffe, 2002) dan Transformasi
Fourier Cepat (Fast Fourier Transform atau
FFT) (Cooley & Tukey, 1965). Ada pula
metode ekstraksi ciri yang dikenal sebagai
Ekstraksi Titik Ciri (Feature Point Extraction
atau FPE) (Brown, 1992). Metode ini biasa
digunakan pada pengenalan tulisan cetak.
Pada penelitian ini, peneliti mencoba
menerapkan ketiga metode ekstraksi ciri
tersebut pada bidang pengenalan tulisan
tangan.
Penelitian tentang pengenalan karakter
tulisan tangan telah dimulai sejak tahun 1900,
sementara pengenalan karakter secara off-line

telah dimulai pada dekade 1980-an (Arica,
2001). EW Brown telah melakukan penelitian
pengenalan karakter dengan menggunakan
metode FPE, dengan obyek penelitian adalah
huruf cetak (Brown, 1992). Penelitian
pengenalan karakter lainnya telah dilakukan
oleh Resmana dengan metode ekstraksi ciri
berupa PCA dan Linear Discriminant
Analysis (LDA) (Lim, 2002).
Penelitian ini memiliki visi membangun
sebuah sistem yang dapat mengenali ekspresi
matematika yang ditulis dengan tangan dan
menerjemahkannya ke dalam kode LaTeX.
Tujuan Penelitian
Tujuan
penelitian
ini
adalah
membandingkan efektivitas metode FPE,
PCA, dan FFT dalam pengenalan karakter
tulisan tangan sehingga dapat digunakan
sebagai referensi untuk penelitian yang akan
datang

Ruang Lingkup Penelitian
Karakter yang diujikan pada penelitian ini
adalah huruf Latin dan Yunani, baik kapital
maupun kecil, angka, serta simbol
matematika dasar, yaitu simbol tambah,
kurang, dan sama dengan.
Manfaat Penelitian
Penelitian ini akan menjadi dasar bagi
sistem pengenalan tulisan tangan ke dalam
bahasa LaTeX. Selain itu, penelitian ini dapat
bermanfaat sebagai referensi bagi penelitian
yang berkaitan dengan pengenalan karakter
tulisan tangan di masa mendatang.

TINJAUAN PUSTAKA
Citra Digital
Suatu
citra
atau
gambar
dapat
didefinisikan sebagai fungsi dua dimensi atau
f(x,y) dengan x dan y adalah koordinat spasial
dan amplitudo f, baik pada x maupun y,
disebut intensitas atau derajat keabuan. Jika
x, y, dan f terbatas (finite), citra tersebut dapat
dikatakan citra digital. Ilustrasi dari
representasi citra digital dapat dilihat pada
Gambar 1.

(a)

(b)
Gambar

1

(c)

Representasi citra dalam (a)
permukaan, (b) intensitas visual,
dan (c) matriks 2D dengan angka
0, 1, dan 5 mewakili hitam, putih,
dan abu-abu (Gonzalez & Woods,
2008).

Citra digital terdiri atas elemen terkecil
yang biasanya dinamakan piksel. Piksel
menyimpan informasi berupa intensitas
warna citra pada koordinat tersebut. Citra
dapat diterjemahkan sebagai matriks dan
piksel dapat diterjemahkan sebagai elemen
matriks tersebut.

2

Pada penelitian ini, sampel tulisan tangan
yang diambil akan berbentuk citra digital
yang akan diolah setelah diterjemahkan ke
dalam matriks.
TeX dan LaTeX
TeX
merupakan
perangkat
lunak
pengolah
dokumen
yang
terutama
menghasilkan dokumen yang berisi simbolsimbol matematika. Perangkat lunak ini
diciptakan oleh Donald E. Knuth pada bulan
Mei 1977 sebagai bahasa pemformat
dokumen (document formatting language).
Perangkat
lunak
TeX
memiliki
kemampuan yang baik untuk mengolah
dokumen-dokumen yang berkualitas tinggi.
Namun, banyak pemakai yang memandang
bahwa perintah-perintahnya sulit digunakan
untuk menuliskan dokumen terstruktur yang
terdiri atas unsur-unsur bab, subbab, paragraf,
tabel dan gambar bernomor, dan sebagainya.
Untuk mengatasi hal ini, Leslie Lamport
menuliskan sejumlah perintah tambahan yang
berjalan di atas TeX. Hasil penambahan
perintah-perintah ini kemudian dikenal
sebagai LaTeX (Pakin, 2009).
Misalkan rumus matematika yang ingin
diketik seperti berikut:
2

Rumus untuk mencari akar dari ax +bx+c=0
adalah:
x1,2 =

-b±ඥb2 -4ac
2a

dengan asumsi bahwa b2 -4ac൐Ͳ.

Kode LaTeX yang bersesuaian adalah:
Rumus untuk mencari akar dari
$ax^2 + bx + c = 0$ adalah
$$x_{1,2} = \frac{ -b \pm
\sqrt {b^2 - 4ac}}{2a}$$
dengan asumsi bahwa
\(b^2 - 4ac > 0\).
Feature Point Extraction (FPE)
Titik ciri (feature point), menurut Brown
(1992), adalah titik menarik tempat sesuatu
terjadi.
Titik
tersebut
bisa
berupa
persimpangan dua garis, sudut, ataupun
hanya titik yang dikelilingi ruangan kosong.
Titik-titik
ini
dapat
membantu
mendefinisikan hubungan antar garis (Brown,
1992).
Algoritme yang digunakan oleh Brown
untuk mengekstraksi titik ciri ini adalah
dengan memeriksa masing-masing piksel

dari karakter yang bernilai 1, lalu memeriksa
kedelapan tetangganya. Permutasi dari setiap
kondisi tetangga ini adalah 28 = 256 sehingga
tiap-tiap kombinasi dapat dinyatakan oleh
angka 1 sampai 256. Dari 256 kemungkinan
tersebut, ditetapkan 58 titik ciri yang paling
signifikan.
Perlu digarisbawahi bahwa penelitian
yang dilakukan oleh Brown ini diterapkan
pada karakter digital dari jenis huruf bernama
CBM yang digunakan pada komputer
Commodore. Masing-masing karakter ini
berukuran 8x8, sedangkan penelitian ini akan
mencoba algoritme Brown tersebut kepada
karakter tulisan tangan dengan dimensi yang
lebih besar.
Principal Component Analysis (PCA)
Analisis komponen utama atau Principal
Component Analysis (PCA) adalah salah satu
cara mengidentifikasi pola dalam data dan
mengekspresikannya
sedemikian
rupa
sehingga dapat terlihat persamaan dan
perbedaannya. Pola ini berguna untuk
mengkompresi data, yaitu mengurangi ukuran
atau dimensi data tanpa kehilangan banyak
informasi yang terkandung (Smith, 2002).
Secara
matematis,
Joliffe
(2002)
mendefinisikan PCA sebagai transformasi
linear ortogonal pada data ke sistem
koordinat yang baru sehingga variansi
terbesar dari proyeksi data manapun akan
berada pada koordinat pertama dan disebut
sebagai komponen utama pertama, variansi
terbesar kedua pada koordinat kedua, dan
selanjutnya (Joliffe, 2002).
Sebuah citra 2D dengan dimensi b baris
dan k kolom dapat direpresentasikan dalam
bentuk citra 1D dengan dimensi n (n=b*k).
Misalkan ada sampel berupa data latih
sejumlah K sampel yang dinyatakan dengan
{x1, x2,..., xK} yang diambil dari C buah kelas
yang dinyatakan sebagai {X1, X2,..., XK}.
Matriks kovarian (ST) dapat didefinisikan
sebagai berikut: 
K

ST = ෍ (xk -μ)(xk -μ)T
k=1

Nilai μ pada persamaan di atas adalah ratarata dari data latih {x1, x2,..., xK}. Matriks ST
ini juga dapat dinyatakan dalam dekomposisi
eigen sebagai berikut:
ST =ΦΛΦT

3

Nilai Φ pada persamaan di atas adalah
matriks vektor eigen dan Λ adalah diagonal
matriks nilai eigen. Kemudian, dipilih
sejumlah m kolom vektor eigen dari matriks
Φ yang berasosiasi dengan sejumlah m nilai
eigen terbesar. Pemilihan vektor eigen ini
menghasilkan matriks transformasi atau
matriks proyeksi Φm, yang terdiri atas m
kolom vektor eigen terpilih yang biasa
disebut juga dengan citra eigen. Berikutnya,
sebuah citra x (berdimensi n) dapat
diekstraksi dalam ciri baru y (berdimensi m <
n) dengan memproyeksikan x searah dengan
Φm menjadi persamaan berikut:
y=Φm x

Salah satu algoritme FFT yang paling
awal dan paling umum digunakan adalah
algoritme Cooley-Tukey (1965). Algoritme
ini mengekspresikan kembali DFT dalam
ukuran komposit N = N1N2 dalam DFT yang
lebih kecil yaitu berukuran N1 dan N2 (Cooley
& Tukey, 1965).
Jarak Euclid
Jarak Euclid adalah jarak antara dua titik
yang diukur menggunakan rumus Phytagoras.
Jika p = (p , p ,..., pn) dan q = (q , q ,..., qn),
1

2

1

2

jarak Euclid antara p dan q dapat dihitung
sebagai berikut:
n

Dengan kata lain, metode PCA
memproyeksikan ruang asal Ը௡ ke ruang
baru yang berdimensi lebih rendah Ը௠ . Hal
ini
berarti
metode
PCA
akan
mempertahankan
sebanyak
mungkin
kandungan informasi asal agar tidak terlalu
banyak informasi yang hilang setelah dibawa
ke dimensi ciri yang lebih kecil. Pada matriks
komponen utama, terlihat reduksi ciri yang
signifikan dari n buah menjadi m buah yang
tentunya akan sangat meringankan komputasi
dalam proses pengenalan berikutnya.

D=ඨ෍ (qi -pi )2

Fast Fourier Transform (FFT)

K-Nearest Neighbors

Transformasi Fourier Cepat (Fast Fourier
Transform, biasa disingkat FFT) adalah suatu
algoritme untuk menghitung transformasi
Fourier diskret (Discrete Fourier Transform,
disingkat DFT) dengan cepat dan efisien.
Transformasi Fourier Cepat diterapkan dalam
beragam bidang, mulai dari pengolahan
sinyal digital, memecahkan persamaan
diferensial parsial, dan mengalikan bilangan
bulat besar.

Algoritme k-nearest neighbor (k-NN atau
KNN) adalah sebuah metode untuk
melakukan klasifikasi terhadap objek
berdasarkan data latih yang jaraknya paling
dekat dengan objek tersebut (Mitchell, 1997)

Misalkan x0, ... , xN-1 merupakan bilangan
kompleks dan k adalah nilai yang berkisar
antara 0 hingga N - 1. Transformasi Fourier
Diskret didefinisikan oleh rumus:
N-1

2πi

Xk = ෍ xn e- N nk
n=0

Penghitungan deret ini secara langsung
memerlukan operasi aritmatika sebanyak
O(N2). Sebuah algoritme FFT hanya
memerlukan operasi sebanyak O (N log N)
untuk menghitung deret yang sama. Secara
umum, algoritme tersebut tergantung pada
pemfaktoran N.

i=1

Dengan kata lain, jarak Euclid adalah
penjumlahan kuadrat selisih pasangan elemen
kedua titik. Rumusan jarak Euclid telah
banyak diaplikasikan dalam berbagai macam
permasalahan. Pada penelitian ini, jarak
Euclid akan digunakan untuk menghitung
jarak antara data acuan dan data yang akan
diuji untuk menghitung kemiripan keduanya
(Dattoro, 2005).

Data latih diproyeksikan ke ruang
berdimensi banyak yang masing-masing
dimensinya merepresentasikan ciri dari data.
Ruang ini dibagi menjadi bagian-bagian
berdasarkan klasifikasi data latih. Sebuah
titik pada ruang ini ditandai kelas c jika kelas
c merupakan klasifikasi yang paling banyak
ditemui pada k buah tetangga terdekat titik
tersebut. Dekat atau jauhnya tetangga
biasanya dihitung berdasarkan jarak Euclid.
Algoritme ini pada fase latih hanya
melakukan penyimpanan vektor-vektor ciri
dan klasifikasi dari data latih. Pada fase
klasifikasi, ciri-ciri yang sama dihitung untuk
data uji (yang klasifikasinya tidak diketahui).
Jarak dari vektor yang baru terhadap seluruh
vektor data latih dihitung dan sejumlah k
buah yang paling dekat diambil. Klasifikasi
vektor baru diprediksikan dari nilai yang
paling banyak muncul.

4

Nilai k yang terbaik untuk algoritme ini
tergantung pada data. Umumnya, nilai k yang
tinggi akan mengurangi efek noise pada
klasifikasi, tetapi membuat batasan antara
setiap klasifikasi menjadi lebih kabur. Nilai k
yang bagus dapat dipilih dengan optimasi
parameter, misalnya dengan menggunakan
cross-validation. Kasus khusus ketika
klasifikasi diprediksikan berdasarkan data
latih yang paling dekat (k = 1) disebut
algoritme nearest neighbor.

untuk kemudian diisi oleh lima orang berbeda
pada setiap kolomnya. Setelah tabel diisi
penuh, tabel akan dipindai menggunakan
pemindai dan disimpan menggunakan format
JPEG.

Studi Literatur

Pengumpulan
Sampel

Ketepatan algoritme KNN ini sangat
dipengaruhi oleh ada tidaknya ciri-ciri yang
tidak relevan atau jika bobot ciri tersebut
tidak setara dengan relevansinya terhadap
klasifikasi.
Penelitian ini menggunakan metode KNN
karena metode ini adalah salah satu metode
klasifikasi yang paling sederhana. Selain itu,
penelitian sebelumnya oleh Brown dan
Resmana juga menggunakan metode KNN ini
untuk mengklasifikasikan hasil ekstraksi
cirinya.

Praproses
Segmentasi

FPE

PCA

FFT

5-fold CV

Data Uji

METODE PENELITIAN

Data Latih
KNN

Garis besar dari metode penelitian ini
digambarkan pada Gambar 2. Penjelasan
selengkapnya tentang masing-masing langkah
akan dipaparkan di bawah ini.

Analisis

Gambar 2 Diagram alir metode penelitian.

Studi Literatur
Pada tahap ini, dilakukan serangkaian
studi pada literatur yang berkaitan dengan
penelitian. Studi ini mencakup teori tentang
citra digital, pengenalan tulisan tangan,
macam-macam metode ekstraksi ciri populer,
dan sebagainya.
Pengumpulan Sampel
Pengumpulan sampel dilakukan dengan
cara memindai tulisan tangan yang ditulis di
atas kertas untuk selanjutnya diolah secara
digital. Sampel yang akan dikumpulkan
berupa lima contoh tulisan tangan dari tiaptiap karakter yang akan diujikan. Tabel ini
akan dicetak pada beberapa lembar kertas

Praproses Sampel
Tahap yang dilaksanakan setelah sampel
yang
dibutuhkan
diperoleh
adalah
mempersiapkan sampel-sampel tersebut agar
siap untuk diujikan pada penelitian. Tujuan
akhir dari tahap ini adalah membersihkan
sampel-sampel yang dikumpulkan dari noise
secara umum dan menggabungkannya
menjadi satu matriks besar sehingga dapat
lebih mudah diakses.
Segmentasi
Segmentasi akan diterapkan pada
penelitian ini untuk meningkatkan akurasi
dengan cara memperkecil wilayah yang akan

Ciri A
Ekstraksi
Ciri

Ciri B
Ciri CA

Gambar 3 Ilustrasi pemotongan (segmentasi) citra.

Ciri Gabungan

5

diekstraksi cirinya sehingga proses ekstraksi
akan menjadi lebih efisien. Segmentasi
dilakukan sebelum proses ekstraksi ciri.
Caranya adalah dengan membagi gambar
menjadi beberapa segmen yang kurang lebih
sama besarnya, kemudian masing-masing
segmen diekstraksi cirinya. Hasil ekstraksi
ciri dari masing-masing segmen digabungkan
kembali dalam satu vektor.

telah diterapkan di PCA, matriks gambar juga
akan divektorisasi dan kemudian masingmasing vektor gambar akan digabung
menjadi satu matriks. Matriks ini kemudian
akan diberikan kondisi segmentasi satu
segmen, tiga segmen, dan enam segmen pada
matriks gambar.

Ekstraksi ciri

Matriks yang telah disegmentasi ini akan
diekstraksi cirinya menggunakan FFT satu
dimensi. Ada variabel masukan lain pada
fungsi ini, yaitu variabel titik. Penelitian ini
akan menguji beberapa nilai untuk variabel
titik.

Tahap selanjutnya setelah matriks sampel
diperoleh adalah melakukan ekstraksi ciri
terhadap masing-masing gambar pada
matriks tersebut. Metode ekstraksi ciri yang
digunakan pada penelitian ini ada tiga, yaitu
FPE, PCA, dan FFT.

Keluaran dari FFT berupa bilangan
kompleks, sementara klasifikasi yang akan
digunakan (KNN) memerlukan masukan
berupa bilangan nyata. Oleh karena itu, nilai
matriks ini akan diubah ke nilai absolut
dahulu sebelum diklasifikasikan.

1 FPE

Bilangan kompleks secara
dirumuskan sebagai berikut:

Ilustrasi
dari
proses
digambarkan pada Gambar 3.

segmentasi

Langkah pertama dari metode ini adalah
memetakan ke-256 kemungkinan posisi
tetangga piksel. Kemungkinan-kemungkinan
ini akan dikelompokkan berdasarkan
kemiripannya secara manual.
Masing-masing gambar akan dipindai
setiap pikselnya. Gambar yang akan dipindai
semuanya adalah gambar hitam putih
sehingga kemungkinan pikselnya hanyalah 1
(putih) atau 0 (hitam). Apabila pikselnya 1,
piksel tidak diperiksa tetangganya, namun
apabila pikselnya 0, akan diperiksa
tetangganya, lalu akan ditentukan termasuk
dalam kelompok manakah piksel tersebut.
Proses segmentasi tidak diterapkan pada
metode ini karena nilai kemunculan suatu
kelompok tidak berkaitan dengan jumlah
segmen.
2 PCA
Data yang dimasukkan pada ekstraksi ciri
PCA haruslah dalam bentuk vektor. Jadi,
matriks gambar harus divektorisasi dahulu
sebelum dapat diekstraksi cirinya. Semua
vektor kemudian akan digabungkan dalam
satu matriks besar. Matriks baru ini
selanjutnya
akan
diekstraksi
cirinya
menggunakan fungsi PCA yang telah ada
dalam Matlab.
3 FFT
Metode FFT yang digunakan pada
penelitian ini adalah FFT satu dimensi, yang
berarti metode ini menerima data berupa
vektor. Oleh karena itu, sebagaimana yang

umum

c=a+bi
Bilangan a dan b adalah bilangan nyata,
sedangkan bilangan i adalah bilangan khayal.
Klasifikasi khususnya KNN tidak menerima
bilangan khayal sehingga nilai kompleks
yang dihasilkan oleh FFT harus diubah
dahulu ke bilangan absolut dengan rumus
berikut.
ȁcȁ=ඥa2 +b2

Cross-Validation

Sebelum dilakukan klasifikasi untuk
menguji akurasi tiap metode, data akan dibagi
menjadi dua kelompok, yaitu data latih dan
data uji.
Seperti yang telah dijabarkan sebelumnya,
untuk masing-masing karakter diperoleh lima
sampel. Pada penelitian ini, satu dari lima
sampel untuk setiap karakternya akan
dimasukkan ke dalam kelompok data uji,
sedangkan empat sisanya dikelompokkan
dalam data latih. Agar hasil klasifikasinya
lebih adil, setiap data harus setidak-tidaknya
sekali berada pada kedua kelompok data
tersebut. Oleh karena itu, pada penelitian ini
digunakan metode cross-validation.
Pada metode ini, proses klasifikasi yang
dilakukan akan diulang dengan kombinasi
berbeda sehingga tiap sampel mendapat
kesempatan ditempatkan dalam kedua
kelompok.

6

Klasifikasi KNN
Klasifikasi dapat dilakukan setelah
matriks terpisah komponennya menjadi data
latih dan data uji. Proses klasifikasi ini pun
akan dikerjakan dalam aplikasi Matlab. Dari
proses ini, kita dapat melihat seberapa banyak
data yang berhasil ditebak dengan benar dan
seberapa banyak yang tidak. Hasil ini akan
sangat berguna untuk proses analisis.

masing kategori karakter memiliki folder
yang terpisah. Contoh hasil yang telah dipilah
dapat dilihat pada Gambar 5.

Analisis
Dari masing-masing matriks yang
diklasifikasikan oleh proses di atas, akan
didapatkan matriks yang menyatakan hasil
tebakan dari program klasifikasi atas data ciri
yang telah diekstraksi sebelumnya. Dari
matriks ini, dapat diperoleh nilai akurasinya
yang dihitung menggunakan rumus berikut:
Akurasi=

jumlah klasifikasi benar
×100%
113

HASIL DAN PEMBAHASAN
Pengumpulan dan Praproses Sampel
Ada 113 karakter yang akan diolah dalam
penelitian ini, yaitu 26 huruf Latin kapital, 26
huruf Latin kecil, 24 huruf Yunani kapital, 24
huruf Yunani kecil, 10 angka, dan 3 simbol
matematika (tambah, kurang, sama dengan).
Untuk masing-masing karakter, akan
dikumpulkan lima sampel sehingga jumlah
keseluruhan berkas adalah 113x5 = 565
berkas.

Gambar 2 Salah satu tabel yang dipindai ke dalam
komputer.

Seluruh sampel diambil menggunakan
kertas yang dipindai sehingga berkas yang
dihasilkan masih memiliki noise. Proses
pembersihan
dilakukan
menggunakan
Matlab.

Pengambilan sampel ini dilakukan
menggunakan media kertas. Tabel untuk
kategori yang berbeda dicetak pada kertas
yang berbeda. Pengisian tabel dilakukan oleh
lima orang peserta berbeda menggunakan
pulpen hitam.
Setelah terisi penuh, tabel-tabel tersebut
dipindai menggunakan pemindai. Hasil
pindaian disimpan dalam format JPEG. Salah
satu contoh tabel hasil pemindaian dapat
dilihat pada Gambar 4. Pada gambar tersebut,
tabel yang dipindai adalah tabel huruf Yunani
kapital.
Hasil pindaian ini kemudian akan diolah
menggunakan aplikasi pengolah gambar
GIMP. Gambar dipotong-potong pada
masing-masing karakter sampel, kemudian
disimpan dalam berkas yang berbeda. Setiap
berkas disimpan dalam format JPEG dengan
ukuran 110x80 dan diatur sehingga masing-

Gambar 3

Hasil pindaian yang telah diolah dan
ditata.

Noise yang ada pada berkas adalah noise
berwarna abu-abu, sementara tulisannya
berwarna hitam. Oleh karena itu, pada tiap
berkas akan dikenakan thresholding, yaitu
konversi gambar ke warna hitam-putih
dengan batas (threshold) tertentu. Tiap berkas
memiliki derajat keabuan dan noise yang
berbeda sehingga akan diterapkan adaptive
thresholding pada tiap berkas, yaitu metode
untuk menentukan batas hitam-putih gambar
dengan derajat keabuan gambar itu sendiri.

7

Fungsi yang digunakan adalah fungsi bawaan
Matlab im2bw(), dengan batas masingmasing gambar ditentukan oleh fungsi
graythresh() yang menggunakan metode Otsu
(Otsu, 1979).
Bagian-bagian yang tidak diperlukan akan
dibuang untuk meningkatkan hasil akurasi.
Ruang kosong pada sisi-sisi huruf dapat
dibuang sehingga setiap huruf akan
menempel pada pinggiran gambar. Hal ini
tentu saja akan mengakibatkan berkurangnya
ukuran berkas dan pengurangan jumlah
berkas ini juga akan berbeda-beda pada setiap
berkas. Oleh karena itu, setiap berkas akan
diseragamkan lagi ukurannya menjadi
setengah dari ukuran awal, yaitu 55x40
piksel. Ilustrasi dari pembersihan dapat
dilihat pada Gambar 6.
Hitam
putih

Area
kosong

Gambar 4 Berkas yang melalui proses pembersihan.

Masing-masing berkas kemudian akan
digabungkan dalam satu matriks besar.
Matriks ini berukuran 565x55x40. Dimensi
pertamanya sesuai dengan jumlah berkas dan
dua dimensi terakhir sesuai dengan ukuran
masing-masing berkas.
Segmentasi

potongan tegak sehingga empat potongan
berukuran 18x10 dan dua potongan sisanya
19x10. Ketiga kondisi ini digambarkan pada
Gambar 7.
Ekstraksi Ciri
1 FPE
Metode
yang
digunakan
untuk
menentukan titik ciri yang signifikan pada
penelitian ini agak berbeda dengan penelitian
oleh Brown. Brown memilih titik-titik
signifikan secara manual dari ke-256
kemungkinan, sedangkan pada penelitian ini
bentuk umum dari titik yang memiliki potensi
signifikan akan ditentukan dahulu, lalu
mengelompokkan ke-256 kemungkinan titik
ciri ke bentuk umum yang paling mirip.
Bentuk-bentuk
umum
yang
telah
ditetapkan
berjumlah
20
bentuk.
Pengelompokan setiap kemungkinan titik ke
bentuk umum tersebut dilakukan secara
manual. Kemungkinan yang tidak memiliki
kemiripan dengan semua bentuk umum
dianggap tidak signifikan dan dibuang,
sementara kemungkinan yang memiliki
kemiripan
dengan
lebih
dari
satu
kemungkinan lain dapat dikelompokkan ke
lebih dari satu bentuk pula. Informasi lengkap
mengenai
pengelompokan
ke-256
kemungkinan ke dalam 20 bentuk umum ini
dapat dilihat di Lampiran 1.
Setelah proses ini selesai, barulah berkas
sampel yang telah dikumpulkan diekstraksi
cirinya dengan cara menghitung kemunculan
masing-masing bentuk umum dalam tiap
berkas. Hasil dari proses ekstraksi ini adalah
matriks berukuran 565x20 di setiap baris
mewakili berkas dan kolomnya mewakili
frekuensi kemunculan bentuk umum dalam
berkas tersebut.
2 PCA

Gambar 5

Tiga kondisi segmentasi (a) tidak
disegmentasi, (b) tiga segmen, dan
(c) enam segmen.

Ada tiga kondisi yang digunakan pada
penelitian ini, yaitu kondisi tanpa segmen,
tiga segmen, dan enam segmen. Pemotongan
pada pembagian tiga segmen akan dilakukan
melintang sejajar. Dimensi berkas (55x40)
tidak
dapat
dibagi
tiga
sehingga
pembagiannya tidak sama rata, yaitu dua
segmen berukuran 18x20 dan satu segmen
berukuran 19x20. Sementara itu, pembagian
kepada enam segmen hampir sama seperti
pembagian tiga segmen, namun diberi

Untuk PCA, berkas sampel akan melewati
proses segmentasi dahulu seperti yang telah
dijelaskan pada subbab sebelumnya. Dari
proses tersebut, didapatkan tiga set matriks,
masing-masing mewakili tiga kondisi
segmentasi.
Masing-masing
berkas
akan
ditransformasi menjadi vektor sebelum
diekstraksi cirinya oleh PCA. Berkas yang
tadinya berukuran 55x40 akan ditransformasi
menjadi vektor yang berukuran 1x2200.
Transformasi ini juga berlaku untuk masing-

8

masing segmen pada kondisi tiga dan enam
segmen.

pengubahan ini menggunakan fungsi absolut
bawaan Matlab pula yang bernama abs().

Ekstraksi ciri pun dapat dilakukan setelah
vektorisasi. Penelitian ini menggunakan
fungsi processpca() yang sudah tersedia di
Matlab R2008a. Fungsi ini diubah sedikit
karena fungsi aslinya tidak mengizinkan
jumlah kolom yang lebih banyak dari jumlah
baris. Sementara itu, karena jumlah kolom
matriks lebih banyak dari jumlah barisnya,
fungsi ini diubah sedemikian rupa sehingga
rasio baris dan kolom tidak diperhatikan.

Cross-validation

Kita dapat menentukan jumlah data yang
dibuang atau data yang dianggap kurang
penting
dengan
fungsi
processpca()
menggunakan batas persentase minimum.
Pada penelitian ini, akan dicobakan sepuluh
variabel, berkisar dari 0.1% sampai 1%.
Setiap komponen utama yang memegang
informasi kurang dari persentase tersebut
akan dianggap kurang penting dan akan
dibuang.
Khusus pada kondisi tersegmentasi baik
tiga maupun enam segmen, setiap segmennya
akan menghasilkan matriks cirinya masingmasing. Oleh karena itu, setelah proses
ekstraksi ciri matriks ciri dari tiap segmen
akan
digabungkan
kembali
sebelum
dilanjutkan ke proses berikutnya.
3 FFT
Sebagaimana halnya pada PCA, pada FFT
pun akan dilakukan segmentasi dahulu.
Karena metode FFT yang digunakan adalah
metode FFT satu dimensi, setiap berkas akan
ditransformasi menjadi vektor, persis seperti
PCA.
Fungsi FFT yang digunakan pada
penelitian ini adalah fungsi FFT satu dimensi
bawaan Matlab, yaitu fft(). Pada fungsi ini,
kita dapat menentukan variabel titik ekstraksi
yang diperlukan. Pada penelitian ini, dipilih
tiga kondisi titik, yaitu 64 titik, 256 titik, dan
1024 titik. Fungsi ini akan mengembalikan
matriks ciri dengan jumlah kolom sebanyak
jumlah titiknya. Apabila sebuah berkas
1x2200 dimasukkan dalam fungsi FFT
dengan 64 titik, keluarannya akan berupa
matriks berukuran 1x64.
Fungsi FFT selalu mengembalikan
matriks yang berisi bilangan kompleks. Oleh
karena itu, sebelum memasuki tahap
klasifikasi nilai dari setiap elemen matriks
harus diubah ke nilai absolut. Proses

Cross-validation yang harus dilakukan
agar setiap berkas mendapatkan kesempatan
menjadi data uji dan data latih sekurangkurangnya sebanyak lima kali karena ada
lima berkas sampel untuk setiap karakter.
Jadi, pada setiap matriks set berkas dengan
jumlah berkas sebanyak 565, sebanyak 113 di
antaranya dijadikan data uji dan 452 sisanya
dijadikan data latih.
Klasifikasi
Fungsi klasifikasi yang digunakan pada
penelitian ini adalah fungsi klasifikasi knearest neighbor yang juga telah disediakan
oleh Matlab, yaitu knnclassify(). Pada setiap
proses klasifikasi, akan diminta variabel k,
yaitu jumlah tetangga terdekat yang akan
diperhitungkan.
Pada
penelitian
ini,
digunakan empat kondisi nilai k, yaitu 1, 3, 5,
dan 7. Fungsi ini secara baku menggunakan
jarak Euclid dalam perhitungannya.
Pada penelitian ini, ada beberapa karakter
berbeda yang akan dikategorikan dalam satu
kelompok karakter. Hal ini disebabkan oleh
beberapa faktor. Salah satunya adalah
keterbatasan penelitian ini yang tidak
memperhatikan ukuran relatif huruf sehingga
karakter yang bentuknya sama meskipun
ukuran relatifnya berbeda akan dianggap
sama. Contoh dari masalah ini adalah huruf C
dan c. Faktor lainnya adalah karakter yang
meskipun berbeda sama sekali namun secara
penulisannya tidak ada perbedaan. Contohnya
adalah huruf A. Huruf ini dapat berarti huruf
A kapital atau huruf alfa kapital.
Pengelompokan secara rinci dapat dilihat di
Lampiran 2.
Jadi, untuk setiap matriks set data yang
dimasukkan, akan dihasilkan matriks
berukuran 1x113 yang setiap kolomnya
mewakili klasifikasi sistem terhadap masingmasing karakter masukan.
Analisis
Hasil nilai akurasi dari metode-metode
yang telah disebutkan di atas ditampilkan
pada Gambar 8, 9, dan 10. Nilai akurasi
untuk masing-masing nilai k pada KNN (1, 3,
5, dan 7) pada FPE, PCA, dan FFT
ditampilkan rataannya.

9

1 FPE
Akurasi tertinggi yang dapat dicapai oleh
FPE hanya 26%. Dapat disimpulkan bahwa
akurasi yang didapatkan dari metode FPE ini
kurang bagus. Pada metode FPE ini, faktor
yang berpengaruh hanya nilai k, yaitu nilai
tetangga terdekatnya. Pada Gambar 8, dapat
dilihat bahwa nilai k tidak berperan banyak
dalam meningkatkan nilai akurasi.
26.0%

Secara umum, dari grafik yang disajikan
pada Gambar 9, kita dapat melihat nilai
akurasi yang lebih baik dibandingkan dengan
nilai rata-rata akurasi pada FPE. Nilai akurasi
yang diperoleh pada PCA berkisar antara
10% hingga 60%. Berbeda dengan FPE, PCA
memperhatikan posisi karakter. Jadi, PCA
akan memperoleh lebih banyak ciri untuk
masing-masing kelas sehingga perbedaannya
akan semakin kontras.

25.7%

70%

1 segmen

3 segmen

6 segmen

25.5%
60%
25.0%
50%

24.0%

23.9%

23.7%
23.4%

23.5%

40%
30%
20%

23.0%

10%

22.5%

0%

22.0%

1

3

5

7

Nilai K

Gambar 6 Grafik tingkat akurasi metode FPE.

Kegagalan pada metode FPE ini dapat
disebabkan oleh beberapa faktor. FPE
sebelumnya berhasil diterapkan pada Optical
Character
Recognition
(OCR),
yaitu
pengenalan huruf cetak. Sementara itu, pada
penelitian
ini,
penerapannya
pada
Handwriting Character Recognition (HCR)
atau pengenalan huruf tulisan tangan.
Permasalahan utama pada metode FPE
yang diterapkan pada penelitian ini adalah
FPE mengenali ciri dari suatu karakter
dengan mendeteksi jumlah dari masingmasing bentuk tepinya, tetapi tidak mengenal
posisi dari tepian tersebut. Hal ini
menyebabkan
banyak
karakter
yang
terdeteksi sebagai karakter lain yang serupa
bentuknya, namun posisinya terbalik. Sebagai
contoh, huruf W dalam lima percobaan
masing-masing terdeteksi dua kali W, satu
kali w, dan dua kali M. Contoh lainnya secara
lengkap dapat dilihat pada matriks confusion
di Lampiran 4.
Masalah lainnya adalah jumlah titik ciri
yang terlalu sedikit, yaitu 20 jenis, sementara
jumlah sampel yang diujikan adalah 565
sampel yang terdiri atas 113 kelompok. Hal
ini menyebabkan 20 ciri tersebut belum
cukup banyak untuk membedakan 113
kelompok tersebut.
2 PCA

Akurasi

Akurasi

24.5%

0.1% 0.2% 0.3% 0.4% 0.5% 0.6% 0.7% 0.8% 0.9% 1.0%

Batasan

Gambar 7 Grafik tingkat akurasi menggunakan
metode PCA.

Ada dua faktor yang berperan penting
dalam mempengaruhi nilai akurasi ini, yaitu
jumlah segmen dan batas persentase
minimum.
Jika ditilik dari batas persentase
minimum, terlihat bahwa secara umum nilai
akurasi akan menurun. Penurunan nilai
akurasi ini tentu saja disebabkan oleh
kenaikan batas persentase
minimum.
Penurunan ini juga menunjukkan bahwa
informasi yang dikikis melalui PCA adalah
informasi yang cukup penting.
Jika ditilik dari jumlah segmen, dapat
dilihat pada kondisi satu segmen (tidak
melalui proses segmentasi) nilai akurasinya,
meskipun pada awalnya hampir sama dengan
kondisi tiga dan enam segmen, menurun
drastis seiring dengan peningkatan batas
persentase minimum. Sementara itu, pada
kondisi tiga dan enam segmen, dapat dilihat
nilai yang stabil meskipun batas persentase
minimum bertambah sekitar 55% hingga
60%. Hal ini terjadi karena metode PCA yang
diterapkan tidak sesuai untuk data yang
berukuran terlalu besar. Di sinilah segmentasi
berperan, karena segmentasi memperkecil
ukuran data sehingga metode PCA dapat
memperoleh informasi yang lebih banyak jika
batasan persentase informasinya dinaikkan.

10

Kesalahan klasifikasi yang terjadi
sebagian besar dikarenakan kemiripan bentuk
antarsampel yang sulit dibedakan oleh
komputer. Contohnya adalah huruf P. Huruf
ini dideteksi dua kali sebagai P, dua kali
sebagai F, dan sekali dideteksi sebagai P
(rho). Hal ini disebabkan sampel tersebut,
meskipun ditulis P, memiliki kesamaan
dengan huruf F. Contoh lainnya dapat dilihat
pada Lampiran 4.
3 FFT
Nilai akurasi pada FFT memiliki rentang
yang lebih besar, yaitu dari 5% hingga 70%.
Nilai akurasi tertingginya, 70%, adalah nilai
paling tinggi dari seluruh penelitian ini.
Grafik umum dari hasil perhitungan
menggunakan FFT dapat dilihat pada Gambar
10.
1 Segmen

2 Segmen

3 Segmen

80%
70%

68%

65%

70%

50%

Akurasi

Kesimpulan
Kesimpulan yang dapat ditarik dari
penelitian ini adalah:
1 Metode FPE tidak cocok untuk diterapkan
pada pengenalan karakter tulisan tangan.
Hal
ini
disebabkan
FPE
tidak
memperhatikan posisi masing-masing ciri.
Nilai akurasi tertinggi yang mampu
dicapai oleh metode ini adalah 26%
2 Metode PCA mampu menghasilkan nilai
akurasi yang lebih tinggi, yaitu hingga
60%. Untuk meningkatkan hasil akurasi
dengan metode ini, perlu diterapkan
segmentasi jika batasan persentase
informasinya tinggi.
3 Metode FFT memiliki nilai akurasi
tertinggi dari ketiga metode yang
diujikan, yaitu mencapai 70%.
Saran

60%

44%
39%

42%

40%

16%

20%

19%

7%

0%
64 Titik

256 Titik

Beberapa hal dapat dikembangkan dalam
penelitian selanjutnya.
1 Penambahan jumlah sampel, karena
sampel yang telah dikumpulkan masih
kurang seimbang dengan jumlah kelas
yang ada.

30%

10%

KESIMPULAN DAN SARAN

1024 Titik

Titik Ekstraksi

Gambar 8 Grafik tingkat akurasi menggunakan
metode FFT.

Ada dua faktor yang berpengaruh pada
metode FFT ini, yaitu jumlah titik ekstraksi
serta kondisi segmentasi. Pada grafik di atas,
terlihat jelas bahwa kedua faktor ini nilainya
berbanding lurus dengan nilai akurasi.
Dengan kata lain, semakin banyak titik
ekstraksi yang digunakan dan semakin
banyak jumlah segmen, semakin tinggi nilai
akurasinya.
Sebagaimana pada PCA, kesalahan yang
terjadi pada FFT juga diakibatkan kemiripan
sampel. Sebagai contoh, pada Lampiran 4,
huruf B terdeteksi dua kali sebagai B, namun
tiga sampel lainnya masing-masing terdeteksi
sebagai F, P, dan E. Ketiganya memiliki
kemiripan bentuk dengan huruf B tetapi tak
sanggup dibedakan oleh FFT.

2 Pengembangan metode FPE yang
memungkinkan posisi masing-masing
titik ciri untuk diperhitungkan juga dalam
ekstraksi
ciri,
misalnya
dengan
menerapkan segmentasi.
3 Perbaikan praproses dan metode secara
keseluruhan sehingga sistem dapat
membedakan huruf-huruf yang memiliki
posisi dan ukuran relatif yang berbeda.

DAFTAR PUSTAKA
Brown EW. 1992. Character Recognition by
Feature Point Extraction. Boston:
Northeastern University
Cooley JW, Tukey JW. 1965. An algorithm
for the machine calculation of complex
Fourier series. IEEE Transaction of Audio
and Electroacoustics 17(2):93-103.
Dattoro J. 2005. Convex Optimization and
Euclidean Distance Geometry. California:
MeBoo Publ.
Gonzalez RC, Woods RE. 2008. Digital
Image Processing. New Jersey: Prentice
Hall.

11

Joliffe IT. 2002. Principle Component
Analysis. Aberdeen: Springer.
Leon SJ. 1998. Linear Algebra with
Applications Ed ke-5. Dartmouth:
University of Massachusetts.
Lim R. 2002. Pengenalan Karakter Tulisan
Tangan Menggunakan Ekstraksi Ciri PCA
dan LDA. Surabaya: Universitas Kristen
Petra.
Mitchell T. 1997. Machine Learning. New
York: McGraw-Hill.
Otsu N. 1979. A threshold selection method
from gray-level histograms. IEEE
Transactions on Systems, Man, and

Cybernetics 9:62-66.
Pakin S. 2009. The Comprehensive LaTeX
Symbol List. http://www.ctan.org/ [5 Mar
2012].
Smith LI. 2002. A Tutorial on Principal
Component Analysis. New York: Cornell
University.

LAMPIRAN

13

Lampiran 1 Daftar bentuk-bentuk umum dan kombinasi tetangga yang bersesuaian

Kelompok 1
Piksel dan tetangga-tetangga yang bersesuaian
110
100
110
110
111
110
110
110
110
110
100
110
110
111
110
Kelompok 2

Piksel dan tetangga-tetangga yang bersesuaian
011
011
111
111
011
011
011
111
011
111
011
011
Kelompok 3

Piksel dan tetangga-tetangga yang bersesuaian
011
111
111
111
111
111
111
111
000
000
001
100
Kelompok 4

Piksel dan tetangga-tetangga yang bersesuaian
000
001
010
100
111
111
111
111
110
111
111
111
Kelompok 5

Piksel dan tetangga-tetangga yang bersesuaian
011
111
111
111
111
111
111
111
000
000
001
100

14

Lanjutan

Kelompok 6

000
011
111

Piksel dan tetangga-tetangga yang bersesuaian
001
001
001
011
011
011
111
011
011
111
111
111

011
111
111

Kelompok 7

Piksel dan tetangga-tetangga yang bersesuaian
110
111
111
111
111
110
110
110
110
111
100
000
100
110
110
Kelompok 8

Piksel dan tetanggatetangga yang
bersesuaian
011
011
111
111
100
110
Kelompok 9

Piksel dan tetangga-tetangga yang
bersesuaian
100
110
110
111
111
111
011
001
011
Kelompok 10

011
011
001

Piksel dan tetangga-tetangga yang bersesuaian
011
111
111
111
111
011
011
011
001
000
001
011

111
111
011

15

Lanjutan

Kelompok 11

Piksel dan tetangga-tetangga yang bersesuaian
000
100
100
110
110
110
110
110
110
111
111
110
111
111
111
Kelompok 12

Piksel dan tetangga-tetangga yang
bersesuaian
000
000
000
010
110
111
110
110
110
Kelompok 13

Piksel dan tetanggatetangga yang
bersesuaian
000
000
011
011
011
111
Kelompok 14

Piksel dan tetangga-tetangga yang
bersesuaian
110
110
111
110
111
110
000
000
000
Kelompok 15

Piksel dan tetangga-tetangga yang
bersesuaian
001
011
011
011
011
111
000
000
000

16

Lanjutan

Kelompok 16

Piksel dan tetangga-tetangga yang bersesuaian
000
000
000
010
010
011
110
111
111
111
111
111

Kelompok 17

Piksel dan tetanggatetangga yang
bersesuaian
111
111
010
111
000
010
Kelompok 18

Piksel dan tetangga-tetangga yang
bersesuaian
100
110
110
110
110
111
100
100
110
Kelompok 19
Piksel dan tetangga-tetangga yang bersesuaian
001
001
011
011
011
011
011
011
111
111
001
011
001
001
011

17

Lampiran 2 Pengelompokan khusus dalam klasifikasi huruf

Anggota Kelompok

Bentuk

A Latin Kapital

A

Alpha Yunani Kapital

A

B Latin Kapital

B

Beta Yunani Kapital

B

C Latin Kapital

C

C Latin Kecil

c

X Latin Kapital

X

Chi Yunani Kapital

X

E Latin Kapital

E

Epsilon Yunani Kapital

E

H Latin Kapital

H

Eta Yunani Kapital

H

Contoh Berkas
yang Telah Melalui
Tahap Praproses

18

Lanjutan

Anggota Kelompok

Bentuk

I Latin Kapital

I

Iota Yunani Kapital

I

K Latin Kapital

K

Kappa Yunani Kapital

K

M Latin Kapital

M

Mu Yunani Kapital

M

N Latin Kapital

N

Nu Yunani Kapital

N

O Latin Kapital

O

O Latin Kecil

O

Omicron Yunani Kapital

o

Omicron Yunani Kecil

o

Nol

0

P Latin Kapital

P

Rho Yunani Kapital

P

Contoh berkas yang
telah melalui tahap
praproses

19

Lanjutan

Anggota Kelompok

Bentuk

T Latin Kapital

T

Tau Yunani Kapital

T

V Latin Kapital

V

V Latin Kecil

v

Y Latin Kapital

Y

Upsilon Yunani Kapital

Y

Z Latin Kapital

Z

Zeta Yunani Kapital

Z

Contoh berkas yang
telah melalui tahap
praproses

20

Lampiran 3 Tabel lengkap penghitungan akurasi

1

FPE
1.1 Dengan toleransi klasifikasi

Nilai K

k=1

k=5

k = 10

k = 30

k = 60

k = 90

Akurasi

26.02%

25.31%

22.83%

18.41%

16.81%

10.80%

1.2 Tanpa toleransi klasifikasi
Nilai K

k=1

k=5

k = 10

k = 30

k = 60

k = 90

Akurasi

23.72%

22.65%

20.88%

16.28%

16.28%

14.34%

2

PCA
2.1 Hitam-putih
2.1.1 Dengan toleransi klasifikasi

Segmen

1

3

6

Persentase

k=1

k=5

k = 10

k = 30

k = 60

k = 90

0.20%

64.96%

60.18%

54.34%

38.23%

28.67%

22.83%

0.40%

62.65%

58.41%

52.39%

40.00%

29.20%

23.89%

0.60%

57.88%

53.27%

50.09%

39.29%

26.55%

21.24%

0.80%

49.38%

47.61%

47.61%

36.46%

23.54%

20.53%

1.00%

31.68%

31.50%

34.87%

31.50%

22.30%

18.41%

0.20%

63.01%

59.29%

53.98%

36.81%

26.37%

21.59%

0.40%

63.89%

61.06%

53.98%

38.23%

27.79%

23.54%

0.60%

64.78%

60.88%

56.11%

38.41%

27.08%

23.01%

0.80%

66.37%

62.65%

55.58%

36.81%

28.14%

23.54%

1.00%

68.32%

63.01%

56.81%

39.47%

27.79%

23.72%

0.20%

62.65%

59.12%

55.75%

36.11%

26.37%

20.18%

0.40%

61.77%

60.00%

53.45%

37.70%

27.79%

22.83%

0.60%

64.42%

61.06%

55.40%

39.29%

26.73%

23.54%

0.80%

65.66%

61.24%

55.93%

39.65%

29.56%

23.01%

1.00%

64.25%

59.82%

53.98%

39.47%

29.91%

22.48%

21

Lanjutan

2.1.2 Tanpa toleransi klasifikasi
Segmen

1

3

6

Persentase

k=1

k=5

k = 10

k = 30

k = 60

k = 90

0.20%

57.70%

53.98%

48.85%

38.41%

39.65%

45.13%

0.40%

56.46%

50.97%

47