Pengenalan Aksara Jawa Tulisan Tangan dengan Menggunakan Ekstraksi Fitur Zoning dan Klasifikasi K-Nearest Neighbour

PENGENALAN AKSARA JAWA TULISAN TANGAN
DENGAN MENGGUNAKAN EKSTRAKSI FITUR ZONING
DAN KLASIFIKASI K-NEAREST NEIGHBOUR

RIZKINA MUHAMMAD SYAM

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*
Dengan ini saya menyatakan bahwa skripsi berjudul Pengenalan Aksara
Jawa Tulisan Tangan dengan Menggunakan Ekstraksi Fitur Zoning dan
Klasifikasi K-Nearest Neighbour adalah benar karya saya dengan arahan dari
komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan
tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang
diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks
dan dicantumkan dalam Daftar Pustaka di bagian akhir disertasi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Juni 2013

Rizkina Muhammad Syam
NIM G64104013

ABSTRAK
RIZKINA MUHAMMAD SYAM. Pengenalan Aksara Jawa Tulisan
Tangan dengan Menggunakan Ekstraksi Fitur Zoning dengan Klasifikasi KNearest Neighbour. Dibimbing oleh MUSHTHOFA.
Berbagai studi mengenai pengenalan aksara tradisional terus dikembangkan
dengan menggunakan berbagai metode. Salah satu contohnya adalah pengenalan
aksara Jawa tulisan tangan. Penelitian ini bertujuan untuk menentukan akurasi
dengan metode ekstraksi ciri Zoning dan Klasifikasi K-Nearest Neighbour. Data
yang digunakan pada penelitian ini adalah aksara Jawa tulisan tangan dari 20
orang berbeda. Masing-masing citra karakter yang ditulis oleh tiap orang diubah
dalam ukuran 120 x 120 pixel dan akan menerapkan metode thinning. Ekstraksi
fitur yang digunakan adalah metode Zoning gabungan ICZ-ZCZ dengan jumlah
zona 4, 6, 8, 9, 10, 12, 15, 16, 18, 20 dan 24. K-Nearest Neighbour digunakan
sebagai classifier dengan nilai k meliputi 1, 3, 5 dan 7. Nilai akurasi tertinggi

diperoleh pada 12 zona dengan nilai k = 1 pada K-Nearest Neighbour sebesar
71.5%.
Kata kunci: pengenalan pola, aksara Jawa, K-Nearest Neighbour, Image Centroid
and Zone (ICZ), Zone Centroid and Zone (ZCZ)

ABSTRACT
RIZKINA MUHAMMAD SYAM. Handwritten Javanese Script
Recognition Using Zoning Feature Extraction and K-Nearest Neighbour
Classification. Supervised by MUSHTHOFA.
Various studies on traditional script recognition continued to be developed
using various methods. One of them is handwritten Javanese script recognition.
This research aims to determine the accuracy of the Zoning Feature Extraction
and K-Nearest Neighbour Classification method. The data used in this this
research are handwritten Javanese script from 20 different peoples. Each of
character images will be transformed into 120 x 120 pixels dimension and will
undergo the thinning method. The feature extraction method used is the
combination of the zoning method ICZ-ZCZ with the number of zones are 4, 6, 8,
9, 10, 12, 15, 16, 18, 20 and 24. K-Nearest Neighbour is used as the classifier with
k values are 1, 3, 5 and 7. The highest accuracy was obtained on 12 zones with k =
1 on K-Nearest Neighbour with a value of 71.5%.

Keywords: pattern recognition, Javanese script, K-Nearest Neighbour, Image
Centroid and Zone (ICZ), Zone Centroid and Zone (ZCZ)

PENGENALAN AKSARA JAWA TULISAN TANGAN
DENGAN MENGGUNAKAN EKSTRAKSI FITUR ZONING
DAN KLASIFIKASI K-NEAREST NEIGHBOUR

RIZKINA MUHAMMAD SYAM

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013


Judul Skripsi : Pengenalan Aksara Jawa Tulisan Tangan dengan Menggunakan
Ekstraksi Fitur Zoning dan Klasifikasi K-Nearest Neighbour
Nama
: Rizkina Muhammad Syam
NIM
: G64104013

Disetujui oleh

Mushthofa, SKom, MSc
Pembimbing

Diketahui oleh

Dr Ir Agus Buono, MSi, MKom
Ketua Departemen

Tanggal Lulus:


PRAKATA
Puji dan syukur penulis panjatkan ke hadirat Allah subhanahu wata’ala,
yang telah memberikan nikmat yang begitu banyak, sehingga penulis dapat
menyelesaikan penelitian dan tulisan ini. Shalawat dan salam penulis sampaikan
kepada Nabi Muhammad shallallahu ‘alaihi wasallam, keluarganya, sahabatnya,
serta umatnya hingga akhir zaman. Tulisan ini merupakan hasil penelitian yang
penulis lakukan sejak Agustus 2012 hingga Februari 2013. Tulisan ini mengambil
topik pengenalan pola, dan bertujuan membangun model pengenalan pola karakter
aksara Jawa tulisan tangan.
Tak lupa penulis mengucapkan terima kasih kepada seluruh pihak yang
telah berperan dalam penelitian ini, yaitu:
1
Ayahanda Syamsudin, Ibunda Nanik Hartati, serta Adik Dhani Nur Indra
Syamputra dan Permana Ahmad Syamputra atas kasih sayang, doa,
semangat, dan dorongan kepada penulis agar dapat segera menyelesaikan
penelitian ini.
2
Bapak Mushthofa, SKom, MSc, selaku dosen pembimbing, yang telah
memberikan banyak ide, masukan, dan dukungan kepada penulis.
3

Bapak Aziz Kustiyo, SSi, MKom dan Bapak Toto Haryanto, SKom, MSi,
yang telah bersedia menjadi penguji.
4
Para sahabat: Dedi Kiswanto, Asep Haryono, Leonardo Siagian, sahabat
kontrakan FAT32 (Agung Widyo Utomo, Septiandi Wibowo, Yusrizal Ihya,
Galih Eka, dll) serta teman-teman Ilkom Alih Jenis angkatan 5 yang lain
atas kebersamaannya selama 2.5 tahun ini.
5
Rekan satu bimbingan: Putri Ayu Pramesti, Hafara Fisca, Intan Ayu Octavia
dan Rahmi Juwita Sukma yang telah sharing informasi serta semangat
selama pengerjaan skripsi.
6
Pihak-pihak lain yang tidak dapat penulis sebutkan satu persatu.
Penulis berharap penelitian dan tulisan ini dapat memberikan manfaat untuk
kemajuan masyarakat Indonesia pada umumnya dan masyarakat Jawa pada
khususnya.

Bogor, Juni 2013

Rizkina Muhammad Syam


DAFTAR ISI
DAFTAR TABEL
DAFTAR GAMBAR
DAFTAR LAMPIRAN
PENDAHULUAN
Latar Belakang
Tujuan Penelitian
Ruang Lingkup Penelitian
TINJAUAN PUSTAKA
Aksara Jawa
Algoritme Thinning
Metode Ekstraksi Ciri Zoning
K-Nearest Neighbour
METODE PENELITIAN
Pengumpulan Data Citra
Praproses Data
Ekstraksi Ciri
K-Fold Cross Validation
K-Nearest Neighbour (KNN)

Analisis dan Evaluasi
Lingkungan Penelitian
HASIL DAN PEMBAHASAN
Pengumpulan Data Citra
Praproses Data
Ekstraksi Ciri
K-Nearest Neighbour
Analisis Hasil
SIMPULAN DAN SARAN
Simpulan
Saran
DAFTAR PUSTAKA
LAMPIRAN
RIWAYAT HIDUP

vi
vi
vi
1
1

2
2
2
2
3
3
4
4
5
5
6
7
7
7
8
8
8
9
9
10

11
15
15
16
16
17
26

DAFTAR TABEL
1
2
3
4
5
6
7
8

Pembagian fold pada 5-fold Cross Validation
Daftar ukuran data hasil ekstraksi ciri

Akurasi tiap zona dengan KNN untuk nilai k = 1
Akurasi tiap zona dengan KNN untuk nilai k = 3
Akurasi tiap zona dengan KNN untuk nilai k = 5
Akurasi tiap zona dengan KNN untuk nilai k = 7
Perbandingan akurasi terbaik tiap k
Nilai rata-rata akurasi tiap zona

7
10
11
11
12
12
13
13

DAFTAR GAMBAR
1
2
3
4
5
6
7
8

Huruf dasar aksara Jawa
Pixel ketetanggaan
Skema metode penelitian
Ilustrasi ekstraksi fitur ICZ-ZCZ zona
Contoh formulir pengambilan data
Praproses citra
Perbandingan nilai akurasi tiap zona
Contoh hasil praproses citra sebelum segmentasi pada penelitian
Wibowo (2012)

2
3
5
6
8
10
14
15

DAFTAR LAMPIRAN
1 Gambar citra hasil akuisisi dari responden
2 Tabel Confusion matrix untuk pada zona 12 dengan k = 1
3 Contoh perbandingan kemiripan antarkarakter aksara Jawa

17
22
23

PENDAHULUAN
Latar Belakang
Sistem pengenalan pola (pattern recognition) merupakan konsep keilmuan
yang telah dikembangkan bertahun-tahun. Pengenalan pola adalah disiplin ilmu
yang bertujuan mengklasifikasikan objek dalam banyak kategori atau kelas.
Pengenalan pola juga merupakan bagian penting dalam banyak sistem cerdas yang
dibangun untuk membantu dalam pengambilan keputusan (Theodoridis dan
Koutroumbas 2008).
Optical Character Recognition (OCR) merupakan salah satu bentuk
pengenalan pola yang dapat mengenali karakter pada media tertentu, baik yang
bersifat on-line maupun off-line. Tujuan dari pengenalan karakter ini adalah untuk
menerjemahkan karakter yang dikenal manusia agar bisa dikenal oleh sistem
komputer. Alur kerja dari OCR terdiri atas 5 tahapan, yaitu: proses input citra,
praproses, segmentasi, ekstraksi ciri, dan klasifikasi serta hasil pengenalan citra
(Sinha et al. 2012).
Pengenalan pola dapat digunakan untuk mengenali tulisan tangan maupun
tulisan dalam bentuk cetakan, baik tulisan aksara Latin maupun aksara non-Latin
seperti yang dilakukan oleh Rajashekararadhya dan Ranjan (2008). Salah satu
bentuk tulisan dengan aksara non-Latin adalah tulisan dengan menggunakan
aksara Jawa.
Aksara Jawa merupakan khazanah budaya yang telah diwariskan secara
turun-temurun oleh nenek moyang masyarakat suku Jawa. Aksara Jawa ini juga
telah menjadi disiplin ilmu yang wajib disertakan pada pelajaran bahasa Jawa dari
tingkat dasar (SD) sampai menengah (SMA) terutama di daerah Jawa Tengah,
Jawa Timur dan Yogyakarta. Untuk lebih mempertegas eksistensi aksara Jawa,
beberapa daerah turut menyertakan penulisan dalam aksara Jawa untuk
mendeskripsikan nama jalan, nama tempat, serta fasilitas publik lainnya.
Namun, tidak semua orang dapat membaca tulisan dalam aksara Jawa,
terutama bagi para warga pendatang dan turis. Hal ini disebabkan bentuk karakter
pada aksara Jawa berbeda dengan karakter pada aksara Latin. Oleh karena itu,
untuk mempermudah dalam pengenalan aksara Jawa diperlukan sebuah sistem
komputer yang dapat membaca dan dan mengenali tulisan dengan aksara Jawa,
terutama dalam bentuk tulisan tangan.
Penelitian mengenai pengenalan aksara tradisional telah banyak dilakukan.
Salah satu penelitian yang terkait yaitu penelitian yang dilakukan oleh Wibowo
(2012) tentang pengenalan aksara Jawa tulisan tangan menggunakan Fuzzy
Feature Extraction dengan metode Jaringan Syaraf Tiruan Propagasi Balik
dengan akurasi mencapai 84.1%. Mulia (2012) juga telah melakukan penelitian
tentang pengenalan karakter aksara Sunda tulisan cetak dengan menggunakan
metode klasifikasi Support Vector Machine (SVM). Akurasi terbaik terdapat pada
ekstraksi fitur gabungan ICZ dan ZCZ dengan akurasi mencapai 93.99%.
Mengacu pada penelitian yang telah dilakukan oleh Rajashekararadhya dan
Ranjan (2008) serta Mulia (2012), penelitian ini dilakukan dengan menggunakan
ekstraksi fitur Zoning gabungan ICZ dan ZCZ dengan K-Nearest Neighbour
(KNN) sebagai classifier-nya. Dalam penelitiannya, Rajashekararadhya dan

2
Ranjan (2008) memperoleh tingkat pengenalan karakter tulisan tangan Kannada,
Tamil, Telugu, dan Malayalam sebesar 90% dengan menggunakan ekstraksi fitur
gabungan ICZ-ZCZ dengan proses klasifikasi menggunakan Jaringan Syaraf
Tiruan (JST) dan KNN.
Tujuan Penelitian
1

2

Tujuan dari penelitian ini adalah:
Menerapkan teknik pengenalan pola untuk karakter aksara Jawa tulisan
tangan menggunakan ekstraksi fitur Zoning dengan metode klasifikasi KNearest Neighbour (KNN).
Menentukan nilai akurasi dari metode yang digunakan.
Ruang Lingkup Penelitian

1
2
3

Ruang lingkup dari penelitian ini sebagai berikut:
Karakter aksara Jawa yang digunakan dalam penelitian adalah huruf dasar
(aksara nglegena atau aksara carakan) tunggal.
Model yang akan dikembangkan hanya mengenali pola aksara Jawa dalam
bentuk tulisan tangan yang tegak (tidak miring).
Ekstraksi fitur zoning yang digunakan adalah gabungan ICZ-ZCZ.

TINJAUAN PUSTAKA
Aksara Jawa
Huruf-huruf dalam aksara Jawa dibagi dalam beberapa jenis, antara lain
huruf dasar (aksara carakan/nglegena) yang merupakan huruf utama dan terdiri
atas 20 karakter seperti pada Gambar 1.

Gambar 1 Huruf dasar aksara Jawa
Selain itu, aksara Jawa juga memiliki jenis huruf yang lain, antara lain huruf
pasangan (aksara pasangan) yang berjumlah 20 huruf, huruf kapital (aksara
murda) yang berjumlah 7 huruf, huruf vokal mandiri (aksara swara) sebanyak 5
huruf, huruf vokal tidak mandiri (aksara sandhangan) yang berjumlah 9 huruf,

3
huruf bilangan (aksara wilangan) yang berjumlah 10 huruf, serta huruf tambahan
(aksara rekan) yang berjumlah 7 huruf.
Algoritme Thinning
Thinning adalah proses morfologi citra yang mengubah bentuk asli citra
biner menjadi citra yang menampilkan batas-batas objek atau foreground dengan
ketebalan hanya 1 pixel. Algoritme thinning secara iteratif akan mengubah nilai
pixel pada citra biner dari 0 ke 1 sampai terpenuhinya suatu keadaan ketika satu
himpunan dari lebar per unit (satu pixel) terhubung menjadi satu garis (Zurnawita
dan Suar 2009). Setiap iterasi dari metode ini terdiri atas dua sub-iterasi yang
berurutan yang dilakukan terhadap contour points dari wilayah citra. Contour
point adalah setiap pixel dengan nilai 1 dan memiliki setidaknya satu 8-neighbour
yang memiliki nilai 0. Contoh pixel ketetanggaan terlihat pada Gambar 2.
p9

p2

p3

p8

p1

p4

p7

p6

p5

Gambar 2 Pixel ketetanggaan
Langkah pertama dari metode ini adalah menandai contour point p untuk
dihapus jika memenuhi kondisi seperti berikut :
1
2 ≤ N(p1) ≤ 6
N(p1) merupakan jumlah tetangga dari p1 yang tidak 0, yaitu :
N(p1) = p2 + p3 + … + p8 + p9
2
S(p1) = 1
S(p1) adalah jumlah transisi 0-1 pada urutan p2, p3, … , p8, p9.
3
p2 . p4 . p6 = 0
Hasil perkalian antara nilai pixel p2, p4 dan p6 sama dengan 0.
4
p4 . p6 . p8 = 0
Hasil perkalian antara nilai pixel p4, p6 dan p8 sama dengan 0.
Pixel yang telah ditandai tidak akan dihapus sebelum semua border points
selesai diproses. Prosedur penandaan dan penghapusan ini akan dilakukan secara
iteratif sampai tidak ada lagi titik yang dapat dihapus sehingga pada saat algoritme
ini selesai maka akan dihasilkan skeleton dari citra awal.
Metode Ekstraksi Ciri Zoning
Zoning merupakan salah satu metode ekstraksi ciri pada citra karakter.
Secara umum, dengan metode ekstraksi ciri zoning citra akan dibagi menjadi
beberapa zona yang berukuran sama, untuk kemudian dari setiap zona akan
diambil cirinya. Seperti yang disebutkan oleh Rajashekararadhya dan Ranjan
(2008), ada beberapa variasi algoritme untuk metode ekstraksi ciri zoning, yaitu

4
metode ekstraksi ciri ICZ (image centroid and zone), metode ekstraksi ciri ZCZ
(zone centroid and zone), dan metode ekstraksi ciri gabungan (ICZ + ZCZ).
Pendekatan yang dilakukan dalam penelitian ini adalah dengan metode
ekstraksi gabungan (ICZ + ZCZ) dengan langkah-langkah sebagai berikut:
1
Hitung centroid dari citra masukan.
2
Bagi citra masukan menjadi n zona yang sama.
3
Hitung jarak antara centroid citra dengan setiap pixel yang ada dalam zona.
4
Ulangi langkah 3 untuk semua pixel yang ada dalam zona.
5
Hitung jarak rata-rata antara titik-titik tersebut.
6
Hitung centroid tiap zona.
7
Hitung jarak antara centroid zona dengan setiap pixel yang ada dalam zona.
8
Ulangi langkah 7 untuk semua pixel yang ada dalam zona.
9
Hitung jarak rata-rata antara titik-titik tersebut.
10 Ulangi langkah 3-9 untuk semua zona secara berurutan.
11 Akhirnya, akan didapatkan 2n ciri untuk klasifikasi dan pengenalan.

K-Nearest Neighbour
K-Nearest Neighbour (KNN) merepresentasikan setiap data sebagai titik
dalam k-ruang dimensi. Jika ada sebuah data uji maka akan dihitung kedekatan
titik data lainnya pada data latih untuk diklasifikasikan berdasarkan kedekatannya
yang didefinisikan dengan ukuran jarak. Fungsi jarak yang umumnya digunakan
adalah jarak Euclidean yang direpresentasikan dalam persamaan sebagai berikut
(Han dan Kamber 2006).

2
� =

=1

Dij merupakan jarak antara vektor pi yang merupakan sebuah titik yang telah
diketahui kelasnya dan qi yang merupakan titik baru yang merepresentasikan data
yang akan dijadikan data uji. Jarak antara vektor dan titik dari data latih akan
dihitung dan diambil k buah vektor terdekat.
Langkah-langkah dalam teknik klasifikasi dengan K-Nearest Neighbour
sebagai berikut :
1
Menentukan parameter k (jumlah tetangga terdekat).
2
Menghitung jarak antara data yang masuk dan semua sampel latih yang
sudah ada dengan metode Euclidean Distance.
3
Menentukan k label data yang mempunyai jarak yang minimal.
4
Mengklasifikasikan data baru ke dalam label data yang mayoritas.

METODE PENELITIAN
Skema penelitian yang akan dilakukan seperti pada Gambar 3. Tahapantahapannya yaitu pengumpulan data citra, praproses citra, ekstraksi ciri,
klasifikasi, pengujian, dan analisis serta evaluasi hasil.

5
Mulai

Pengumpulan Data Citra

Citra Aksara
(400 data)

Praproses
Citra

Ekstraksi Ciri

Data
Uji

Data
Latih

Pengujian

K-NN
Analisis dan Evaluasi

Selesai

Gambar 3 Skema metode penelitian
Pengumpulan Data Citra
Data citra yang akan digunakan selama penelitian dikumpulkan pada
tahapan ini. Data citra diambil dari 20 orang berbeda yang sebelumnya pernah
mempelajari aksara Jawa. Setiap responden akan menuliskan setiap karakter
aksara Jawa dasar (nglegena) yang berjumlah 20 karakter pada selembar formulir
yang telah disediakan.
Praproses Data
Agar citra dapat diekstraksi dan dilakukan pengenalan pola, maka perlu
dilakukan tahapan praproses terlebih dahulu. Metode praproses yang digunakan
meliputi:
1
Melakukan proses binerisasi (mengubah citra RGB atau grayscale menjadi
citra biner) dengan nilai threshold tertentu, yakni 0.5 serta mengubah nilai
pixel dari citra menjadi 0 dan 1.
2
Melakukan restorasi citra dengan membuang noise dengan metode 8connected. Metode ini digunakan untuk mengantisipasi ukuran noise citra
yang cukup besar yang berasal dari noda spidol maupun debu yang
menempel saat proses scan. Metode 8-connected merupakan metode
segmentasi pada setiap pixel dengan melakukan pengecekan keterhubungan
dengan 8 pixel tetangganya.

6
3
4
5

Memotong (cropping) bagian karakter dari citra karena hanya bagian
karakter saja yang akan diproses, sementara bagian latar akan dibuang.
Mengubah dimensi dari citra aksara dalam ukuran 120 x 120 pixel.
Melakukan proses thinning untuk mendapatkan kerangka inti dari citra
karakter.
Ekstraksi Ciri

Tahapan ini dilakukan untuk mendapatkan fitur yang menjadi ciri dari setiap
karakter aksara Jawa. Fitur tersebut nantinya akan dijadikan acuan dalam proses
klasifikasi dan pengenalan pola. Pendekatan yang digunakan dalam penelitian ini
adalah ekstraksi fitur gabungan Image Centroid and Zone dan Zone Centroid and
Zone (ICZ - ZCZ). Ilustrasi mengenai ekstraksi fitur ICZ-ZCZ dapat dilihat pada
Gambar 4.
Sebelum memulai tahapan ini, citra yang akan diolah harus memiliki
dimensi yang sama besar. Setelah itu, dihitung nilai centroid citra dengan rumus
seperti berikut:
=

( 1. 1 +
( 1 +

=

( 1. 1 +
( 1 +

dengan:
xc = centroid koordinat x
xc = centroid koordinat y
xn = koordinat x dari pixel ke-n

+ …+ �
2 + … + �)

2 2

+ …+ �
2 + … + �)

2 2

�)
�)

xn = koordinat x dari pixel ke-n
pn = Nilai pixel ke-n

Gambar 4 Ilustrasi ekstraksi fitur ICZ-ZCZ zona
Dari Gambar 4, setelah centroid dari citra diperoleh, lalu citra input dibagi
kedalam sejumlah area yang sama besar (z1, z2, .., zn). Selanjutnya, dicari jarak
antara centroid citra dengan koordinat pixel dalam tiap zona dengan menggunakan

7
metode Euclidean Distance (d1, d2, .., dn) dan dihitung rata-rata jarak antar titik
tersebut.
Tahapan selanjutnya adalah menghitung centroid tiap zona dengan masingmasing pixel pada citra (D1, D2, .. Dn) lalu menghitung jarak rata-rata pixel yang
ada pada masing-masing zona tersebut sehingga akan diperoleh 2 nilai fitur untuk
tiap zona (f1, f2, …, fn).
K-Fold Cross Validation
Data yang sudah melalui proses ekstraksi ciri kemudian akan dibagi menjadi
data latih dan data uji dengan menggunakan k-fold cross validation. Nilai k yang
digunakan adalah 5 sehingga akan diperoleh 5 buah fold, yaitu fold1, fold2, fold3,
fold4, dan fold5. Pembagian fold terlihat seperti pada Tabel 1.
Tabel 1 Pembagian fold pada 5-fold Cross Validation

Fold 1
Fold 2
Fold 3
Fold 4
Fold 5

s1
Uji
Latih
Latih
Latih
Latih

s2
Latih
Uji
Latih
Latih
Latih

s3
Latih
Latih
Uji
Latih
Latih

s4
Latih
Latih
Latih
Uji
Latih

s5
Latih
Latih
Latih
Latih
Uji

Keterangan : s1 - s5 = subset 1 sampai 5

K-Nearest Neighbour (KNN)
Proses klasifikasi dengan KNN dilakukan menggunakan data latih hasil
ekstraksi ciri yang sebelumnya sudah dibagi menggunakan k-fold crossvalidation. Dalam melakukan pelatihan dan pengujian data, karakter akan diambil
satu persatu dari kumpulan citra yang ada. Jumlah kelas yang ada dalam
pengenalan aksara Jawa ini yaitu 20 kelas.
Dalam proses klasifikasi sebelumnya harus ditentukan dahulu nilai k, yaitu
jumlah tetangga terdekat yang akan dilihat kelasnya untuk menentukan kelas
terbanyak yang merupakan kelas dari titik baru. Nilai k akan sangat berpengaruh
pada akurasi hasil klasifikasi. Nilai k yang akan dicobakan pada penelitian ini
adalah 1, 3, 5, dan 7.
Analisis dan Evaluasi
Tahapan ini merupakan tahapan terakhir dalam mengevaluasi kelebihan
serta kekurangan dari metode yang digunakan. Hal ini terlihat dari hasil
perbandingan antara hasil klasifikasi citra aksara Jawa dengan citra aksara Jawa
asli. Proses perhitungan akurasi hasil klasifikasi menggunakan rumus berikut:

8
� �

=



��



100%

Dengan :
ΣNbenar : jumlah citra yang tepat terklasifikasi
ΣN
: jumlah citra yang ada
Lingkungan Penelitian
Lingkungan yang digunakan untuk penelitian ini memiliki spesifikasi
sebagai berikut:
Perangkat keras:

Processor Intel Dual Core 2,31 GHz.

Memory RAM dengan kapasitas 2 GB.

Harddisk dengan kapasitas 250 GB.
Perangkat lunak:

Sistem Operasi Microsoft Windows 7 Ultimate Service Pack 2 32-bit

MATLAB R2008b.

HASIL DAN PEMBAHASAN
Pengumpulan Data Citra
Data yang digunakan dalam penelitian ini didapat dari hasil penyebaran
formulir yang dilakukan ke 20 responden yang pernah mempelajari aksara Jawa.
Responden akan diminta untuk mengisi formulir tersebut dengan menuliskan 20
aksara Jawa dasar (aksara nglegena) dengan menggunakan sebuah spidol kecil
berwarna hitam. Kertas yang digunakan adalah kertas A4 80 gram dengan dimensi
area penulisan tiap karakter sebesar 2.16 x 3.23 cm. Contoh formulir pengambilan
data terlihat pada Gambar 5, sedangkan data seluruh formulir pengambilan data
serta satu contoh formulir berukuran satu halaman penuh tercantum pada
Lampiran 1.

Gambar 5 Contoh formulir pengambilan data

9
Setelah semua formulir telah terisi dan terkumpul, formulir-formulir
tersebut diubah menjadi data citra digital dengan melakukan proses scanning
dengan menggunakan scanner. Kemudian, citra hasil scan tersebut dipotong
untuk diambil citra hurufnya saja sehingga dari tiap responden akan didapat 20
citra aksara Jawa.
Praproses Data
Pada tahapan praproses data, data citra yang telah diperoleh dari proses
pengumpulan data akan diubah menjadi citra biner (binerisasi), dibuang noise-nya
(noise removal), dipotong (crop), diubah ukurannya (resize), serta dilakukan
proses thinning.
Data citra aksara yang telah diperoleh sebelumnya harus dibinerisasikan
untuk memastikan bahwa komponen warna yang terdapat pada citra aksara hanya
terdiri atas warna hitam dan putih. Selain itu, nilai pixel citra harus
dikomplemenkan agar bagian karakter pada citra tersebut bernilai 1, sedangkan
pada bagian background bernilai 0.
Citra aksara hasil dari proses pengumpulan data memungkinkan munculnya
noise, baik yang disebabkan dari noda spidol selama proses penulisan aksara Jawa
oleh responden maupun debu yang berasal dari proses scanning. Proses
penghilangan noise menggunakan metode 8-connected. Metode ini dipilih karena
metode median filter tidak bisa digunakan untuk menghilangkan noise yang
berukuran besar. Luas area dari tiap pixel yang terhubung akan dihitung dan
dijadikan satu label. Jika luas sebuah area kurang dari 100 pixel, maka nilai pixel
dari area tersebut akan diubah menjadi 0.
Setelah noise berhasil dibuang, citra tersebut akan dipotong (crop) karena
hanya bagian karakter saja yang akan diproses, sedangkan bagian latar akan
dibuang. Cara memotongnya adalah dengan menentukan batas kanan, kiri, atas
dan bawah dari area karakter yang akan diambil. Setelah itu, elemen citra yang
berada di dalam batas akan diambil sebagai data citra baru.
Setelah dilakukan proses pemotongan, diperoleh citra hasil yang ukurannya
tidak seragam antara satu dengan lainnya. Agar ukurannya sama, maka citra hasil
harus diubah ukurannya menjadi 120 x 120 pixel. Kemudian, akan dilakukan
proses thinning pada citra untuk mendapatkan bentuk kerangka inti dari citra
karakter.
Perbandingan antara citra sebelum dilakukan praproses, saat binerisasi,
pemotongan, pengubahan ukuran, serta thinning ditunjukkan oleh Gambar 6.
Ekstraksi Ciri
Metode ekstraksi ciri yang digunakan adalah ekstraksi ciri zoning gabungan
antara Image Centroid and Zone (ICZ) dan Zone Centroid and Zone (ZCZ).
Jumlah zona yang akan digunakan adalah 4, 6, 8, 9, 10, 12, 15, 16, 18, 20, dan 24
zona.

10

Gambar 6 Praproses citra: (a) Citra sebelum dilakukan praproses, (b) citra
setelah dilakukan binerisasi dan dikomplemenkan, (c) citra setelah
dilakukan pemotongan (cropping), (d) citra setelah dilakukan
pengubahan ukuran (resizing), dan (e) citra setelah dilakukan proses
thinning
Setelah dilakukan ekstraksi ciri dengan menggunakan algoritme gabungan
ICZ dan ZCZ dengan menggunakan ke-11 zona, maka akan diperoleh 11 dataset
yang memiliki ukuran yang berbeda seperti ditunjukkan pada Tabel 2.
Tabel 2 Daftar ukuran data hasil ekstraksi ciri
Jumlah Zona
4
6
8
9
10
12
15
16
18
20
24

Dimensi
2x2
2x3
2x4
3x3
2x5
2x6
3x5
2x8
3x6
2 x 10
3x8

Ukuran Data
400 x 8
400 x 12
400 x 16
400 x 18
400 x 20
400 x 24
400 x 30
400 x 32
400 x 36
400 x 40
400 x 48

K-Nearest Neighbour
Setelah didapatkan data hasil ekstraksi ciri, proses selanjutnya adalah proses
klasifikasi dengan K-Nearest Neighbour (KNN). Data yang akan dijadikan
sebagai data uji akan dibandingkan dengan data latih hasil ekstraksi ciri.
Data yang digunakan sebagai data latih pada KNN sebanyak 320 buah,
sedangkan untuk data uji yang digunakan sebanyak 80 buah. Pembagian data
dilakukan dengan 5-fold cross-validation. Setelah data dibagi menggunakan k-fold

11
cross-validation, dilakukan proses klasifikasi menggunakan KNN dengan nilai k
yang akan diujicobakan adalah 1, 3, 5, dan 7.
Analisis Hasil
Untuk KNN dengan k = 1
Nilai akurasi dengan k = 1 pada KNN untuk setiap zona yang digunakan
terlihat pada Tabel 3. Dari Tabel 3 terlihat bahwa nilai akurasi tertinggi pada k =
1terdapat pada zona 12 dengan nilai akurasi mencapai 71.50%.
Tabel 3 Akurasi tiap zona dengan KNN untuk nilai k = 1
Jumlah Zona
4
6
8
9
10
12
15
16
18
20
24

Nilai Akurasi (dalam %)
54.50
60.25
58.25
61.50
70.00
71.50
61.50
65.75
64.50
68.00
55.75

Untuk KNN dengan k = 3
Nilai akurasi pada KNN dengan k = 3 untuk setiap zona yang digunakan
terlihat pada Tabel 4. Dari Tabel 4 terlihat bahwa nilai akurasi tertinggi pada k = 3
terdapat pada zona 12 dengan nilai akurasi yang diperoleh mencapai 69.75%.
Tabel 4 Akurasi tiap zona dengan KNN untuk nilai k = 3
Jumlah Zona
4
6
8
9
10
12
15
16
18
20
24

Nilai Akurasi (dalam %)
56.00
61.25
58.50
59.75
68.50
69.75
57.50
64.75
64.50
65.50
54.75

12
Untuk KNN dengan k = 5
Nilai akurasi pada KNN dengan k = 5 untuk setiap zona yang digunakan
terlihat pada Tabel 5. Dari Tabel 5 terlihat bahwa nilai akurasi tertinggi pada k = 5
terdapat pada zona 12 dengan akurasi yang diperoleh mencapai 67.00%.
Tabel 5 Akurasi tiap zona dengan KNN untuk nilai k = 5
Jumlah Zona
4
6
8
9
10
12
15
16
18
20
24

Nilai Akurasi (dalam %)
58.25
62.50
60.50
59.75
66.00
67.00
60.75
62.25
62.00
61.50
54.00

Untuk KNN dengan k = 7
Nilai akurasi pada KNN dengan k = 7 untuk setiap zona yang digunakan
terlihat pada Tabel 6. Dari Tabel 6 terlihat bahwa nilai akurasi tertinggi pada k = 7
terdapat pada zona 10 dengan akurasi yang diperoleh mencapai 67.25%.
Tabel 6 Akurasi tiap zona dengan KNN untuk nilai k = 7
Jumlah Zona
4
6
8
9
10
12
15
16
18
20
24

Nilai Akurasi (dalam %)
57.75
59.00
59.00
58.75
67.25
63.50
58.00
60.75
59.50
63.50
55.25

Dari keempat percobaan yang dilakukan pada tiap nilai k pada KNN, nilai
akurasi dari tiap nilai k akan dibandingkan satu sama lain untuk memperoleh nilai
k yang mempunyai rata-rata nilai akurasi terbaik. Perbandingan nilai akurasi untuk
zona terbaik pada setiap nilai k pada KNN terlihat pada Tabel 7.

13
Tabel 7 Perbandingan akurasi terbaik tiap k
Zona
4
6
8
9
10
12
15
16
18
20
24
Rata-rata

k=1
54.50
60.25
58.25
61.50
70.00
71.50
61.50
65.75
64.50
68.00
55.75
62.86

Akurasi (dalam %)
k=3
k=5
56.00
58.25
61.25
62.50
58.50
60.50
59.75
59.75
68.50
66.00
69.75
67.00
57.50
60.75
64.75
62.25
64.50
62.00
65.50
61.50
54.75
54.00
61.89
61.32

k=7
57.75
59.00
59.00
58.75
67.25
63.50
58.00
60.75
59.50
63.50
55.25
60.20

Berdasarkan data pada Tabel 7, nilai rata-rata tertinggi terdapat pada k = 1
dengan nilai akurasi rata-rata mencapai 62.86% dan nilai rata-rata akurasinya
semakin menurun untuk nilai k selanjutnya. Sedangkan secara keseluruhan nilai
akurasi terbaik pada penelitian ini terdapat pada zona 12 dengan nilai k = 1 pada
KNN dengan akurasi mencapai 71.50%.
Analisis Faktor Zona
Nilai rata-rata akurasi yang diperoleh untuk setiap zona yang digunakan dari
semua nilai k pada KNN dalam penelitian ini dapat dilihat pada Tabel 8. Dari
Tabel 8 terlihat bahwa nilai rata-rata akurasi tertinggi terdapat pada zona 10 dan
12 dengan nilai akurasi mencapai 67.938%. Grafik pola perbandingan dari nilai
rata-rata akurasi dapat dilihat pada Gambar 7.
Tabel 8 Nilai rata-rata akurasi tiap zona
Zona
4
6
8
9
10
12
15
16
18
20
24

Rata-Rata Akurasi (dalam %)
56.625
60.750
59.063
59.938
67.938
67.938
59.438
63.375
62.625
64.625
54.938

Akurasi (%)

14
100
90
80
70
60
50
40
30
20
10
0
0

5

10

15

20

25

Jumlah Zona

Gambar 7 Perbandingan nilai akurasi tiap zona
Faktor Kesalahan
Ada beberapa faktor yang dapat menyebabkan akurasi yang diperoleh dari
penelitian ini masih rendah, antara lain dari sisi citra tulisan aksara Jawa yang
meliputi:
1
Citra aksara berupa tulisan tangan lebih bervariasi daripada citra aksara
yang berasal dari tulisan cetak (printed). Hal ini akan berpengaruh terhadap
nilai akurasi karena setiap huruf pada tulisan cetak memiliki tingkat
kemiripan yang lebih tinggi terhadap huruf yang sama dibandingkan pada
aksara Jawa.
2
Pada aksara Jawa, setiap orang memiliki gaya penulisan yang berbeda.
Perbedaan itu dapat dilihat dari kemiringan tulisan, jarak antar kaki tiap
huruf, dan sebagainya.
3
Beberapa karakter dalam aksara Jawa memiliki bentuk yang hampir serupa
dengan karakter lainnya. Hal ini dapat mengakibatkan sebuah karakter
dalam aksara Jawa yang menjadi data uji bisa teridentifikasi ke dalam kelas
yang salah.
Dari tabel confusion matrix yang terdapat pada Lampiran 2, beberapa
karakter aksara Jawa yang diujikan terklasifikasi ke dalam kelas tertentu yang
merupakan kelas yang salah atau bukan kelas aslinya. Karakter aksara Jawa yang
salah tersebut secara bentuk memiliki kemiripan dengan satu atau beberapa aksara
lainnya. Karakter tersebut antara lain:
1
Na (10 data karakter Na teridentifikasi benar) memiliki kemiripan dengan
Ka (4 data karakter Na teridentifikasi ke dalam kelas Ka) dan Da (5).
2
Ca (14) memiliki kemiripan dengan Dha (4).
3
Wa (11) memiliki kemiripan dengan Dha (4).
4
Nga (13) memiliki kemiripan dengan Tha (5).
Sementara itu, karakter yang paling sering terklasifikasi dengan benar adalah
karakter Ya (20) dan Ga (19). Daftar lengkap mengenai analisis perbedaan dari
karakter-karakter yang salah tersebut tercantum pada Lampiran 3.

15
Perbandingan dengan Penelitian Wibowo (2012)
Setelah diperoleh nilai akurasi secara keseluruhan, hasil dari penelitian ini
akan dibandingkan dengan hasil penelitian yang dilakukan Wibowo (2012)
tentang pengenalan huruf Jawa tulisan tangan dengan menggunakan Jaringan
Saraf Tiruan (JST) dengan Fuzzy Feature Extraction. Jika dibandingkan dengan
penelitian tersebut, nilai akurasi yang dihasilkan dari penelitian ini lebih kecil dari
penelitian yang dilakukan oleh Wibowo (2012) tersebut yang mencapai 84.1 %.
Hal ini disebabkan karena penelitian tersebut menggunakan pendekatan berupa
proses segmentasi tiap karakter citra aksara Jawa, sedangkan penelitian ini
menggunakan pendekatan pembagian zona citra karakter. Contoh hasil praproses
citra yang dilakukan oleh Wibowo (2012) sebelum dilakukan proses segmentasi
terlihat pada Gambar 8.

Gambar 8

Contoh hasil praproses citra sebelum segmentasi pada penelitian
Wibowo (2012)

SIMPULAN DAN SARAN
Simpulan
Dari penelitian yang telah dilakukan dalam pengenalan karakter aksara Jawa
ini dapat diambil beberapa kesimpulan sebagai berikut:
1
Metode zoning gabungan ICZ dan ZCZ dengan KNN sebagai classifier
dapat diimplementasikan dalam pengenalan karakter aksara Jawa tulisan
tangan.
2
Klasifikasi KNN dengan nilai k = 1 memiliki rata-rata hasil pengenalan yang
lebih baik dibandingkan dengan k yang bernilai 3, 5, dan 7.
3
Nilai akurasi tertinggi diperoleh pada zona 12 dengan nilai k = 1 pada KNN
dengan nilai akurasi mencapai 71.5%.
4
Dari 11 bentuk zona yang diuji, zona 10 dan 12 memiliki dengan nilai
akurasi rata-rata terbaik sebesar 67.938%.
5
Nilai akurasi tertinggi dari penelitian ini menghasilkan nilai akurasi yang
lebih rendah dibandingkan penelitian yang telah dilakukan oleh Wibowo
(2012) yang mencapai 84.1%.

16
Saran
Beberapa hal yang perlu dikembangkan lebih lanjut dari penelitian ini antara
lain:
1
Melakukan pengenalan aksara Jawa dengan menggunakan metode ekstraksi
ciri dan klasifikasi yang lain (jaringan syaraf tiruan, Support Vector
Machine, Probabilistic Neural Network, dan sebagainya).
2
Mengakomodasi citra aksara Jawa tulisan tangan dengan tanpa
memperhatikan gaya penulisan responden, seperti tingkat kemiringan dan
sebagainya.
3
Melakukan pengembangan dalam sistem yang bersifat mobile sehingga
pengenalan aksara Jawa dapat diterapkan secara langsung di lapangan.

DAFTAR PUSTAKA
Han J, Kamber M. 2006. Data Mining Concepts and Techniques. Ed ke-2. San
Francisco (US): Elsevier.
Mulia I. 2012. Pengenalan aksara Sunda berbasis citra menggunakan Support
Vector Machine [skripsi]. Bogor (ID): Institut Pertanian Bogor.
Rajashekararadhya SV, Ranjan PV. 2008. Efficient zone based feature extraction
algorithm for handwritten numeral recognition of four popular South Indian
scripts. Journal of Theoretical and Applied Information Technology. 4(12):
1171-1181.
Sinha G, Rani A, Dhir R, Rani R. 2012. Zone-Based Feature Extraction
Techniques and SVM for Handwritten Gurmukhi Character Recognition.
International Journal of Advanced Research in Computer Science and
Software Engineering. 2(6): 106:111.
Theodoridis S, Koutroumbas K. 2008. Pattern Recognition. Ed ke-4. Burlington
(US) : Academic Press.
Wibowo A. 2012. Pengenalan huruf Jawa tulisan tangan menggunakan jaringan
saraf tiruan perambatan balik dengan Fuzzy Feature Extraction [skripsi].
Semarang (ID): Universitas Diponegoro.
Zurnawita, Suar Z. 2009. Algoritma Image Thinning. Jurnal Ilmiah Elektron.
1(1): 29-37.

17
Lampiran 1 Gambar citra hasil akuisisi dari responden

18
Lampiran 1 Gambar citra hasil akuisisi dari responden

19
Lampiran 1 Gambar citra hasil akuisisi dari responden

20
Lampiran 1 Gambar citra hasil akuisisi dari responden

21
Lampiran 1 Gambar citra hasil akuisisi dari responden

22
Lampiran 2 Tabel Confusion matrix untuk pada zona 12 dengan k = 1
HASIL KLASIFIKASI
HA NA CA RA KA DA TA SA WA LA PA DHA JA YA NYA MA GA BA THA NGA
HA

14

1

0

0

0

0

1

0

0

0

1

0

0

0

0

1

0

2

0

0

NA

0

10

0

0

4

5

1

0

0

0

0

0

0

0

0

0

0

0

0

0

CA

0

0

14

0

0

0

0

0

1

0

1

4

0

0

0

0

0

0

0

0

RA

0

0

0

17

0

0

0

0

0

0

0

0

0

0

0

0

2

0

0

1

KA

2

1

0

0

15

1

1

0

0

0

0

0

0

0

0

0

0

0

0

0

DA

0

2

0

0

0

15

0

1

0

0

0

2

0

0

0

0

0

0

0

0

TA

0

0

0

0

0

0

18

0

0

0

0

0

0

2

0

0

0

0

0

0

SA

0

1

1

0

0

1

0

15

0

1

1

0

0

0

0

0

0

0

0

0

WA

0

0

1

0

0

0

0

0

11

0

1

4

0

0

0

2

0

1

0

0

LA

0

1

0

0

0

0

1

0

0

16

0

0

0

0

0

2

0

0

0

0

PA

1

0

0

0

0

2

0

1

1

0

11

0

0

0

0

2

0

0

2

0

DHA

0

0

1

0

0

0

0

0

4

0

3

10

0

0

0

0

0

1

0

1

JA

2

0

0

0

0

1

1

1

0

0

0

0

15

0

0

0

0

0

0

0

YA

0

0

0

0

0

0

0

0

0

0

0

0

0

20

0

0

0

0

0

0

NYA

2

0

0

0

0

0

0

0

0

0

0

0

0

0

15

0

0

3

0

0

MA

0

2

2

0

0

0

0

0

0

3

1

0

0

0

0

11

0

1

0

0

GA

0

0

0

1

0

0

0

0

0

0

0

0

0

0

0

0

19

0

0

0

BA

1

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

18

0

1

THA

0

0

2

0

0

1

0

1

0

0

1

2

0

0

0

0

0

1

9

3

NGA

0

0

0

0

0

0

0

0

1

0

0

1

0

0

0

0

0

0

5

13

23
Lampiran 3 Contoh perbandingan kemiripan antarkarakter aksara Jawa
1. Karakter Na dengan Da

Karakter Na yang terklasifikasi Da

Pembagian zona karakter Na

Grafik karakter Na

Karakter Da Benar Terklasifikasi

Pembagian zona karakter Da

Grafik karakter Da

2. Karakter Ca dengan Dha

Karakter Ca yang terklasifikasi Dha

Pembagian zona karakter Ca

Karakter Dha Benar Terklasifikasi

Pembagian zona karakter Dha

24

Grafik karakter Ca

Grafik karakter Dha

3. Wa dengan Dha

Karakter Wa yang terklasifikasi Dha

Pembagian zona karakter Wa

Grafik karakter Wa

Karakter Dha Benar Terklasifikasi

Pembagian zona karakter Dha

Grafik karakter Dha

4. Nga dengan Tha

Karakter Nga yang terklasifikasi Tha

Karakter Tha Benar Terklasifikasi

25

Pembagian zona karakter Nga

Grafik karakter Nga

Pembagian zona karakter Tha

Grafik karakter Tha

26

RIWAYAT HIDUP
Penulis dilahirkan di Sleman, Yogyakarta, pada tanggal 19 Maret 1989.
Penulis merupakan anak pertama dari pasangan Syamsudin dan Asih Sutarti
(alm.). Penulis mengenyam pendidikan di SD Negeri Jajaway 1 Tasikmalaya pada
tahun 1994-1998, SD Negeri Gentan 1 pada tahun 1998-2000, SLTPN 2 Ngaglik
Sleman pada 2000-2003 serta SMA Negeri 4 Kota Yogyakarta pada tahun 20032006. Selanjutnya, penulis melanjutkan studi diploma pada program studi
Komputer dan Sistem Informasi (KOMSI) Universitas Gadjah Mada dan lulus
pada tahun 2009. Pada tahun 2010, penulis diterima di program Alih Jenis Ilmu
Komputer Institut Pertanian Bogor.