27
2.8.1. Ekstraksi Ciri
Tujuan dari proses ekstraksi ciri adalah mendefinisikan sifat dari setiap karakter feature yang tidak jelas karena pengukuran yang tidak sempurna. Yang
dibutuhkan adalah kelas karakter yang berupa prototipe atau himpunan contoh yang sudah ada. Proses mengekstrak ciri berarti mencari sifat pola atribut dari setiap
kelas. Contoh ciri gobal berupa jumlah lubang dalam karakter, jumlah lekukan pada bagian luar, dan jumlah tonjolan. Sedangkan contoh ciri lokal adalah posisi relatif
dari posisi akhir garis, perpotongan garis dan sudut-sudut. Ciri-ciri yang bagus memiliki karakteristik antara lain:
a. Membedakan discrimination, yaitu ciri tersebut harus mampu membedakan
suatu obyek dengan obyek dari kelas yang berbeda. b.
Dapat dipercaya Reliability, yaitu ciri harus dapat dipercaya untuk semua obyek dalam kelompok yang sama.
c. Tidak Terikat Independent, yaitu setiap komponen ciri tidak memiliki korelasi
yang tinggi dengan komponen ciri lainnya. d.
Jumlah ciri sedikit small number, karena apabila ciri yang dipakai banyak dimungkinkan akan terjadi adanya korelasi yang tinggi antar ciri yang akan
mengakibatkan penurunan unjuk kerja sistem secara keseluruhan. Terdapat banyak cara untuk memperoleh sifat dari suatu karakter. Salah satu
cara yang dapat dipakai adalah dengan mencari sifat dari sekelompok bagian karakter, selanjutnya disebut dengan unit, berdasarkan pada informasi yang
tersimpan dalam unit tersebut. Sifat ini ditandai dengan sebuah angka. Secara garis besar salah satu cara yang dapat dilakukan untuk mengekstrak fitur adalah :
28
a. Sebuah citra karakter dibagi menjadi 3 x 3 bagian sehingga menjadi 9 bagian
yang disebut dengan unit. b.
Setiap unit dalam keseluruhan citra akan dicari banyaknya piksel obyek.
Gambar 2.13 Ilustrasi perhitungan ciri karakter Jawa: tarung
2.8.2. Langkah Klasifikasi
Klasifikasi merupakan tahap pengenalan terhadap suatu obyek. Pada tahap ini obyek dikelompokkan ke dalam suatu kelas tertentu berdasarkan ciri-cirinya.
Pengelompokkan dikatakan berhasil apabila obyek sama dikelompokkan pada kelas yang sama, dan obyek berbeda dikelompokkan pada kelas yang berbeda. Klasifikasi
dapat dilakukan dengan pendekatan statistik, pendekatan alamiah atau pendekatan struktural.
Pendekatan statistik dilakukan dengan mendefinisikan setiap komponen dari feature space
berupa nilai feature atau ukuran yang berupa variabel random yang menggambarkan sifat variabilitas dalam kelas dan antara kelas. Sebuah classifier
akan membagi feature space ke dalam daerah-daerah yang berhubungan dalam setiap kelas. Contoh klasifikasi yang menggunakan pendekatan statistik adalah dengan
jarak tangen dan model Bayesian. Pendekatan alamiah yang biasa digunakan adalah pencocokan template.
Piksel secara individu diperlakukan sebagai feature. Kesamaan pola dinyatakan dengan mendefinisikan ukuran jarak. Kelas template yang memiliki jumlah
11 5
6 1
6 4
7 7
6
29
kesesuaian maksimum kemudian dipilih sebagai kelas dari pola tes. Pendekatan ini disebut dengan pendekatan korelasi maksimum. Di samping itu terdapat pendekatan
minimum kesalahan yang akan memilih kelas template yang memiliki jumlah minimum ketidaksesuaian sebagai kelas dari pola tes. Aturan K-nearest neighbour
adalah aturan yang biasa digunakan untuk mencari kedekatan pola. Pencocokan template akan efektif jika variasi dalam kelas hanya memuat sedikit noise dan pola
tes sudah bebas dari noise. Contoh klasifikasi dengan pencocokan template adalah feature point extraction
Brown, 2000. Pendekatan struktural menyatakan pola karakter dengan cara yang sederhana
dengan menyatakan hubungan antara struktur yang ada. Misal untuk menyatakan karakter A maka dikatakan terdiri dari dua garis lurus yang bertemu pada titik akhir
di atas, serta garis ketiga berada di tengah-tengah dan membuat lubang. Contoh klasifikasi dengan pendekatan struktural adalah pendekatan neural network dengan
binary tree. Salah satu metode untuk melakukan klasifikasi dengan pendekatan alamiah
dilakukan dengan cara sebagai berikut: a.
Nilai setiap unit pada lokasi yang bersesuaian dari karakter yang akan dikenali dibandingkan dengan nilai setiap unit karakter yang terdapat dalam basis data.
Perbandingan ini dilakukan dengan menggunakan modifikasi dari jarak Euclide. Jarak Euclide
D
e
p,qdari dua piksel p,q, dengan koordinat masing-masing di titik
x,y,dan s,t, didefinisikan sebagai berikut: Dep,q =
x-s
2
+ y-t
2 ½
2.15 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
30
i j
Dari rumus 2.15 di atas kemudian dilakukan modifikasi rumus untuk mendapatkan jarak antara dua buah fitur karakter yang dibagi dalam 8 unit
karakter. Apabila terdapat dua buah fitur karakter a,b dengan banyak unit
sembilan 9, maka jarak D
f
a,b antara dua buah fitur tersebut dapat
didefinisikan sebagai berikut: D
f
a,b =
Σ Σ
|a
ij
– b
ij
| 2.16
di mana i, j berjalan dari 1 sampai dengan 3. b. Dicari jarak yang paling minimum dari nilai-nilai hasil perbandingan pada
langkah satu. Jarak yang paling minimum dan masih di bawah batas atas nilai jarak yang diperbolehkan akan dipilih sebagai karakter yang paling mendekati
karakter yang akan dikenali tersebut. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
31
BAB III PERANCANGAN SISTEM
Seperti yang telah dijelaskan pada bab pendahuluan sebelumnya, maka tujuan dari penelitian adalah untuk merancang dan membangun suatu aplikasi perangkat
lunak yang mampu melakukan pengenalan citra dokumen buku sastra jawa ke dalam format teks Latin secara otomatis. Ilustrasi tujuan umum dari sistem ini dapat dilihat
pada gambar 3.1.
Gambar 3.1 Gambaran Umum Tujuan Sistem
3.1 Spesifikasi Sistem
Sistem untuk melakukan konversi dari citra dokumen ke dalam teks dibedakan menjadi dua bagian, yaitu: Sistem Pembuat Basis Data SPBD dan
Sistem Pengenalan Citra Dokumen SPCD. Sistem pembuat basis data dipergunakan
Proses Input:
Output: