PENGENALAN CITRA DOKUMEN SASTRA JAWA KONSEP DAN IMPLEMENTASINYA

Tesis Untuk memenuhi sebagian persyaratan mencapai derajat Sarjana S-2

Program Studi Ilmu Komputer Kelompok Bidang Ilmu Matematika dan Pengetahuan Alam

Diajukan oleh:

Anastasia Rita Widiarti

21189/I-4/1669/04 Kepada

PROGRAM PASCASARJANA UNIVERSITAS GADJAH MADA 2006

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PERNYATAAN

Dengan ini saya menyatakan bahwa dalam tesis ini tidak terdapat karya yang pernah diajukan untuk memperoleh gelar kesarjanaan di suatu Perguruan Tinggi, dan sepanjang pengetahuan saya juga tidak terdapat karya atau pendapat yang pernah ditulis atau diterbitkan oleh orang lain, kecuali yang secara tertulis diacu dalam makalah ini dan disebutkan dalam daftar pustaka.

Yogyakarta,

15 Desember 2005 Anastasia Rita Widiarti

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Tesis ini dipersembahkan kepada: Universitas Sanata Dharma Yogyakarta Universitas Gadjah Mada Yogyakarta Ibu (almarhum). Semoga Tuhan membalas semua kebaikan Ibu dengan memberi kedamaian abadi di surga

Keluarga besarku, utamanya HiKaNaYa

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

KATA PENGANTAR

Syukur yang teramat dalam penulis sampaikan kepada Tuhan Yang Maha Pengasih, sehingga pembuatan tesis yang berjudul: “Pengenalan Citra Dokumen Sastra

Jawa: Konsep dan Implementasinya” ini bisa selesai. Hanya atas perkenanNya maka

tesis ini dapat terwujud.

Tesis ini disusun untuk memenuhi sebagian persyaratan mencapai derajat Sarjana S-2 pada Program Studi Ilmu Komputer, Jurusan Ilmu-Ilmu Matematika dan Pengetahuan Alam, Program Pascasarjana, Universitas Gadjah Mada.

Pada kesempatan ini penulis juga ingin menyampaikan rasa terima kasih kepada semua pihak yang telah memberikan bantuan materi, pikiran, semangat dan doa, yaitu:

1. Bapak Drs. Retantyo Wardoyo, M.Sc., Ph.D., selaku pengelola program S-2 Ilmu Komputer, terima kasih atas bimbingan yang telah diberikan selama menempuh kuliah.

2. Bapak Drs. Agus Harjoko, M.Sc., Ph.D., selaku dosen pembimbing, terima kasih atas kesabarannya dalam membimbing penyelesaian tesis penulis.

3. Seluruh jajaran Yayasan Sanata Dharma dan Rektorat Universitas Sanata Dharma, terimakasih atas kesempatan yang sangat berharga untuk mengikuti studi lanjut ini.

4. Seluruh staff FMIPA USD, baik teman-teman dosen maupun karyawan, yang telah memberi semangat dan kesempatan untuk studi kepada penulis.

5. Mas Widodo (perpustakaan Artati USD), atas bantuannya menterjemahkan tulisan Jawa, serta semua teman karyawan di perpustakaan USD,

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

6. Mas Sugeng, Mbak Rini, dan Mas Endro, atas pelayanan yang telah penulis terima selama menempuh kuliah,

7. Seluruh keluarga besar penulis yang senantiasa mendorong penulis tanpa mengenal putus asa, Mas Antok, semua bulik dan Om, Simbah dan Eyang, serta Tika, Dena dan Alya.

8. Semua teman seperjuangan di S2 Ilkom UGM serta semua teman yang tidak dapat penulis sebut satu persatu yang selalu membawa kasih dan sukacita.

Semoga kebaikan semua pihak menjadi berkat tidak hanya bagi penulis pribadi, namun juga bagi semua yang telah menyalurkan berkat tersebut untuk penulis. Dan semoga tesis ini berguna juga bagi perkembangan ilmu komputer, khususnya bidang pengolahan citra dan budaya jawa.

Penulis senantiasa menyadari bahwa penulisan tesis ini masih belum sempurna, untuk itu segala saran dan kritik yang sifatnya membangun sangat penulis harapkan.

Yogyakarta, 16 Desember 2005 Penulis

DAFTAR ISI KATA PENGANTAR ……………………………………………………...

2.5 Pengurangan Noise ……………………………………….. v vii x x xii xiii xiv

DAFTAR ISI ……………………………………………………………….. DAFTAR TABEL ………………………………………………………….. DAFTAR GAMBAR ………………………………………………………. DAFTAR LAMPIRAN ……………………………………………………..

1.7 Metodologi Penelitian ……………………………………...

INTISARI …………………………………………………………………... ABSTRACT ………………………………………………………………...

BAB 1 PENDAHULUAN ………………………………………………

1.1 Latar Belakang Masalah ……………………………………

1.2 Perumusan Masalah ……………………………………….

1.3 Batasan Masalah …………………………………………...

1.4 Keaslian Penelitian …………………………………………

1.5 Tujuan Penelitian…………………………………………...

1.6 Faedah Penelitian …………………………………………..

1.8 Tinjauan Pustaka …………………………………………...

2.4.1 Metode Otsu ………………………………………..

1.9 Sistematika Penulisan ……………………………………...

BAB 2 LANDASAN TEORI ……………………………………………

2.1 Pengenalan Pola ……………………………………………

2.2 Analisis Citra Dokumen ………..…………………………..

2.2.1 Data Capture ………………………………………..

2.2.2 Pengolahan Tingkat Piksel ………………………….

2.2.3 Analisis Tingkat Fitur ………………………………

2.2.4 Analisis Teks ………………..……………………..

2.3 Normalisasi Terhadap Orientasi …………………………… 2.4 Binarisasi …………………………………………………..

18 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

2.5.1 Titik-Titik Tetangga ………………………………...

2.6

21 Perangkaan …………………………………………………

2.6.1

21 Algoritma Hilditch …………………………….……

2.7 Segmentasi …………………………………………………

24 2.7.1 Histogram Citra …………………………………….

2.7.2

25 Profil Proyeksi ……………………………………… 2.8 Pengenalan Karakter ……………………………………….

26 2.8.1 Ekstraksi Ciri ……………………………………….

2.8.2

28 Langkah Klasifikasi ………………………………..

BAB 3 PERANCANGAN SISTEM ……………………………………

3.1 Spesifikasi Sistem ……………………………………….…

31 3.1.1. Spesifikasi Sistem Pembuat Basis Data …………….

32 3.1.2. Spesifikasi Sistem Pengenalan Citra Dokumen ……..

3.1.3 Proses Pengenalan Citra Karakter Dalam Citra

33 Dokumen …………………….

3.2

33 Desain Sistem ……………………………………………...

3.2.1 Desain Struktur Data ………………………………...

34 3.2.1 Diagram Aliran Data ………………………………...

3.2.1.1 Diagram Aliran Data Sistem Pembuat Basis

35 Data (SPBD) ………………………………..

3.2.1.2 Diagram Aliran Data Sistem Pengenalan

38 Citra Dokumen (SPCD) …………………….

3.2.2 Struktur Program …………………………………..

45 3.2.3 Desain Antar Muka ………………………………..

47 BAB 4 IMPLEMENTASI SISTEM…………………. …………………

4.1

49 Antar Muka Pemakai Sistem ……………………………..

4.1.1 Antar Muka Pemakai Sistem Pembuat Database ….

4.1.2 Antar Muka Pemakai Sistem Pengenal Citra

51 Dokumen …………………………………………..

4.2 Implementasi ……………………………………………..

53 4.2.1 Modul-Modul Utama Sistem Pembuat Basis Data ...

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

4.2.2 Modul-modul Utama Sistem Pengenalan Citra

57 Dokumen ……………………………………………

BAB 5 HASIL DAN PEMBAHASAN …………………………………

72 5.1 Data Masukan ……………………………………………...

72 5.2 Eksekusi Modul-Modul …………………………………….

5.3

83 Analisis Output Pengenalan Karakter ……………………...

BAB 6 KESIMPULAN DAN SARAN …………………………………

92 6.1 Kesimpulan ………………………………………………...

6.2

93 Saran ……………………………………………………….. DAFTAR PUSTAKA ………………………………………………………

94 Lampiran 1. Antar Muka Pemakai Sistem Pengenal Citra Dokumen ……...

96 Lampiran 2. Implementasi Prosedur Dalam Desain Sistem ………..……..

98 Lampiran 3. Data Dokumen Panji Sekar …………………………..……... 122

DAFTAR TABEL Tabel 5.1. Karakteristik File Masukan ……………………………………..

Gambar 2.3. Perputaran citra dengan sudut θ .............................................Gambar 2.2 Langkah-langkah Proses Analisis Dokumen ..........................Gambar 2.1 Hirarki Pemrosesan Dokumen. ...............................................

91 DAFTAR GAMBAR Gambar 1.1 Bagan Proses Analisis Citra Dokumen “Menak Sorangan” ..

Tabel 5.2. Hasil Proses Pengenalan Karakter Dokumen Menak Sorangan I Halaman 3 ..................................................................................…....

Tabel 5.9. Rangkuman Hasil Analisis Output Program ..............................Tabel 5.8. Analisis Output Pengenalan Citra Dokumen Menak Sorangan I Hal. 4..................................................................................................Tabel 5.7. Analisis Output Pengenalan Citra Dokumen Menak Sorangan I Hal. 3..................................................................................................Tabel 5.6. Tabel Karakter Dikenali Dokumen Menak Sorangan I Halaman 4 .........................................................................................Tabel 5.5. Tabel Karakter Dikenali Dokumen Menak Sorangan I Halaman 3 .........................................................................................Tabel 5.4. Hasil Proses Pembentukan Kata .................................................Tabel 5.3. Contoh Sebagian karakter dalam database karakter Jawa ……....

14 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Gambar 2.4. Ilustrasi dari karakter na dengan salt-and-pepper noise ........

Gambar 3.10. DAD Level 2 Proses Filling .................................................Gambar 2.5. Ilustrasi piksel yang mempunyai 8 titik tetangga ..................Gambar 2.12. Profil proyeksi horisontal dan vertikal .................................Gambar 2.6. Contoh citra karakter pra sebelum dan sesudah dikenai thinning .........................................................................................Gambar 2.7. Bagian dari sebuah citra .........................................................Gambar 2.8. Contoh piksel dengan B(PI)<2 dan B(PI)>6 .........................Gambar 2.9. Contoh piksel dengan A(PI) ≠ 1 ............................................Gambar 2.10. Contoh piksel dengan P2=P4=P8=1 atau 0 dan A(P2) = 1 atau

≠ 1 .................................................................................

Gambar 2.11. Contoh piksel dengan P2 = P4 = P8 ≠ 0 atau 0 dan A(P4) = 1 atau

≠ 1 .................................................................................

Gambar 2.13. Ilustrasi perhitungan ciri karakter jawa: Tarung ..................Gambar 3.9. DAD Level 2 Proses Normalisasi Orientasi ..........................Gambar 3.1 Gambaran Umum Tujuan Sistem ............................................Gambar 3.2. Sistem Pengenalan Citra Dokumen ........................................Gambar 3.3 DAD Level 0 Sistem Pembuat Basis Data ..............................Gambar 3.4. DAD Level 1 Sistem Pembuat Basis Data .............................Gambar 3.5. DAD Level 2 Proses Olah Data ............................................Gambar 3.6. DAD Level 0 Sistem Pengenalan Citra Dokumen .................Gambar 3.7. DAD Level 1 Sistem Pengenalan Citra Dokumen .................Gambar 3.8. DAD Level 2 Proses Binarisasi .............................................

42 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Gambar 3.11. DAD Level 2 Proses Segmentasi ........................................

84 DAFTAR LAMPIRAN Lampiran 1. Antar Muka Pemakai Sistem Pengenal Citra Dokumen .............. 96 Lampiran 2. Implementasi Prosedur Dalam Desain Sistem ............................ 98 Lampiran 3. Data Dokumen Panji Sekar .......................................................... 122

Gambar 3.12. DAD Level 2 Proses Pengenalan Karakter ..........................Gambar 5.8. Isi Citra dokumen Menak Sorangan I Halaman 4 ..................Gambar 5.7. Contoh citra karakter hasil akhir proses segmentasi ..............Gambar 5.6. Cuplikan histogram hasil proses profil proyeksi horisontal ...Gambar 5.5. Cuplikan histogram hasil proses profil proyeksi vertikal ......Gambar 5.4. Contoh Tampilan Hasil Proses Thinning ...............................Gambar 5.3. Contoh Tampilan Citra Hasil Normalisasi Orientasi .............Gambar 5.2. Contoh Tampilan Citra Hasil Proses Binarisasi .....................Gambar 5.1. Contoh Citra Dokumen Menak Sorangan halaman 3 (data ke 1) ............................................................................Gambar 4.2. Tampilan Antar Muka Pemakai Sistem Pengenal Citra Dokumen ...............................................................................Gambar 4.1. Tampilan Antar Muka Pemakai Sistem Pembuat Basis DataGambar 3.16. Disain Layar Sistem Pengenalan Citra Dokumen ...............Gambar 3.15. Disain Layar Sistem Pembuat Basis Data ...........................Gambar 3.14. Struktur Program Sistem Pengenalan Citra Dokumen .........Gambar 3.13. Struktur Program Sistem Pembuat Basis Data .....................

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PENGENALAN CITRA DOKUMEN SASTRA JAWA:

KONSEP DAN IMPLEMENTASINYA

Anastasia Rita Widiarti

INTISARI

Di Yogyakarta masih banyak dapat ditemukan naskah-naskah kuno yang merupakan warisan budaya yang tak ternilai harganya. Maka Apabila naskah-naskah tersebut dapat dikonversikan ke dalam format digital, akan banyak manfaat yang bisa diraih.

Penelitian ini mencoba untuk membuat sebuah prototipe sistem pengenalan citra dokumen sastra Jawa. Data masukan untuk sistem diperoleh dari hasil pembacaan dokumen sastra Jawa dengan alat optis, yang kemudian disimpan sebagai file gambar dengan format *.jpg. Selanjutnya dengan mempergunakan berbagai metode untuk pengolahan citra, diperoleh citra karakter Jawa pembentuk citra dokumen masukan. Dengan mempergunakan histogram untuk piksel yang berwarna hitam diperoleh ciri untuk setiap karakter. Ciri ini kemudian disimpan dalam basis data karakter Jawa, untuk kemudian ciri ini dipakai dalam pencocokan ciri apabila terdapat masukan karakter Jawa. Dengan mempergunakan jarak Euclidean akan diperoleh nama-nama Latin setiap karakter Jawa pembentuk citra dokumen.

Dari hasil penelitian menunjukkan bahwa untuk mengenal citra dokumen sastra Jawa, dalam hal ini dokumen “Menak Sorangan I, Bab I, Halaman 3 dan 4” diperoleh prosentase keberhasilan pengenalan sebesar 86.53%. Maka dapat disimpulkan bahwa pemilihan metode-metode yang dipergunakan dalam tahap pengenalan citra dokumen pada penelitian ini relatif sudah baik.

Keyword: Citra dokumen, normalisasi orientasi, binarisasi, noise, perangkaan, seg- mentasi, pengenalan karakter, ekstraksi ciri.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

DOCUMENT IMAGE RECOGNITION OF JAVANESE LITERATURE:

CONCEPTS AND IMPLEMENTATION

by: Anastasia Rita Widiarti

ABSTRACT

In Yogyakarta still often could be found the old texts that were the cultural inheritance that was not appraised him. Then if these texts could be converted in the digital format, would many benefits that could be gained.

This research tried to make a prototype of the document image recognition system to the Javanese literature. The input data was for the system received from results of Javanese reading of the literature document with the implement optic, that afterwards was kept as file the picture with the format *. Jpg. Further by utilizing various methods for the processing of the image, was received by the Javanese character image the framer of the image of the input document. By counting the number pixel the object in each unit from a character image was received by the characteristics of this image. These characteristics were afterwards kept in the Javanese character database, during afterwards these characteristics were used in the verification of the characteristics if being gotten by Javanese character input. By utilizing the modification of the Euclidean distance will be received by the Latin names of each Javanese character the framer of the document image.

From results of the research showed that to know the Javanese image of the literature document, in this case the Menak Sorangan I document and the Panji Sekar document the Map in the page 3 and 4, was received by the percentage of the success of the introduction as big as 86.53%. Then could be concluded that the election of methods that was utilized in the introductory stage to the document image in this research was relative has been good.

Key Word: document image recognition, image processing.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB I PENDAHULUAN

1.1 Latar Belakang Masalah

Salah satu persoalan dalam bidang komputer yang banyak menjadi perhatian adalah analisis citra dokumen (document image analysis). Analisis citra dokumen merupakan ilmu yang membahas tentang algoritma-algoritma dan teknik-teknik yang diterapkan pada citra atau dokumen untuk menghasilkan deskripsi yang dapat dikenali oleh komputer. Analisis citra dokumen muncul karena kebutuhan efisiensi dalam menganalisis sebuah dokumen kertas yang sudah ada. Contoh kasus yang membutuhkan analisis citra dokumen misalnya untuk membaca dokumen tercetak atau dokumen tulisan tangan dan mengubahnya menjadi dokumen digital sehingga kualitasnya dapat diperbaiki atau keberadaannya (umur dokumen) dapat diperpanjang.

Perkembangan ilmu analisis citra dokumen membuka peluang besar untuk dimanfaatkan bagi penyelamatan naskah-naskah kuno yang banyak ditemukan di Yogyakarta dan merupakan warisan budaya yang tak ternilai harganya. Apabila naskah-naskah tersebut dapat dikonversikan ke dalam format digital, akan banyak manfaat yang bisa diraih.

Persoalan muncul karena naskah kuno di Yogyakarta kebanyakan ditulis dengan menggunakan karakter Jawa, sementara komputer umumnya hanya mengenal

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

merepresentasikannya dalam komputer. Mengingat tidak semua orang mengenal karakter Jawa, maka akan lebih bermanfaat lagi apabila kemudian naskah berkarakter Jawa tersebut dapat direpresentasikan pula dengan karakter Latin tanpa kehilangan maknanya.

1.2 Perumusan Masalah

Berdasarkan latar belakang di atas, maka permasalahan yang dapat dirumuskan adalah: a. Bagaimana membaca dan mengubah data masukan berupa hasil scan menjadi sebuah bentuk tertentu yang siap diolah? b. Bagaimana mengimplementasikan algoritma-algoritma yang berkait dengan analisis citra dokumen teks untuk membuat prototipe perangkat lunak yang dapat mengenali masukan sebuah citra dokumen teks yang ditulis dengan mempergunakan karakter Jawa? c. Bagaimana merepresentasikan citra dokumen teks yang memakai model tulisan karakter Jawa yang sudah dikenal tersebut ke dalam dokumen teks yang memakai karakter Latin?

1.3 Batasan Masalah

Dalam penelitian ini ada beberapa pembatasan masalah yang dilakukan, yaitu: a. Proses yang akan dilakukan adalah analisis citra dokumen teks saja

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

c. Citra dokumen diambil dari buku cetakan dengan ketentuan terdapat jarak antar baris d. Masukan hanya berupa satu citra dokumen teks per satu saat.

1.4 Keaslian Penelitian

Sejauh yang penulis ketahui, penelitian yang membahas tentang analisis citra dokumen telah banyak dilakukan, namun implementasinya pada citra dokumen teks yang ditulis dengan mempergunakan karakter Jawa belum ada sebelumnya.

Penelitian ini pada dasarnya meneruskan kerja dari Suprihatin (2003). Bedanya, input program bukan diperoleh dari komputer melainkan dari hasil scan sebuah citra dokumen teks.

1.5 Tujuan Penelitian

Tujuan yang ingin dicapai dalam penelitian ini adalah merancang dan membuat sebuah perangkat lunak yang mampu melakukan analisis citra dokumen teks, sehingga dapat digunakan untuk mengolah sebuah citra dokumen teks yang ditulis dengan mempergunakan karakter Jawa.

1.6 Faedah Penelitian

Manfaat yang diharapkan dari penelitian ini adalah dapat melakukan konversi naskah dari buku sastra jawa ke dalam format teks karakter Latin secara otomatis.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

1.7 Metodologi Penelitian

Penelitian ini dilakukan dengan mempergunakan tahapan proses analisis citra dokumen yang skemanya dapat digambarkan sebagai berikut:

Dokumen Data Binarisasi Filling Thinning Segmentasi Menak

Capture Sorangan Deretan Kata Pembentukan Pengenalan Dalam Huruf Latin Kata Karakter

Gambar 1.1 Bagan Proses Analisis Citra Dokumen “Menak Sorangan”

a. Data Capture Tahap awal dari proses analisis citra dokumen adalah digitalisasi data dokumen dengan mempergunakan alat bantu scan. Hasil digitalisasi disimpan dalam file *.jpg. Selanjutnya dilakukan langkah normalisasi orientasi terhadap file tersebut.

b. Binarisasi Setelah data dalam format digital diperoleh, maka langkah selanjutnya adalah mengubah citra dari citra yang non hitam putih ke dalam citra hitam putih. Di mana warna hitam adalah untuk citranya, dan warna putih adalah warna latar belakang.

c. Filling Hasil dari proses binarisasi sangat mungkin terdapat beberapa noise, contohnya adalah adanya salt and pepper. Agar proses selanjutnya berhasil dengan baik, maka harus dilakukan proses untuk mengurangi noise ini.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

d. Thinning Setelah diperoleh citra yang bebas dari noise, maka selanjutnya dilakukan proses untuk mengurangi komponen citra yang tidak mempunyai arti atau tidak membedakan.

e. Segmentasi Segmentasi adalah proses untuk memisahkan komponen setiap teks yang nantinya akan dipergunakan dalam tahap pengenalan karakter.

f. Pengenalan Karakter Tahap pengenalan karakter bertujuan untuk mengenali setiap karakter yang telah diperoleh sebagai hasil dari segmentasi.

g. Pembentukan Kata Pembentukan kata menjadi tahap terakhir dari keseluruhan proses analisis.

Sebagai keluaran dari tahap ini akan diperoleh deretan kata yang dibentuk dari hasil pengenalan karakter.

Langkah penelitian:

a. Merancang dan membuat program aplikasi Sistem Pengenalan Citra Dokumen Teks Sastra Jawa b. Menguji coba program aplikasi yang telah dibuat.

c. Melakukan analisis terhadap hasil pengujian.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

1.8 Tinjauan Pustaka

Penelitian dan tulisan tentang analisis citra dokumen telah banyak dilakukan oleh banyak peneliti. Gonzales (Gonzales, 1992), menyodorkan sebuah rumusan global tentang bagaimana memisahkan citra utama dengan citra latar belakang. Namun rumusan ini mempunyai kelemahan, yaitu tidak secara eksplisit menyatakan berapa nilai ambang yang dipakai untuk memisahkan citra tersebut. Pembaca harus melihat kasus per kasus dalam menentukan harga ambang yang cocok.

Haralick (Haralick, dkk., 1987), memberikan metode morfologi dalam proses pengurangan noise, Fletcher dan Kasturi (Fletcher dan Kasturi, 1988) menyodorkan algoritma Robust yang dapat dipakai untuk proses segmentasi, dan kemudian Arcelli, dan Sanniti (Arcelli dan Sanniti, 1985) memberikan contoh pemakaian fast thinning

algorithm untuk mengurangi komponen citra yang tidak penting. Kesemua penelitian

di atas adalah penelitian yang berkait dengan proses pengolahan tingkat piksel, setelah citra dibaca dengan mesin scanner, namun kesemuanya dipakai untuk dokumen citra yang ditulis dengan mempergunakan karakter latin.

Setelah tahap pengolahan tingkat piksel, maka tahap selanjutnya adalah tahap pengenalan karakter dan analysis layout halaman. Brown (Brown, 2000),secara detil memberikan contoh implementasi algoritma feature point extraction untuk pengenalan karakter latin. Kavallieratou (Kavallieratou, dkk., 2000) mengaplikasikan distribusi kelas Cohen untuk memperbaiki kemiringan karena ketidaksempurnaan dalam proses pembacaan dokumen. O’Gorman (O’Gorman, 1993), secara garis besar memberikan contoh analisis layout halaman dokumen khususnya untuk dokumen

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Suprihatin (Suprihatin, 2003), dalam tesisnya telah berhasil mengalihaksarakan tulisan karakter jawa ke tulisan karakter latin, namun masukan untuk program alihaksara diperoleh dari keyboard dengan mempergunakan program sofy untuk mendapatkan jenis font karakter jawa.

1.9 Sistematika Penulisan

Tesis ini ditulis dengan sistematika sebagai berikut: Bab pertama menguraikan tentang latar belakang masalah, rumusan masalah, batasan masalah tujuan penelitian. manfaat penelitian, metode penelitian, tinjauan pustaka, dan sistematika penulisan.

Bab kedua Landasan Teori membahas teori analisis citra dokumen teks, dan pengolahan citra.

Bab ketiga Perancangan Sistem berisi disain dari sistem yang meliputi spesifikasi sistem, diagram aliran data, struktur dari program, disain antarmuka, dan disain struktur menu dari sistem.

Bab keempat Implementasi Sistem menguraikan implementasi dari proses- proses dalam diagram aliran data yang berupa keterangan tentang sub-sub modul yang dipergunakan oleh sistem.

Bab kelima Hasil dan Pembahasan menguraikan hasil pengujian sistem dan analisis dari hasil pengujian sistem tersebut.

Bab keenam Kesimpulan dan Saran menguraikan kesimpulan dari penelitian dan saran-saran.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB II LANDASAN TEORI Kata citra berasal dari kata image dalam bahasa Inggris. (Gonzales dan Woods, 1992) mendefinisikan citra sebagai suatu fungsi kontinu dari intensitas

dalam bidang dua dimensi (2-D), di mana setiap titik pada citra dapat dinyatakan secara matematis sebagai: 0 < f ( x, y ) <

∞ dengan f ( x, y ) menyatakan intensitas cahaya pada lokasi (x,y).

Citra digital didefinisikan sebagai citra f(x,y) yang nilainya didigitalisasikan atau dibuat diskrit baik dalam koordinat bidang maupun dalam intensitas cahayanya (Gonzales dan Woods, 1992). Citra digital dapat digambarkan sebagai suatu matriks yang terdiri dari baris dan kolom, di mana setiap pasangan indeks baris dan kolom menyatakan suatu titik pada citra, dan nilai elemen matriksnya menyatakan nilai tingkat kecerahan di titik tersebut. Elemen-elemen matriks tersebut kemudian dinamakan sebagai elemen citra, atau elemen gambar atau piksel (Gonzales dan Woods, 1992). Selanjutnya dalam tesis ini yang dimaksud dengan citra adalah citra digital.

Citra dokumen adalah representasi visual dokumen kertas seperti jurnal, hasil faksimili, surat-surat kantor, lembar isian, dan lain-lain. Pengenalan citra dokumen adalah suatu upaya untuk menjadikan citra dokumen menjadi suatu representasi

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

2.1 Pengenalan Pola

Pengenalan pola (pattern recognition) merupakan salah satu komponen penting dalam sistem pengenalam citra dokumen. Tujuan utama dari pengenalan pola adalah mengklasifikasikan obyek yang diberikan sebagai input ke dalam salah satu dari kelas-kelas yang sudah ditentukan sebelumnya.

Proses pengenalan pola terdiri dari tiga fase utama, yaitu segmentasi citra, ekstraksi ciri, dan klasifikasi. Fase segmentasi citra adalah suatu fase yang bertujuan memisahkan citra yang menjadi pusat perhatian dari bagian citra lainnya. Fase ekstraksi ciri adalah fase dilakukannya pengukuran terhadap citra. Pengukuran dimaksudkan untuk memperoleh suatu nilai properti dari suatu obyek. Ciri adalah fungsi dari satau atau beberapa nilai properti yang dapat dipergunakan untuk menyatakan suatu karakter tertentu dari obyek. Fase ekstraksi ciri akan menghasilkan beberapa ciri yang diwujudkan dalam bentuk suatu vektor ciri. Vektor ciri hasil ekstraksi ciri ini dipergunakan oleh fase klasifikasi. Output dari fase klasifikasi adalah suatu keputusan termasuk kelas apakah suatu obyek itu. Dalam proses klasifikasi setiap obyek digolongkan ke dalam salah satu dari kelas-kelas yang sudah ditetapkan sebelumnya.

2.2 Analisis Citra Dokumen

Banyak dokumen yang memiliki format karakter yang berbeda dengan format karakter karakter latin, misal dokumen yang ditulis dalam format karakter Cina, India, Thailand, Jawa dan sebagainya. Akibatnya dokumen tersebut hanya dapat

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

tersebut, dibutuhkan sistem analisis citra dokumen untuk menerjemahkan dokumen dengan bentuk karakter tertentu agar menghasilkan sebuah deskripsi yang dapat dipahami oleh pembaca. Sistem analisis citra dokumen juga dapat digunakan untuk kepentingan lain, misal untuk membaca karakter dalam amplop surat sehingga surat dapat dipilah-pilah, atau untuk mengubah koleksi buku di perpustakaan tradisional ke dalam format digital.

Tujuan utama dari kegiatan analisis citra dokumen adalah untuk mengenali komponen-komponen teks ataupun gambar di dalam suatu dokumen. Analisis citra dokumen secara garis besar dibagi menjadi dua kategori analisis, yaitu analisis untuk teks dan gambar, seperti terlihat dalam Gambar 2.1 (O’Gorman dan Kasturi, 1997).

Pengolahan Dokumen

Pengolahan Teks Pengolahan Gambar

Pengolahan Analisis

Pengenalan Pengolahan Simbol dan

Layout

Karakter Garis Wilayah

Halaman

Gambar Garis lurus, Daerah Teks Kecondongan, sudut, kurva Gambar baris, alinea, paragraf

Gambar 2.1 Hirarki Pemrosesan Dokumen.

Pengolahan teks berkait dengan bagian teks dari citra dokumen. Beberapa

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

mengenali teks beserta atributnya, misalnya ukuran dan font dari teks seperti yang dapat dilakukan oleh mesin pengenal karakter (OCR). Sementara pengolahan grafik berkait dengan komponen garis dan simbol-simbol yang membentuk diagram, logo, dan lain sebagainya. Dan lebih lanjut O’Gorman dan Kasturi memberikan tahapan- tahapan proses analisis citra dokumen seperti terlihat dalam Gambar 2.2.

Lembar Dokumen

Data Capture

Pengolahan Tingkat Piksel Analisis Tingkat Fitur

Pengenalan dan Pengenalan dan Analisis Teks Analisis Grafis Dokumen Hasil

Gambar 2.2 Langkah-langkah Proses Analisis Dokumen

2.2.1 Data Capture

Pada tahap data capture, data dari dokumen kertas akan dibaca dengan alat scan optis dan hasilnya disimpan sebagai file dalam bentuk piksel. Terdapat tiga

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

atau suatu bilangan bulat antara 0-255 untuk citra grayscale, atau tiap piksel terdiri atas 3 komponen bilangan bulat antara 0-255 untuk komponen wana merah, komponen warna hijau, dan komponen warna biru untuk citra berwarna. Barisan nilai piksel yang diperoleh pada tahap ini, kemudian akan diproses lebih lanjut untuk mendapatkan suatu informasi seperti yang diinginkan.

2.2.2 Pengolahan Tingkat Piksel

Tahap pengolahan tingkat piksel adalah suatu tahap yang bertujuan untuk menyiapkan dokumen citra, serta membuat fitur perantara untuk membantu mengenali citra. Langkah- langkah yang dilakukan adalah :

a. Proses binarisasi: memisahkan citra utama dari citra latar belakang yang tidak dibutuhkan.

b. Pengurangan noise: menghilangkan piksel-piksel yang tidak penting untuk mengurangi kesalahan pengenalan obyek.

c. Segmentasi: memisahkan komponen teks dan grafis dari sebuah dokumen. Pada komponen teks segmentasi dilakukan dengan memisahkan kolom, paragraf, kata dan karakter. Pada komponen grafis, segmentasi akan memisahkan simbol dan garis.

Thinning dan deteksi area: Thinning merupakan proses untuk mengurangi komponen citra yang tidak penting agar proses analisis dan pengenalan dapat dilakukan dengan lebih efisien. Thinning dikenakan terhadap kurva tebal yang akan ditipiskan. Deteksi area dikenakan pada obyek yang diblok dengan warna

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Chain coding dan vektorisasi: mengubah data kerangka dan kontur yang ada menjadi piksel On yang saling berantai (terkait) sehingga penyimpanan obyek menjadi lebih efisien.

2.2.3 Analisis Tingkat Fitur

Analisis tingkat fitur akan menghasilkan informasi yang lebih dapat dipahami manusia. Langkah- langkah yang dilakukan adalah : a. Pengelompokan garis dan kurva: menentukan garis dan kurva yang saling berhubungan serta memisahkan garis dan kurva yang tidak sekelompok.

b. Poligonisasi: mengolah kurva dan garis lurus yang ada sehingga akan mendekati aslinya dan dapat disimpan dengan data yang lebih ringkas.

Deteksi titik kritis. mengenali suatu bentuk kurva berdasarkan titik kritis yang ditentukan.

2.2.4 Analisis Teks

Terdapat dua tipe analisis yang dapat diberlakukan terhadap teks pada dokumen. Yang pertama adalah pengenalan karakter (character recognition) untuk mengenali karakter dan kata dari citra berbasis bit. Yang kedua adalah analisis layout halaman untuk menentukan format teks dan menentukan arti, yang berhubungan dengan posisi dan fungsi dari teks.

Dalam analisis layout halaman yang dilakukan adalah : a. Perkiraan kemiringan: mengelola karakter yang memiliki sudut kemiringan tertentu sehingga nantinya akan dapat diolah untuk dikenali.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

2.3. Normalisasi terhadap Orientasi

Normalisasi terhadap orientasi dilakukan untuk mengurangi pengaruh kesalahan orientasi saat pembacaan data citra dokumen dengan scanner. Tidak dapat dijamin bahwa pengguna akan selalu menempatkan dokumen tegak lurus dengan sumbu utama. Oleh karena itu, perlu dilakukan perputaran atau rotasi sebesar sudut penyimpangan ( θ) sebagai langkah koreksi terhadap penyimpangan orientasi.

Rotasi suatu citra dengan sudut sebesar θ yang berlawanan arah dengan arah jarum jam, (lihat gambar 2.3) dapat dilakukan dengan mempergunakan rumus (2.1).

x’ = x cos(

(2.1) θ) – y sin(θ)

y’ = x sin(

θ) + y cos(θ)

( x', y') ( x, y) θ

Gambar 2.3. Perputaran citra dengan sudut

θ Untuk mengetahui seberapa besar penyimpangan orientasi suatu obyek dengan sumbu utama, dapat dilakukan dengan mempergunakan orientasi momen.

Nilai θ dapat ditentukan dengan rumus (2.2).

⎡ 2 ⎤ µ

1 ¹ ^{1 ,} ¹

−

tan (2.2)

θ =

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

dengan _{p q} µ = ( m − m ) ( n − n ) (2.3) _{p , q}

∑∑ _{m n}

merupakan momen pusat ordo ( p,q), dengan m , n merupakan titik pusat momen yang didefinisikan sebagai berikut:

1 , , (2.4)

m = m n = n ∑∑ ∑∑

N m n N m n

N menyatakan jumlah piksel pada citra, m dan n menyatakan koordinat obyek dari citra. Rumus (2.4) hanya berlaku untuk citra biner.

2.4. Binarisasi

Binarisasi adalah tahapan pertama di dalam pengolahan tingkat piksel setelah dilakukan data capture, yaitu proses untuk memisahkan obyek dari latar belakang yang tidak dibutuhkan (O’Gorman dan Kasturi, 1997). Tujuan utama dari proses ini adalah secara otomatis menentukan nilai ambang threshold yang akan berfungsi untuk membagi citra menjadi dua bagian atau dua kelompok, yaitu kelompok obyek dan kelompok latar. Berdasarkan tujuan tersebut, maka dalam banyak sumber lain, proses binarisasi ini akan disebut sebagai proses thresholding.

Proses pemilihan threshold seringkali akan menjadi proses yang sulit ketika:

a. Perbedaan antara piksel obyek dan latar sangat tipis. Contohnya bila terdapat teks yang dicetak pada bagian yang diberi latar abu-abu.

b. Ketika proses data capture dilakukan, pencahayaan untuk proses scanning kurang.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Beberapa keuntungan yang akan diperoleh apabila proses binarisasi berhasil dengan baik adalah: a.

Mengurangi kompleksitas komputasi untuk proses selanjutnya, karena ragam data yang dipergunakan sederhana (Sauvola, J., dkk., 1997).

b. Mengurangi penggunaan memori karena data yang tersimpan hanya akan berupa deretan data biner (Kasturi, R., dkk., 2002).

c. Memungkinkan pemakaian metode analisis yang sederhana ketimbang dipergunakan data citra yang gray level atau berwarna (Sauvola, J., dkk., 1997).

Threshold suatu citra g(x,y), di mana f(x,y) menyatakan gray-level dari suatu poin (x,y), dan T menyatakan suatu nilai ambang threshold, didefinisikan sebagai berikut (Gonzales dan Woods, 1992): 1 ( , )

jika f x y > T

⎧ ⎫

g ( x , y )

(2.5) =

⎨ ⎬ ( , )

jika f x y ≤ T

⎩ ⎭ di mana 1 menyatakan latar dan 0 menyatakan obyeknya.

Indikasi keberhasilan proses binarisasi adalah seberapa baik threshold yang dipilih dapat mempartisi obyek dan latar. Akan terdapat tiga kemungkinan yang muncul saat pemilihan suatu nilai threshold (Antonacopoulos, A., 1995) yaitu : a.

Threshold yang dipilih terlalu tinggi, sebagai akibatnya akan muncul kemungkinan bahwa citra yang seharusnya terpisah menjadi bergabung, atau b. Threshold yang dipilih terlalu rendah, sebagai akibatnya akan muncul kemungkinan bahwa sebuah citra terpotong menjadi beberapa bagian, atau

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Disinilah letak persoalan utama dari proses binarisasi, yaitu memilih harga

PENGENALAN CITRA DOKUMEN SASTRA JAWA KONSEP DAN IMPLEMENTASINYA