Halaman Judul - Segmentasi citra dokumen teks tulisan tangan aksara Jawa menggunakan algoritma seflines : studi kasus pada dokumen Serat Pertanda - USD Repository

Halaman Judul

  

SEGMENTASI CITRA DOKUMEN

TEKS TULISAN TANGAN AKSARA JAWA

MENGGUNAKAN ALGORITMA SEGLINES

(STUDI KASUS PADA DOKUMEN “SERAT PERTANDA”)

SKRIPSI

  Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer

  Program Studi Teknik Informatika Oleh :

  Albertus Dio Padmadharma 075314057

  

PROGRAM STUDI TEKNIK INFORMATIKA

JURUSAN TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2011

Halaman Judul

  

IMAGE SEGMENTATION OF

JAVANESE SCRIPT HANDWRITING TEXT DOCUMENT

USING SEGLINES ALGORITHM

(“SERAT PERTANDA”)

A Thesis

  Presented as a Partial Fulfillment of the Requierments To Obtain Sarjana Komputer Degree

  In Informatics Engineering By :

  Albertus Dio Padmadharma 075314057

  

INFORMATICS ENGINEERING DEPARTMENT

FACULTY OF SCIENECE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2011

  Lembar Persetujuan

  Lembar Pengesahan

  

Abstrak

  Penelitian ini berfokus pada proses segmentasi citra dokumen teks tulisan tangan Aksara Jawa menggunakan algoritma Seglines dan dokumen yang digunakan adalah dokumen Serat Pertanda. Tujuan dilakukannya penelitian ini adalah untuk memahami konsep dasar algoritma Seglines pada citra dokumen tulisan tangan aksara Jawa dan menguji unjuk kerjanya.

  Algoritma Seglines menghasilkan prosentase akurasi segmentasi sampai 96.45% - 99.79%. Prosentase itu didapat dari hasil segmentasi pada skrip yang digunakan secara luas di India, misalnya Gurmukhi. Algoritma ini dipilih karena dapat melakukan segmentasi terhadap baris yang bersentuhan secara horizontal dan menyatukan komponen dari baris yang over segmented.

  Penelitian dilakukan dengan melakukan proses segmentasi pada citra dokumen yang telah mengalamai proses normalisasi kemiringan, binerisasi dan reduksi noise. Penelitian kemudian dilanjutkan dengan menganalisa citra dokumen dan citra baris yang dihasikan dari proses segmentasi dengan menggunakan algoritma Seglines.

  Hasil pengujian yang dilakukan terhadap citra dokumen serat_pertanda2.jpg dengan menggunakan algoritma Seglines diketahui bahwa waktu yang diperlukan untuk memproses citra tersebut adalah 0,57486 detik. Prosentase akurasi yang didapatkan adalah 43,33 % untuk segmentasi citra dokumen tulisan tangan aksara Jawa dengan algoritma Seglines. Untuk hasil segmentasi setelah ditambahkan saran berupa fungsi penelusuran potongan aksara dengan garis potong segmentasi dan fungsi pencarian headlines (45% dari headlines) untuk segmentasi aksara didapatkan hasil 88,68% memenuhi syarat segmentasi. Prosentase hasil segmentasi dengan tolak ukur penulisan aksara Jawa didapatkan nilai sebesar 59,10% Kecilnya nilai prosentase disebabkan aksara yang sudah ditemukan ada beberapa bagiannya yang terpotong. Berdasarkan tinjauan di atas, maka dapat disimpulkan bahwa algoritma Seglines relatif baik untuk melakukan segmentasi citra dokumen teks tulisan tangan.

  

Abstract

  This study focuses on the process of image segmentation of text documents using “Aksara Jawa” handwriting. “Serat Pertanda” document used by Seglines algorithms as input. The purpose of this study was to understand the basic concepts of Seglines algorithms on handwritten document image using “Aksara Jawa” handwriting and test its performance.

  Research carried out by performing the document image segmentation process which has been processed using skew detection, binerization and noise reduction. The study was followed by analyzing the document image and the result.

  The results of tests performed on the document image “serat_pertanda2.jpg” using the algorithm Seglines known that it takes 0.57486 seconds. The line image of the handwritten document image use segmentation algorithm Seglines obtained 17 lines correspond to the number of lines from the document image serat_pertanda2.jpg. This shows that the algorithm Seglines good if used for segmentation lines. Percentage of accuracy obtained is 43.33% for handwritten document image segmentation use algorithm Seglines base on Javanese script.

  For the segmentation results after adding pieces of advice in the form of alphabet search function by secant segmentation and search functions headlines (45% of the headlines) for syllable segmentation results obtained 88.68%. This percentage value indicates that the system can find the main characters in each line. Percentage of segmentation results with a benchmark or writing the script of Java semantics obtained a value of 59.10% The low value is caused porsentase characters that have been found there are some parts that are cut off. Based on the review above, it can be concluded that the relatively good Seglines algorithm to segment the image of handwritten text documents.

DAFTAR ISI

  

Halaman Judul .................................................................................................... i

Halaman Judul ................................................................................................... ii

Lembar Persetujuan ......................................................................................... iii

Lembar Pengesahan .......................................................................................... iv

PERNYATAAN KEASLIAN KARYA ............................................................. v

Abstrak .............................................................................................................. vi

Abstract ............................................................................................................ vii

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI ......................... viii

KATA PENGANTAR ....................................................................................... ix

DAFTAR ISI ...................................................................................................... x

Daftar Gambar ............................................................................................... xiii

DAFTAR TABEL ............................................................................................ xv

BAB I .................................................................................................................. 1

1. 1. Latar Belakang ........................................................................................... 1

1. 2. Rumusan Masalah ...................................................................................... 4

1. 3. Batasan Masalah ........................................................................................ 4

1. 4. Tujuan ........................................................................................................ 5

1. 5. Metode Penelitian ....................................................................................... 5

1. 6. Sistematika Penulisan ................................................................................ 7

  

BAB II ................................................................................................................ 8

2. 1. Pengertian Citra ......................................................................................... 8

  2. 1. 1. Citra biner (monokrom) ........................................................................ 9 2. 1. 2. Citra grayscale (skala keabuan) ............................................................. 9 2. 1. 3. Citra warna (true color) ....................................................................... 10 2. 2. Citra Dokumen Teks ............................................................................... 11 2. 3. Grayscaling ............................................................................................ 11 2. 4. Binerisasi ................................................................................................ 11 2. 5. Histogram ............................................................................................... 12

  2. 7. Tulisan India ........................................................................................... 13 2. 8. Segmentasi ............................................................................................. 15

  2. 8. 1. Profil Proyeksi ................................................................................ 16 2. 8. 2. Seglines ........................................................................................... 16

  2. 9. Aksara Jawa ........................................................................................... 22 2. 9. 1. Huruf dasar (aksara nglegena) ......................................................... 23 2. 9. 2. Huruf pasangan (Aksara pasangan) ................................................. 23

  2. 10. Matlab .................................................................................................. 24

  

BAB III ............................................................................................................. 25

  

3.1 Desain Input ............................................................................................... 25

  3. 1. 1. Input Gambar ...................................................................................... 25

  

3. 2. Gambaran sistem secara umum .............................................................. 28

  3. 2. 1. Diagram Arus Data Level 0 / Diagram Konteks .................................. 28 3. 2. 2. Diagram Arus Data Level 1 ................................................................ 29

  

3. 3. Perancangan Tampilan ............................................................................ 31

  

3.4 Implementasi Proses : ................................................................................ 33

  3. 4. 1. Proyeksi Horizontal ......................................................................... 33 3. 4. 2. Buat Strip ........................................................................................ 33 3. 4. 3. Pencarian Headlines ........................................................................ 34 3. 4. 4. Identifikasi Average Line Height ..................................................... 34 3. 4. 5. Pemeriksaan Headlines .................................................................... 34 3. 4. 6. Proses Pembentukan Baris ............................................................... 35 3. 4. 7. Proyeksi Vertikal ............................................................................. 36 3. 4. 8. Identifikasi Index Kolom ................................................................. 37 3. 4. 9. Potong Karakter .............................................................................. 37

  

3. 5. Perancangan cara pengujian ................................................................... 38

  

BAB IV ............................................................................................................. 40

  

4. Implementasi ................................................................................................ 40

  4.1 Implementasi Proses : ............................................................................... 40 4. 1. 1. Proyeksi Horizontal ......................................................................... 40

  4. 1. 3. Pencarian Headlines ........................................................................ 41 4. 1. 4. Identifikasi Average Line Height ..................................................... 42 4. 1. 5. Pemeriksaan Headlines .................................................................... 42 4. 1. 6. Proses Pembentukan Baris ............................................................... 42 4. 1. 7. Proyeksi Vertikal ............................................................................. 44 4. 1. 8. Identifikasi Index Kolom ................................................................. 44 4. 1. 9. Potong Karakter .............................................................................. 45

  4. 2. Implementasi Tampilan .......................................................................... 46 4. 2. 1. Tampilan halaman utama................................................................. 46 4. 2. 2. Tampilan pilih file gambar .............................................................. 46 4. 2. 3. Tampilan simpan file gambar .......................................................... 47 4. 2. 4. Tampilan pesan proses simpan ........................................................ 47 4. 2. 5. Tampilan halaman utama................................................................. 47 4. 2. 6. Tampilan lihat gambar ..................................................................... 48 4. 2. 7. Tampilan lihat Tabel Char Map ....................................................... 49

  

BAB V ............................................................................................................... 50

  5. 1. Data Masukan ......................................................................................... 50 5. 2. Perangkat Keras dan Perangkat Lunak .................................................... 50 5. 3. Eksekusi Modul ...................................................................................... 51

  

BAB VI ............................................................................................................. 69

6. 1. Kesimpulan ............................................................................................... 69

6. 2. Saran ......................................................................................................... 70

Daftar Pustaka ................................................................................................. 71

LAMPIRAN 1 .................................................................................................. 73

LAMPIRAN 2 .................................................................................................. 79

LAMPIRAN 3 .................................................................................................. 97

DAFTAR GAMBAR

  Gambar 1. Metode Iterasi ..................................................................................... 6 Gambar 2. (a) Citra Biner; (b) Representasi Citra Biner dalam data digital ........... 9 Gambar 3. (a) Citra Skala Keabuan; (b) Representasi Citra Skala Keabuan dalam data digital ......................................................................................................... 10 Gambar 4. (a) Citra Warna; ................................................................................ 10 Gambar 5. (a) Citra biner; .................................................................................. 12 Gambar 6. Strip Gurmukhi ................................................................................. 13 Gambar 7. Tulisan kata Gurmukhi: (a) upper zone dari garis nomor 1 sampai 2, (b) midlle zone dari garis no 3 sampai 4, (c) lower zone dari garis nomor 4 sampai 5. ....................................................................................................................... 13 Gambar 8. Tulisan kata gujarati: (a) upper zone dari garis nomor 1 sampai 2, (b) middle zone dari garis 2 sampai 3, (c) lower zone dari garis 3 sampai 4 ............. 13 Gambar 9. Batas-batas strip hasil segmentasi proyeksi profil pada citra teks Gurmukhi cetak ................................................................................................. 15 Gambar 10. Strip 1 dari dokumen Gurmukhi cetak ............................................. 17 Gambar 11. Hasil segmentasi dengan Algoritma 1 ............................................. 19 Gambar 12. Citra Dokumen Hasil Segmentasi Algoritma Seglines ..................... 21 Gambar 13. Huruf Dasar .................................................................................... 23 Gambar 14. Huruf Pasangan .............................................................................. 24 Gambar 15. Citra Serat_Pertanda2.JPG sebelum Pre-Processing ........................ 26 Gambar 16. Citra Serat_Pertanda2.JPG setelah Pre-Processing .......................... 27 Gambar 17. Diagram Konteks ............................................................................ 28 Gambar 18. Diagram Arus Data ......................................................................... 29 Gambar 19. Rancangan Tampilan Halaman Utama ............................................ 31 Gambar 20. Rancangan Tampilan Tabel Char Map ............................................ 32 Gambar 21. Rancangan Tampilan Halaman Lihat Gambar ................................. 32 Gambar 22. Tampilan Halaman Utama .............................................................. 46 Gambar 23. Tampilan Pilih Gambar ................................................................... 46

  Gambar 25. Pesan Proses Simpan Gambar Berhasil ........................................... 47 Gambar 26. Tampilan Halaman Utama .............................................................. 48 Gambar 27. Tampilan Lihat Gambar .................................................................. 48 Gambar 28. Tampilan Lihat Gambar .................................................................. 48 Gambar 29. Tampilan Lihat Tabel ...................................................................... 49 Gambar 30. Histogram Citra Dokumen Serat_Pertanda2 .................................... 51 Gambar 31. Histogram Strip .............................................................................. 51 Gambar 32. Citra Dokumen Dalam Strip ............................................................ 53 Gambar 33. Kekeliruan Dalam Deteksi Headlines .............................................. 55 Gambar 34. Headlines ........................................................................................ 57 Gambar 35. Baris Pertama Citra Dokumen Serat_Pertanda2............................... 58 Gambar 36. Histogram Vertikal Baris Pertama Citra Dokumen Serat_Pertanda2 58 Gambar 37. Baris pertama citra dokumen Serat_Pertanda2 dalam segmen hasil proyeksi vertikal ................................................................................................ 59 Gambar 38. Citra dokumen Serat_Pertanda2 yang telah tersegmen .................... 60 Gambar 39. baris yang tersegmentasi kurang baik .............................................. 62 Gambar 40. Aksara Yang Tidak Lengkap Bagian Uppernya ............................... 62 Gambar 41. Baris Ke Enam Citra Dokumen yang telah diperbarui ..................... 64 Gambar 42. Salah Satu Aksara Dari Baris Ke Enam yang telah diperbarui ......... 64 Gambar 43. Segmentasi pada baris Ke Enam ..................................................... 64 Gambar 44. Baris dengan histogram lebih dari 45% x maks histogram ............... 65 Gambar 45. Histogram bernilai lebih besar dari 45% maks histogram ................ 66 Gambar 46. Gambar baris keenam setelah dikenai fungsi verProjOverLine ........ 67

DAFTAR TABEL

  Tabel 1. Nilai P1 dan P2 untuk setiap tulisan...................................................... 22 Tabel 2. Indek Strip ........................................................................................... 52 Tabel 3. Indek Headlines.................................................................................... 54 Tabel 4. Indek Headlines.................................................................................... 56 Tabel 5. Indek baris baru .................................................................................... 57 Tabel 6. Indek segmen baris pertama citra dokumen serat_pertanda2 ................. 59 Tabel 7. Analisis Output Segmentasi Citra Dokumen Serat_Pertanda2 ............... 61 Tabel 8. Koordinat x dan y dari perpotongan bagian aksara dengan garis(crossPikselUpper) ..................................................................................... 64 Tabel 9. Indeks histogram bernilai lebih 45% x maks histogram ........................ 65

BAB I PENDAHULUAN 1. 1. Latar Belakang

  Yogyakarta adalah kota yang terkenal sebagai kota pendidikan dan kaya akan sejarah budayanya. Salah satu kekayaan sejarah kebudayaan adalah naskah- naskah kuno aksara Jawa. Banyaknya peninggalan berbentuk naskah membuktikan adanya tradisi tulis dalam masyarakat Jawa untuk diwariskan ke generasi selanjutnya. Naskah-naskah Jawa dapat kita jumpai di Keraton Kesultanan Yogyakarta dan Pura Pakualaman (Suryakusuma, 2003). Pura Pakualaman sendiri sebagai salah satu kerajaan di Jawa mencatat sejarah yang dituangkan dalam naskah kuno (Kusuma W., 2011).

  Naskah-naskah kuno, di Keraton Kesultanan Yogyakarta dan Pura Pakualaman, telah bertahun-tahun ada dan perlu diremajakan untuk menjaga kelestariannya. Salah satu cara untuk melestarikan naskah kuno adalah proses pengubahan naskah kuno tersebut ke dalam format digital. Naskah dalam format digital memiliki manfaat yang besar terutama bagi dunia pendidikan. Para peneliti dapat menggunakan naskah tersebut untuk proses penelitian ilmiah, seperti alih aksara dari aksara Jawa ke latin dan melakukan penerjemahan.

  Seiring dengan semakin luasnya pengaplikasian teknologi pengolahan citra dalam kehidupan sehari-hari, contohnya pengolahan citra dalam dunia perfilman, fotografi, pengenalan pola, keamanan data dan proteksi hak cipta, maka aplikasinya dalam mengolah citra aksara Jawa sangat dimungkinkan. Pengolahan citra digital sendiri adalah sebuah disiplin ilmu yang mempelajari hal-hal yang berkaitan dengan perbaikan kualitas gambar, transformasi gambar, melakukan penelitian citra ciri (feature images) yang optimal untuk tujuan analisis, melakukan proses penarikan informasi atau deskripsi obyek yang terkandung pada citra, melakukan kompresi atau reduksi data untuk tujuan penyimpanan data, transmisi data, dan waktu proses data (Edy dkk , 2009). Input dari pengolahan citra ini adalah citra, sedangkan hasilnya adalah citra baru hasil pengolahan. Segmentasi adalah salah satu tahapan dari pengolahan citra dengan tujuan membagi wilayah-wilayah yang homogen. Segmentasi membagi citra ke dalam daerah intensitasnya masing-masing sehingga dapat membedakan antara obyek dengan latar belakangnya. Segmentasi sendiri juga membantu proses pengambilan setiap citra karakter yang terdapat dalam citra dokumen.

  Penelitian mengenai segmentasi citra pada naskah atau dokumen telah banyak dilakukan. Segmentasi citra dokumen teks satra Jawa Modern dengan mempergunakan Profil Proyeksi (Widiarti, 2007) yang memperlihatkan hasil segmentasi yang baik, pada dokumen sastra Jawa modern Menak Sorangan I dan Panji Sekar halaman 3 dan 4. Rata-rata prosentase keberhasilannya sebesar 86.797%.

  Penelitian mengenai segmentasi citra yang kedua adalah segmentasi citra dokumen sastra Jawa dengan menggunakan algoritma Watershed (Pinaryanto, 2009). Penelitian ini menunjukan hasil yang baik untuk segmentasi obyek terhadap citra dokumen teks sastra Jawa. Hasil pengujian terhadap 10 citra dokumen teks sastra Jawa, diperoleh hasil 97,123% untuk prosentase kebenaran dan 84,932% untuk prosentase akurasi.

  Penelitian mengenai segmentasi citra yang ketiga adalah segmentasi citra dokumen teks sastra Jawa modern (Vitri, 2007). Prosentase keberhasilan pada penelitian ini adalah 94,62%. Nilai prosentase ini menunjukan bahwa kombinasi metode segmentasi yang digunakan yaitu profil proyeksi dan Chain Code relatif baik untuk proses segmentasi pada citra dokumen teks sastra Jawa Modern. Proses segmentasi dilakukan dengan menggunakan algoritma profil proyeksi untuk mendapatkan citra aksara kemudian dilanjutkan dengan menggunakan algoritma

  Perbedaan penelitian kali ini dengan penelitian-penelitian sebelumnya adalah citra dokumen dan algoritma yang digunakan. Dokumen aksara Jawa yang digunakan adalah citra dokumen teks tulisan tangan aksara Jawa. Citra dokumen diambil dari dokumen Serat Pertanda yang ditulis tangan. Dalam penelitian kali ini dilakukan proses segmentasi pada citra dokumen tulisan tangan aksara Jawa dengan mempergunakan algoritma Seglines.

  Algoritma Seglines adalah algoritma dikembangkan berdasarkan ide proyeksi horizontal dan proyeksi vertikal yang kontinu dari algoritma Profil Proyeksi (Jindal dkk, 2007). Algoritma ini dikembangkan oleh M.K. Jindal dkk untuk memecahkan permasalahan segmentasi baris tulisan India yang saling bersentuhan antara baris satu dengan baris lainnya dan beberapa baris horizontal yang saling bertumpang tindih (Jindal dkk. 2000). Pada awalnya algoritma digunakan untuk segmentasi baris horizontal pada 54 dokumen menghasilkan prosentase akurasi sebesar 95%. Aplikasi algoritma ini juga terbatas pada tulisan yang dicetak oleh mesin. M.K. Jindal dkk kemudian mengembangkan lagi menjadi algoritma Seglines dan mengujinya terhadap delapan jenis skrip yang dicetak di India. Delapan jenis skrip yang digunakan secara luas di India adalah Gurmukhi, Devanagari, Bangla, Gujarati, Kannada, Tamil, Telugu dan Malayalam. Algoritma Seglines menghasilkan prosentase akurasi segmentasi sebesar 96.45% - 99.79% tergantung jenis skrip. Algoritma ini digunakan untuk mengatasi permasalahan segmentasi terutama segmentasi baris. Metode ini dipilih karena dapat melakukan segmentasi terhadap baris yang bersentuhan secara horizontal dan menyatukan komponen dari baris yang over segmented. Karena dari analisa data awal diperoleh fakta bahwa citra dokumen tulisan tangan memiliki baris yang saling bersentuhan satu sama lainnya, peneliti tertarik untuk melihat apakah Seglines akan menghasilkan presentase akurasi yang baik pula.

  1. 2. Rumusan Masalah

  Berdasarkan latar belakang yang disampaikan, maka permasalahan yang ingin diselesaikan, yaitu :

  1. Bagaimana cara kerja dan implementasi algoritma Seglines pada segmentasi citra dokumen tulisan tangan aksara Jawa?

  2. Bagaimana cara menguji unjuk kerja algoritma Seglines pada segmentasi citra dokumen tulisan tangan aksara Jawa?

  1. 3. Batasan Masalah

  Dalam penulisan laporan tugas akhir ini penulis memberikan batasan-batasan masalah :

  1. Pembuatan program yang mengimplementasikan segmentasi citra dokumen tulisan tangan aksara Jawa dengan menggunakan algoritma

  Seglines .

  2. Data sumber citra yang digunakan adalah citra dokumen tulisan tangan aksara Jawa yang telah mengalami proses pre-processing untuk menghilangkan noise, normalisasi kemiringan dan binerisasi.

  3. Citra yang dapat diproses adalah citra dokumen tulisan tangan aksara Jawa dengan ekstensi *.jpg.

  4. Menggunakan sistem operasi Windows 7.

  5. Menggunakan bahasa pemrograman MATLAB 7.10.

  1. 4. Tujuan

  Dalam penulisan laporan tugas akhir ini penulis memiliki tujuan dan berharap ada manfaat yang dapat diperoleh.

  Tujuan penelitian dalam penulisan laporan tugas akhir ini adalah :

  1. Memahami konsep dasar algoritma Seglines pada citra dokumen tulisan tangan aksara Jawa.

  2. Menguji unjuk kerja algoritma Seglines pada segmentasi citra dokumen tulisan tangan aksara Jawa.

  1. 5. Metode Penelitian

  Metode penelitian yang ditempuh oleh penulis adalah :

  1. Studi pustaka tentang segmentasi citra menggunakan algoritma

  Seglines melalui buku-buku, jurnal-jurnal, browsing di internet dan materi kuliah citra.

  2. Studi data tentang strip dan citra dokumen aksara Jawa.

  3. Mengembangkan aplikasi segmentasi sebagai alat bantu pengujian dengan menggunakan metode “Incremental” menurut (Pressman, 1997)

  Gambar 1. Metode Iterasi Tahapan metode ini meliputi :

  a. Analysis (Analisis) Pada tahap ini dilakukan pengumpulan kebutuhan secara lengkap kemudian dianalisis dan didefinisikan kebutuhan yang harus dipenuhi oleh aplikasi yang akan dibangun.

  b. Design (Desain) Pada tahap ini dilakukan perancangan aplikasi yang meliputi proses detil dan peracangan antarmuka pemakai.

  c. Code (Penulisan Program) Pada tahap ini desain aplikasi diterjemahkan ke dalam kode-kode dengan menggunakan bahasa pemrograman Java dan Matlab yang dihubungkan dengan JMatLink.

  d. Test(Pengujian) Pada tahap ini dilakukan pengujian pada aplikasi dengan tujuan mencari kemungkinan terjadinya kesalahan dan memeriksa apakah

  4. Analisa hasil pengujian sistem untuk mendapatkan kesimpulan apakah algoritma ini baik jika digunakan untuk proses segmentasi citra dokumen tulisan tangan aksara Jawa

  1. 6. Sistematika Penulisan

  Secara umum dalam penelitian ini, sistematika penulisan yang akan digunakan adalah sebagai berikut :

  1. BAB I : PENDAHULUAN

  Bab ini membahas latar belakang masalah, rumusan masalah, tujuan penelitian, batasan masalah, metodologi penelitian, dan sistematika penulisan.

  2. BAB II : LANDASAN TEORI

  Bab ini membahas teori-teori mengenai pengertian citra, pengertian dan tujuan segmentasi, algoritma segmentasi, dan metode yang akan digunakan dalam pengembangan aplikasi.

  3. BAB III : ANALISA DAN PERANCANGAN SISTEM

  Bab ini membahas analisa dan perancangan sistem secara umum, rancangan proses serta rancangan antar muka yang akan digunakan.

  4. BAB IV : IMPLEMENTASI SISTEM

  Bab ini membahas implementasi dalam bentuk aplikasi berdasarkan analisa dan perancangan yang telah dilakukan.

  5. BAB V : HASIL DAN PENGUJIAN

  Bab ini membahas analisa hasil implementasi segmentasi citra aksara Jawa menggunakan algoritma Seglines.

  6. BAB VI : PENUTUP

  Bab ini membahas kesimpulan dan saran dari hasil analisa sistem, implementasi sistem dan pengujian. segmentasi, algoritma segmentasi, dan metode yang akan digunakan dalam pengembangan aplikasi.

  Citra adalah suatu representasi (gambaran), kemiripan, atau imitasi dari suatu obyek (Edy dkk, 2009). Citra sebagai keluaran suatu sistem perekaman data dapat bersifat optik berupa foto, bersifat analog berupa sinyal-sinyal video seperti gambar pada monitor televisi, atau bersifat digital.

  Citra digital adalah citra yang dapat diolah komputer (Edy dkk, 2009). Citra digital ini disimpan dalam format digital atau dalam bentuk file sehingga dapat diolah komputer. Citra digital memiliki ukuran dalam piksel (elemen terkecil dalam citra). Citra digital yang disimpan dalam memori komputer hanya berupa angka-angka yang menunjukkan besar intensitas pada masing-masing piksel tersebut. Monitorlah yang nantinya akan menampilkan gambaran dari citra digital tersebut setelah diproses, contohnya gambar sebuah kotak kecil. Sebuah citra digital memiliki ukuran sebesar M x N piksel, dimana M merupakan lebar dari citra digital dan N merupakan tinggi dari citra digital.

  Beberapa jenis citra digital yang sering digunakan adalah citra biner, citra grayscale, dan citra warna.

  2. 1. 1. Citra biner (monokrom)

  Citra biner memiliki dua warna, yaitu hitam dan putih. Piksel pada citra yang berwarna putih bernilai 1 dan piksel yang berwarna hitam bernilai 0. Citra biner membutuhkan satu bit di memori untuk menyimpan kedua warna ini.

  Pada citra biner (gambar 2) yang terdiri atas piksel 3x3 dan disampingnya merupakan representasi citra tersebut jika disimpan dalam memori.

  (a) (b) Gambar 2. (a) Citra Biner; (b) Representasi Citra Biner dalam data digital

  2. 1. 2. Citra grayscale (skala keabuan)

  Banyaknya warna pada citra graysclae tergantung pada jumlah bit yang disediakan memori untuk menampung kebutuhan warna ini. Warna yang ada adalah hitam dan putih dengan tingkat gradasi tertentu. Banyaknya kemungkinan nilai dan gradasi bergantung pada jumlah bit yang digunakan. Untuk skala keabuan 8 bit, jumlah kemungkinan nilainya adalah 28 = 256, dengan range nilai 0 – 255. Warna hitam sebagai warna minimal dengan piksel bernilai 0 dan warna putih sebagai warna maksimal dengan piksel bernilai 255, sedangkan warna abu-abu berada di antara kedua warna tersebut.

  Pada citra grayscale (gambar 3) yang terdiri atas piksel 3x3 dan

  (a) (b) Gambar 3. (a) Citra Skala Keabuan; (b) Representasi Citra Skala Keabuan dalam data digital

  2. 1. 3. Citra warna (true color)

  Setiap piksel pada citra warna mewakili warna yang merupakan kombinasi dari tiga warna dasar (RGB = Red Green Blue). Setiap warna dasar menggunakan penyimpanan 8 bit=1 byte, yang berarti setiap warna mempunyai gradasi sebanyak 255 warna.

  Satu piksel citra warna (true color) diwakili oleh 3 byte, dimana masing-masing byte mempresentasikan warna merah, hijau, dan biru. Pada citra biner (gambar 4) yang terdiri atas piksel 3x3 dan disampingnya merupakan representasi citra tersebut jika disimpan dalam memori.

  (a) (b) Gambar 4. (a) Citra Warna;

  2. 2. Citra Dokumen Teks

  Dokumen teks merupakan sebuah tulisan yang berisi informasi (Anonim, 2010). Dokumen ini ditulis dengan tangan atau dicetak di atas kertas, dan informasinya ditulis menggunakan tinta baik itu menggunakan tangan (tulis tangan) ataupun media elektronik (komputer).

  Citra dokumen teks merupakan citra yang berisi kumpulan teks atau tulisan dalam format digital. Untuk inputan sistem ini, citra dokumen yang digunakan berupa citra biner. Jika citra masukan berupa citra warna maka akan diubah dahulu menjadi citra biner dengan proses binerisasi.

  2. 3. Grayscaling

  Grayscaling adalah proses penyederhanaan citra berwarna menjadi citra grayscale (Basuki, Achmad dkk. 2005). Satu piksel citra warna (true color) diwakili oleh 3 byte, dimana masing-masing byte mempresentasikan warna merah, hijau, dan biru. Proses grayscaling akan menjadikan 3 nilai tadi menjadi 1 nilai. Proses grayscaling dilakukan dengan mengambil nilai rata-rata dari nilai R,G, dan B yang akan menghasilkan nilai keabuan sebesar S, dirumuskan (Basuki, Achmad dkk. 2005) :

  S = R + G + B (2-1)

  3

  2. 4. Binerisasi

  Citra biner (hitam-putih) merupakan citra sederhana yang sering digunakan dalam proses pengenalan angka atau pengenalan huruf (Basuki, Achmad dkk. 2005). Untuk mengubah suatu citra grayscale menjadi citra biner, dengan menggunakan nilai tengah citra dengan derajat keabuan 256, yaitu 128 sehingga dapat dirumuskan untuk sebuah piksel x dengan suatu derajat keabuan :

  (2-2) Jika x < 128 maka x=0, selain itu maka x = 1.

  2. 5. Histogram

  Histogram merupakan salah satu alat bantu yang paling sederhana dan sangat berguna dalam pengolahan citra ( Achmad, Bazal & Firdausy, Kartika. 2005). Histogram citra adalah grafik yang menggambarkan penyebaran nilai-nilai intensitas piksel dari suatu citra.

  Misalkan citra digital memiliki L derajat keabuan, yaitu dari 0 sampai L-1 (pada citra dengan kuantitas derajat keabuan 8 bit, nilai derajat keabuan dari 0 sampai 255). Secara matematis histogram citra dihitung dengan rumus (Munir, 2004) :

  (2 - 3) Dimana : n = jumlah piksel yang memiliki derajat keabuan i

  i

  n = jumlah seluruh piksel dalam citra (a) (b)

  Gambar 5. (a) Citra biner; (b) Histogram gambar dari citra biner

  2. 6. Strip

  Strip adalah kumpuan baris horisontal yang memiliki minimal satu piksel (Jindal, M. K. dkk. 2000). Strip juga dapat didefinisikan sebagai kumpulan baris horizontal yang berurutan dan setiap barisnya berisi minimal satu piksel.

  Gambar 6. Strip Gurmukhi (Jindal, M. K. dkk. 2000)

  2. 7. Tulisan India Jindal, M.K dkk menggunakan tulisan India sebagai bahan uji (Jindal, M.

  K. dkk. 2007). Tulisan menjadi input dari proses segmentasi dengan algoritma

  

Seglines . Pada tulisan India diterapkan konsep tiga zona horisontal (three

horizontal zones ), yaitu upper zone, middle zone, dan lower zone kecuali pada

  tulisan Urdu.

  Gambar 7. Tulisan kata Gurmukhi: (a) upper zone dari garis nomor 1 sampai 2, (b) midlle zone dari garis no 3 sampai 4, (c) lower zone dari garis nomor 4 sampai 5.

  (Jindal, M. K. dkk. 2007) Gambar 7(a), 7(b), 7(c) memperlihatkan isi dari three zones, yaitu upper, middle, dan lower zone yang diimplementasikan pada tulisan Gurmukhi (headline based

  script ). Headline adalah daerah dari garis nomor 2 sampai 3.

  Gambar 8. Tulisan kata gujarati: (a) upper zone dari garis nomor 1 sampai 2, (b) middle zone dari garis 2 sampai 3, (c) lower zone dari garis

  Gambar 8(a), 8(b), 8 (c) memperlihatkan isi dari three zones, yaitu

  upper , middle, dan lower zone yang diimplementasikan pada tulisan Gujarati (non headline based script).

  Jika dibandingkan dengan aksara Jawa maka terlihat aksara Jawa juga dapat dibagi menjadi tiga zona. Dalam dokumen Gurmukhi cetak, penggunaan algoritma proyeksi horizontal untuk proses segmentasi baris dokumen ke dalam baris per baris kalimat menghasilkan hasil kurang baik. Berikut adalah contoh strip hasil segmentasi algoritma proyeksi horizontal dalam dokumen Gurmukhi cetak :

  1. Strip berisi dua atau lebih baris yang mengalami “horizontally overlapping lines” (strip nomor 1 pada gambar 9)

  2. Strip berisi hanya berisi karakter pada daerah lower zone (strip nomor 2 pada gambar 9)

  3. Strip berisi hanya berisi karakter pada daerah upper zone (strip nomor 3 pada gambar 9)

  4. Strip berisi hanya berisi karakter pada daerah middle zone (strip nomor 4 pada gambar 9)

  5. Strip berisi Upper, middle, dan lower zone atau lengkap satu baris karakter (strip nomor 5 pada gambar 9)

  6. Strip berisi hanya berisi karakter pada daerah upper dan

  middle zone

  (strip nomor 6 dan 8 pada gambar 9)

  7. Strip berisi bagian karakter lower zone yang menyentuh bagian upper zone baris berikutnya (strip nomor 7 pada gambar 9) Gambar 9. Batas-batas strip hasil segmentasi proyeksi profil pada citra teks Gurmukhi cetak (Jindal, M. K. dkk. 2000)

  2. 8. Segmentasi

  Segmentasi adalah salah satu tahapan dari pengolahan citra dengan tujuan membagi wilayah-wilayah yang homogen. Segmentasi adalah proses membagi citra ke dalam daerah intensitasnya masing-masing sehingga dapat dibedakan antara obyek dengan latarnya (Mulyanto, Edy dkk . 2009). Segmentasi sendiri juga membantu proses pengambilan setiap citra karakter yang terdapat dalam citra dokumen.

  Metode yang dapat digunakan dalam segmentasi citra, antara lain yaitu :

  2. 8. 1. Profil Proyeksi

  Metode profil proyeksi dibagi menjadi dua yaitu profil proyeksi horizontal dan profil proyeksi vertikal.

  1. Definisi Profil Proyeksi Horizontal (Jindal, M. K. dkk. 2000) : Untuk citra dengan ukuran LxM dimana L adalah tinggi citra dan M adalah lebar citra, maka proyeksi horizontal didefinisikan sebagai:

  HP(i), i = 1,2,3, …., L (2 - 4) Dimana HP(i) adalah banyaknya piksel hitam dalam i baris horizontal.

  2. Definisi Profil Proyeksi Vertikal (Jindal, M. K. dkk. 2000) : Untuk citra dengan ukuran LxM dimana L adalah tinggi citra dan M adalah lebar citra, maka proyeksi vertikal didefinisikan sebagai:

  VP(j), j = 1,2,3, …., M (2 - 5) Dimana VP(i) adalah banyaknya piksel hitam dalam j kolom vertikal.

  2. 8. 2. Seglines

  Algoritma Seglines adalah algoritma yang dikembangkan berdasarkan ide proyeksi horizontal dan proyeksi vertikal yang kontinu dari algoritma Profil Proyeksi (Jindal dkk, 2007). Algoritma ini dikembangkan oleh M.K. Jindal dkk untuk memecahkan permasalahan segmentasi baris horizontal tulisan India yang saling bersentuhan antara baris satu dengan baris lainnya dan beberapa baris horizontal yang saling bertumpang tindih (Jindal dkk, 2000). Algoritma tersebut mengalami perkembangan sehingga dapat dilakukan segmentasi terhadap garis yang tumpang tindih secara horizontal (horizontally

  overlapping lines ) dan menyatukan bagian dari baris yang terpotong

  atau over segmented. Input algoritma Seglines adalah sebuah kolom artikel berita dari delapan jenis skrip yang digunakan di India dan

  Pada langkah satu algoritma 1 dan Seglines menggunakan metode proyeksi horizontal untuk mendapatkan strip. Misalnya, strip satu ditunjukan oleh gambar 10.

  Gambar 10. Strip 1 dari dokumen Gurmukhi cetak (Jindal, M. K. dkk. 2000)

  Berikut adalah algoritma 1 yang digunakan untuk proses segmentasi dokumen Gurmukhi cetak.

  Gambar 11 adalah citra dokumen Gurmukhi cetak yang telah melalui proses segmentasi dengan algoritma 1.

  Gambar 11. Hasil segmentasi dengan Algoritma 1 (Jindal, M. K. dkk. 2000)

  Algoritma 1 kemudian dinamakan algoritma Seglines dan terus dikembangkan untuk segmentasi horizontally overlapping lines dan menggabungkan komponen baris yang over segmented.

  Algotima Seglines adalah algoritma yang dibuat untuk proses segmentasi pada citra dokumen tulisan India.

  1. Algoritma Seglines BEGIN Step 1: Using the horizontal projections, different strips in input binary document are identified. For that whenever HP(i)= 0 for i =1, 2, 3, …,L, it is marked as the boundary of strip line. Let us denote the strips by S1, S2, S3, …, Sm and first row of strip p as FR(Sp), last row of strip p as document from eight scripts are shown in Figs. 3, 5, 7, 9, 11, 13, 15 and 17. Step 2: if input document is from any headline based script, go to step 3 else go to step 4. Step 3: identify the position of headlines using horizontal projections. Denote the ending position of the headlines as H1, H2, H3, …, Hn. Also denote the lines to be identified as L1, L2, L3, …, Ln. //number of headlines is same as number of actual //lines Go to step 5. Step 4: identify the position of meanlines, using first order differences of horizontal projections. Denote the position of the meanlines as H1, H2, H3, …, Hn. //number of meanlines are same as number of actual //lines. Step 5: define Step 6: set LINE_NO = 1 and first row of line LINE_NO as first row of first strip, i.e. FR(LLINE_NO)= FR(S1). Step 7: for i = 1 to m, perform the following operations: