Aksara Jawa LANDASAN TEORI

2.2 Pemrosesan Citra Digital

Sebuah citra dapat didefinisikan sebagi fungsi dua dimensi, fx, y, x dan y merupakan koordinat spatial dan amplitudo dari f dengan pasangan koordinat x, y disebut intensitas citra atau gray level pada titik tersebut. Ketika x, y dan nilai amplitudo dari f adalah terbatas finite, bernilai diskrit maka suatu citra dapat disebut sebagai citra digital digital image. Citra digital ini terbentuk dari angka yang terbatas dan dapat diukur finite dari setiap elemennya yang memiliki lokasi dan nilai tertentu. Elemen-elemen tersebut sering kita sebut dengan picture elements, image elements, pels, dan pixels. Pemrosesan yang terkait dengan citra digital ini dapat didefinisikan sebagai suatu proses yang memiliki input dan output berupa image citra dan sebagai tambahan meliputi juga proses yang mengekstraksi atribut dari citra hingga sampai pada pengenalan masing-masing objek. Gonzales dan Woods, 2008. Menurut Kadir dan Susanto 2012 secara umum terdapat tiga jenis citra yang sering digunakan dalam pemrosesan citra yaitu citra berwarna, citra berskala keabuan dan citra biner citra hitam putih.

2.2.1 Citra Berwarna

Citra berwarna merupakan jenis citra yang mempunyai 3 komponen warna, yaitu komponen merah red, komponen hijau green dan komponen biru blue sehingga sering disebut dengan citra RGB Red Green Blue. Setiap komponen R merah, G hijau dan B biru memiliki ukuran 8 bit, yaitu berkisar antara 0 sampai dengan 255. Secara umum, jumlah variasi warna yang dapat dihasilkan dari perpaduan citra RGB adalah 2 b 3 , dengan b adalah jumlah bits disetiap komponen citra. Untuk citra 8-bit, jumlah warna yang dapat dihasilkan sebanyak 16.777.216 warna. Ruang warna RGB biasanya dapat dinyatakan secara grafik dengan RGB color cube kubus warna RGB. Gambar 2.9 Warna RGB dalam Ruang Berdimensi Tiga Gambar 2.9 merupakan representasi dari RGB color cube kubus warna RGB dengan 3 simpul utama yaitu warna primer red, green, blue dan warna sekunder cyan, magenta and yellow.

2.2.2 Citra Berskala Keabuan

Citra berskala keabuan atau sering disebut dengan citra grayscale merupakan representasi citra yang memiliki gradasi warna hitam dan putih sehingga menghasilkan efek warna keabuan. Intensitas warna yang dimiliki citra grayscale adalah 8 bit, yaitu berskala sekitar antara 0 sampai 255. Intensitas 0 menyatakan warna hitam dan intensitas 255 menyatakan warna putih sehingga intensitas antara 0 sampai 255 menghasilkan wana keabuan.

2.2.3 Citra Biner

Citra biner merupakan jenis citra yang memiliki intensitas 0 atau 1. Intensitas 0 menyatakan warna hitam dan intensitas 1 warna menyatakan putih. Seringkali citra biner disebut juga sebagai citra black and white atau citra hitam putih.

2.3 Pengenalan Pola

Definisi pengenalan pola adalah suatu disiplin ilmu sains yang mempunyai tujuan pada pengklasifikasian objek ke dalam beberapa kelas atau kategori. Objek tersebut bergantung pada pengaplikasiannya, seperti citra, sinyal maupun tipe objek lainnya yang ingin diklasifikasi. Pengenalan pola merupakan bagian integral dalam sistem mesin cerdas machine intelligence yang dibuat untuk membuat sebuah keputusan Theodoridis dan Koutroumbas, 2009. Suatu sistem dapat dikatakan sebagai sistem pengenalan pola jika terdiri dari beberapa komponen seperti data acquisition, preprocessing, feature extraction, feature selection, model selection and training, serta evaluation Polikar, 2006. Di beberapa kajian penelitian tentang character recognition terdapat sebuah proses atau komponen yang dilakukan sebelum ke tahap evaluation, yaitu postprocessing Patil dan Srinivasan, 2013. Pengertian dari data acquisition adalah suatu proses bagaimana cara kita memperoleh data, cara mengukur data tersebut dan berapa jumlah data yang diperlukan. Data yang kita dapatkan berasal dari lingkungan sekitar yang kemudian kita ubah kedalam bentuk digital sehingga dapat diolah oleh komputer. Komponen selanjutnya adalah preprocessing, yaitu proses ketika data yang sudah diperoleh acquired data dikondisikan sedemikian sehingga siap diolah untuk tahap selanjutnya dengan tujuan agar permasalahan mengenai pengenalan pola dapat dengan mudah diselesaikan. Hal-hal yang biasanya dilakukan dalam tahap preprocessing yaitu outlier removal, data normalization, treating missing data, dll Theodoridis dan Koutroumbas, 2009. Definisi dari feature extraction adalah mengekstrak atau mengambil fitur-fitur penting dari objek untuk mengurangi dimensi data. Secara singkat, tujuan dari feature extraction adalah menemukan jumlah kecil dari fitur objek subset yang mampu membedakan dengan objek lainnya dan yang paling informatif untuk proses klasifikasi. Pentingnya pengurangan dimensi data dimensionality reduction di dalam pengenalan pola atau bisa dikatakan sebuah feature set kecil tetapi sangat informatif secara signifikan dapat mengurangi kompleksitas dari algoritma yang digunakan untuk proses klasifikasi, waktu dan beban memory untuk menjalankan algoritma. Komponen selanjunya adalah feature selection yaitu menyeleksi atau memilih subset fitur dari set himpunan fitur yang telah diidentifikasi sebelumnya menggunakan algoritma yang digunakan pada tahap feature extraction. Pemilihan fitur ini didasarkan pada pencarian subset fitur yang mengarah pada performa generalisasi terbaik dari kinerja classifier ketika dilatih dengan subset tersebut. Model selection and training adalah komponen yang dipenuhi setelah data diperoleh lalu melalui tahap preprocessing, kemudian ektraksi fitur dan pemilihan fitur yang unik atau informatif dari objek tersebut sehingga telah siap untuk memilih classifier dan algoritma pelatihan training yang sesuai. Proses klasifikasi dapat dikatakan pemilihan fungsi aproksimasi yang mampu memetakan suatu masukan input kedalam informasi pada sebuah class yang sesuai. Ketika proses klasifikasi ini dikatakan sebagai suatu fungsi aproksimasi maka berbagai alat matematika mathematical tools seperti algoritma optimasi dapat digunakan. Menurut Jain et al., 2000 algoritma atau pendekatan yang umum digunakan untuk proses klasifikasi adalah template matching, statistical classification, syntactic or structural matching, dan neural network. Proses pengenalan pola, khususnya untuk character recognition belum selesai pada tahap klasifikasi. Menurut Patil dan Srinivasan 2013 proses mentranslasikan sebuah simbol haruslah diletakkan ke dalam konteks yang tepat agar membentuk sebuah karakter, kata, kalimat atau bahkan keseluruhan isi dokumen. Hal yang sama juga dipaparkan oleh Widiarti dan Winarko 2012 pada penelitiannya yang secara khusus tentang manuskrip beraksara Jawa dalam hal grouping pengelompokan suku kata agar membentuk suatu kata atau kalimat yang benar. Hal tersebut perlu dilakukan karena karakter penulisan aksara Jawa adalah tanpa spasi sehingga jika tidak dikelompokkan maka hanya berupa susunan kata, tanpa ada arti atau informasi dari barisan suku kata yang ada. Bagian komponen terakhir, yaitu setelah postprocessing selesai sering disebut sebagai evaluation. Performa kinerja dari classifier perlu dievaluasi menggunakan data baru untuk menghitung tingkat kebenaran atau akurasi yang dihasilkan oleh classifier. Pertama, dataset terlebih dahulu harus dipisah antara data untuk training dan testing. Terkait dengan pembagian dataset untuk memisah data training dan data testing menjadi penting karena data testing harus independent dari data training agar mampu membentuk model yang relatif tepat untuk membentuk prediksi data baru yang akan datang. Namun di sisi lain ada perhatian khusus mengenai data yang dipakai untuk training dan testing yang harus diperhatikan seperti jika sebagian kecil dari data yang digunakan untuk testing maka perkiraan dari performa generalisasi dari classifier mungkin tidak dapat diandalkan unreliable, sedangkan jika sebagian besar data dipakai untuk testing maka berakibat pada sedikitnya data latih training atau sering disebut dengan poor training.

2.4 Data Acquisition

Data acquisition merupakan suatu proses yang kita kerjakan untuk memperoleh data, cara mengukur data tersebut dan berapa jumlah data yang diperlukan. Data tersebut bisa diperoleh dengan memotret menggunakan kamera, sensor satelit, atau menggunakan sensor lainnya. Data yang kita dapatkan berasal dari lingkungan sekitar yang kemudian kita ubah kedalam bentuk digital sehingga dapat diolah oleh komputer.

2.5 Preprocessing

2.5.1 Cropping Cropping pada sebuah citra merupakan proses yang dilakukan untuk memotong pada koordinat tertentu yang berada pada area citra tersebut. Proses pemotongan citra cropping termasuk dalam kategori operasi geometri citra. Secara umum hanya dibutuhkan 2 buah koordinat untuk melakukan proses pemotongan yaitu koordinat awal dan koordinat akhir. Koordinat awal merupakan titik pojok kiri atas citra yang akan dipotong sedangkan koordinat akhir merupakan titik pojok kanan bawah citra yang akan dipotong. Tiap-tiap pixel yang ada pada koordinat tersebut menjadi sebuah citra baru yang merupakan hasil dari pemotongan citra yang dilakukan. 2.5.2 Grayscaling Citra grayscale atau citra keabu-abuan memiliki nuansa warna abu-abu yang berada diantara warna hitam dan putih. Citra graysclace direpresentasikan dengan variasi nilai intensitas tertentu yang berada dalam interval 0 hingga 255. Proses grayscaling mengubah citra berwarna yang memiliki 3 komponen warna R, G dan B menjadi 1 komponen warna dengan memberikan sebuah nilai bobot kepada 3 komponen R, G dan B kemudian dijumlahkan untuk memperoleh intensitas warna abu-abu. Persamaan yang umum dipakai untuk mengubah citra berwarna menjadi citra grayscale menggunakan standar NTSC National Television System Committee yang dapat dinyatakan sebagai berikut: , = . , + . � , + . ∗ , 2.1 Dengan: gx,y = citra yang akan dikonversi menjadi grayscale Rx,y = nilai pixel pada lokasi x,y untuk komponen R Gx,y = nilai pixel pada lokasi x,y untuk komponen G Bx,y = nilai pixel pada lokasi x,y untuk komponen B 2.5.3 Binarization Binarization merupakan sebuah proses untuk mengubah citra grayscale menjadi citra hitam putih. Citra perlu diubah kedalam format binary karena informasi mengenai warna tidak dibutuhkan, selain itu juga untuk mengurangi dimensi data dan kompleksitas komputasi serta data yang diproses hanya dalam format 0 atau 1. Secara umum suatu