Karakteristik Nama Normalisasi nama

2. Phonetic String Matching

Phonetic String Matching adalah pencocokan string dengan dasar kemiripan dari segi pengucapannya meskipun ada perbedaan penulisan dua string yang dibandingkan tersebut. Contoh step dengan steb dari tulisan berbeda tetapi dalam pengucapannya mirip sehingga dua string tersebut dianggap cocok. Contoh yang lain adalah step, dengan steppe, sttep, stepp, stepe . Dalam pembagiannya beberapa algoritma phonetic string matching antara lain : soundex, metaphone, caverphone, phonex, NYSIIS, Jaro-Winkler, dan lain-lain. Syaroni dan Munir, 2004 Dalam penerapan kedua algoritma tersebut, sebenarnya phonetic string matching dapat dimanfaatkan untuk approximate string matching dengan batasan dua string yang dicocokkan masih memiliki kemiripan ucapan. Phonetic string matching sering juga dimanfaatkan untuk approximate string matching karena phonetic string matching lebih mudah diimplementasikan. Phonetic string matching banyak digunakan dalam bahasa Inggris karena dalam bahasa Inggris terdapat perbedaan antara penulisan dan pengucapan. Hal itupun terjadi pada bentuk penamaan Indonesia.

2.6. Karakteristik Nama

Nama adalah sebutan atau label yang diberikan kepada benda, manusia, tempat, produk misalnya merek produk dan bahkan gagasan atau konsep, yang biasanya digunakan untuk membedakan satu sama lain. Nama dapat dipakai untuk mengenali sekelompok atau hanya sebuah benda dalam konteks yang unik maupun yang diberikan. Nama manusia umumnya terbagi kepada nama depan dan nama keluarga marga, contohnya Ali Wijaya, di mana Ali adalah nama depan sedangkan Wijaya adalah marganya. Meskipun begitu, ada pula budaya-budaya yang tidak mengenal konsep tersebut. Ada pula nama panggilan yang merupakan nama khusus yang digunakan dalam bersosialisasi. Ada banyak cara untuk menyusun suatu nama, tergantung dari budaya setempat dan bahasa setempat dan biasanya merupakan kombinasi dari 1. nama pemberiannama depan unik untuk setiap anak. 2. nama keluarga unik untuk setiap keturunan dari garis laki-laki 3. nama tengah untuk membedakan nama pemberian yang sama dari satu keluarga 4. nama akhir nama pemberian yang diletakkan setelah nama depan 5. nama ayah 6. nama ibu 7. nama gadis nama keluarga ibu sebelum menikah 8. nama keluarga kakek dari ayah =nama keluarga 9. nama keluarga nenek dari ayah =nama gadis nenek dari ayah 10. nama keluarga kakek dari ibu =nama gadis ibu 11. nama keluarga nenek dari ibu =nama gadis nenek dari ibu 12. nama baptis 13. nama kota biasanya di EropaAmerika 14. nama pekerjaan biasanya di EropaAmerika 15. nama warna biasanya di EropaAmerika Daftar ini hanya sebagian kecil dari variasi yang mungkin terbentuk.

2.7. Normalisasi nama

Sebuah nama dapat memiliki banyak variasi dalam berbagai bahasa, biasanya untuk membuat suatu nama menjadi unik, orang juga membuat variasi mereka sendiri terhadap suatu nama yang telah ada. Nama-nama yang umum dipakai biasanya diturunkan dari nama orang-orang terkenal pada zaman dahulu, atau nama yang memiliki makna khusus kata-kata yang indah, profesi orangtua, nama bunga, dan lain-lain. Dengan demikian, Penulisan dan cara pengucapan nama sangat tergantung kepada bahasa yang digunakan. Damerau 1964 : 171-176 menunjukkan setidaknya ada empat kejadian yang mengakibatkan variasi pada nama. Tabel 2.2 Damerau Variasi Nama Jenis Nama Dasar Variasi Insertion Penyisipan Fisher Fishcer Omission Penghilangan Johnston Johnson Subtitution Penggantian Chatherine Katherine Transpotition Pertukaran Hagler Halger Variasi pada nama tersebut, secara umum juga terjadi pada penamaan Indonesia. Sehingga dapat disimpulkan bahwa sifat bentuk penulisan dan pengucapan penamaan orang, adalah: 1. Memiliki bentuk cara penulisan yang bervariasi dalam satu nama orang. 2. Tidak memiliki standar penulisan nama yang baku. 3. Ketidakpastian kekaburan dalam bentuk penulisan. 4. Beberapa nama yang penulisannya berbeda, memiliki cara pengucapan yang sama. Oleh karena itu, berdasarkan referensi studi yang dilakukan oleh Karhendana dalam studinya normalisasi string untuk optimasi phonetic string matching dalam menangani data nama orang didapatkan bahwa perlu adanya suatu langkah normalisasi sebelum dilakukan langkah pencocokan string dalam penamaan Bahasa Indonesia. Hal ini dilakukan untuk mendapatkan bentuk normal dari suatu bentuk penamaan Indonesia untuk meningkatkan akurasi algoritma pencocokan string dalam string nama orang. Adapun secara umum normalisasi bertujuan, yaitu : 1. Untuk menghilangkan kerangkapan data. 2. Untuk mengurangi kompleksitas. 3. Untuk mempermudah pemodifikasian data Proses normalisasi secara garis besar terbagi menjadi beberapa tahap, yaitu : Karhendana : 2002 1. Normalisasi Q-gram 2. Eliminasi duplikasi karakter Tahap yang paling penting dalam proses normalisasi adalah translasi Q- gram. Q-gram adalah susunan beberapa huruf yang berurutan. translasi q-gram dilakukan dengan mengubah susunan huruf tersebut menjadi q-gram lain yang lebih sederhana. Tahap eliminasi duplikasi karakter dilakukan dengan menghilangkan karakter-karakter berurutan yang sama. Kebanyakan duplikasi karakter ini muncul setelah langkah normalisasi Q-gram. Karhendana : 2002

2.8. Sistem Basis Data