2. Phonetic String Matching
Phonetic String Matching adalah pencocokan string dengan dasar
kemiripan dari segi pengucapannya meskipun ada perbedaan penulisan dua string yang dibandingkan tersebut. Contoh step dengan steb dari
tulisan berbeda tetapi dalam pengucapannya mirip sehingga dua string tersebut dianggap cocok. Contoh yang lain adalah step, dengan steppe,
sttep, stepp, stepe . Dalam pembagiannya beberapa algoritma phonetic
string matching antara lain : soundex, metaphone, caverphone, phonex,
NYSIIS, Jaro-Winkler, dan lain-lain. Syaroni dan Munir, 2004
Dalam penerapan kedua algoritma tersebut, sebenarnya phonetic string matching dapat dimanfaatkan untuk approximate string matching dengan
batasan dua string yang dicocokkan masih memiliki kemiripan ucapan. Phonetic string matching sering juga dimanfaatkan untuk approximate string
matching karena phonetic string matching lebih mudah diimplementasikan. Phonetic string matching banyak digunakan dalam bahasa Inggris karena
dalam bahasa Inggris terdapat perbedaan antara penulisan dan pengucapan. Hal itupun terjadi pada bentuk penamaan Indonesia.
2.6. Karakteristik Nama
Nama adalah sebutan atau label yang diberikan kepada benda, manusia, tempat, produk misalnya merek produk dan bahkan gagasan atau konsep,
yang biasanya digunakan untuk membedakan satu sama lain. Nama dapat
dipakai untuk mengenali sekelompok atau hanya sebuah benda dalam konteks yang unik maupun yang diberikan. Nama manusia umumnya terbagi kepada
nama depan dan nama keluarga marga, contohnya Ali Wijaya, di mana Ali adalah nama depan sedangkan Wijaya adalah marganya. Meskipun begitu, ada
pula budaya-budaya yang tidak mengenal konsep tersebut. Ada pula nama
panggilan yang merupakan nama khusus yang digunakan dalam bersosialisasi.
Ada banyak cara untuk menyusun suatu nama, tergantung dari budaya setempat dan bahasa setempat dan biasanya merupakan kombinasi dari
1. nama pemberiannama depan unik untuk setiap anak.
2. nama keluarga unik untuk setiap keturunan dari garis laki-laki
3. nama tengah untuk membedakan nama pemberian yang sama dari satu
keluarga 4.
nama akhir nama pemberian yang diletakkan setelah nama depan 5.
nama ayah 6.
nama ibu 7.
nama gadis nama keluarga ibu sebelum menikah 8.
nama keluarga kakek dari ayah =nama keluarga 9.
nama keluarga nenek dari ayah =nama gadis nenek dari ayah 10.
nama keluarga kakek dari ibu =nama gadis ibu 11.
nama keluarga nenek dari ibu =nama gadis nenek dari ibu 12.
nama baptis 13.
nama kota biasanya di EropaAmerika
14. nama pekerjaan biasanya di EropaAmerika
15. nama warna biasanya di EropaAmerika
Daftar ini hanya sebagian kecil dari variasi yang mungkin terbentuk.
2.7. Normalisasi nama
Sebuah nama dapat memiliki banyak variasi dalam berbagai bahasa, biasanya untuk membuat suatu nama menjadi unik, orang juga membuat
variasi mereka sendiri terhadap suatu nama yang telah ada. Nama-nama yang umum dipakai biasanya diturunkan dari nama orang-orang terkenal pada
zaman dahulu, atau nama yang memiliki makna khusus kata-kata yang indah,
profesi orangtua, nama bunga, dan lain-lain.
Dengan demikian, Penulisan dan cara pengucapan nama sangat tergantung kepada bahasa yang digunakan. Damerau 1964 : 171-176 menunjukkan
setidaknya ada empat kejadian yang mengakibatkan variasi pada nama.
Tabel 2.2 Damerau Variasi Nama
Jenis Nama Dasar
Variasi Insertion
Penyisipan Fisher
Fishcer Omission
Penghilangan Johnston
Johnson Subtitution
Penggantian Chatherine
Katherine Transpotition
Pertukaran Hagler
Halger
Variasi pada nama tersebut, secara umum juga terjadi pada penamaan Indonesia. Sehingga dapat disimpulkan bahwa sifat bentuk penulisan dan
pengucapan penamaan orang, adalah: 1.
Memiliki bentuk cara penulisan yang bervariasi dalam satu nama orang.
2. Tidak memiliki standar penulisan nama yang baku.
3. Ketidakpastian kekaburan dalam bentuk penulisan.
4. Beberapa nama yang penulisannya berbeda, memiliki cara pengucapan
yang sama.
Oleh karena itu, berdasarkan referensi studi yang dilakukan oleh Karhendana dalam studinya normalisasi string untuk optimasi phonetic string
matching dalam menangani data nama orang didapatkan bahwa perlu adanya suatu langkah normalisasi sebelum dilakukan langkah pencocokan string
dalam penamaan Bahasa Indonesia. Hal ini dilakukan untuk mendapatkan bentuk normal dari suatu bentuk penamaan Indonesia untuk meningkatkan
akurasi algoritma pencocokan string dalam string nama orang. Adapun secara umum normalisasi bertujuan, yaitu :
1. Untuk menghilangkan kerangkapan data.
2. Untuk mengurangi kompleksitas.
3. Untuk mempermudah pemodifikasian data
Proses normalisasi secara garis besar terbagi menjadi beberapa tahap, yaitu : Karhendana : 2002
1. Normalisasi Q-gram
2. Eliminasi duplikasi karakter
Tahap yang paling penting dalam proses normalisasi adalah translasi Q- gram. Q-gram adalah susunan beberapa huruf yang berurutan. translasi q-gram
dilakukan dengan mengubah susunan huruf tersebut menjadi q-gram lain yang lebih sederhana. Tahap eliminasi duplikasi karakter dilakukan dengan
menghilangkan karakter-karakter berurutan yang sama. Kebanyakan duplikasi karakter ini muncul setelah langkah normalisasi Q-gram. Karhendana : 2002
2.8. Sistem Basis Data