1.8.1.1. Indexing data training
a. Tokenization:
Tabel 2.8 Contoh hasil tokenization.
terms Surat pengunduran
diri Surat lamaran kerja
Surat kuasa
Surabaya Cibinong
Alamat Melalui
Alamat bertanda
Kepada staf
tangan Yth
Lamaran Untuk
bekerja Pekerjaan
sebagaimana Manager
Blok kuasa
surat Terima
Puri Mitra
Manajer Surat
Sejati diberi
KTP terima
saya Indah
b. Normalization:
Tabel 2.9 Contoh hasil penghilangan stop word pada Tabel 2.8.
terms Surat pengunduran
diri Surat lamaran kerja
Surat kuasa
surabaya cibinong
alamat melalui
alamat bertanda
kepada staf
tangan yth
lamaran untuk
bekerja pekerjaan
sebagaimana manajer
blok kuasa
surat terima
puri mitra
manajer surat
sejati diberi
ktp terima
saya indah
c. Stop word removal:
Tabel 2.10 Contoh hasil proses normalisasi terhadap Tabel 2.9.
terms Surat pengunduran
diri Surat lamaran kerja
Surat kuasa
surabaya cibinong
alamat yth
alamat bertanda
bekerja staf
tangan manajer
lamaran indah
surat pekerjaan
ktp mitra
blok kuasa
sejati terima
puri terima
manajer surat
d. Stemming:
Tabel 2.11 Contoh hasil stemming dari Tabel 2.10.
terms Surat pengunduran
diri Surat lamaran kerja
Surat kuasa
surabaya cibinong
alamat yth
alamat tanda
kerja staf
tangan manajer
lamar indah
surat kerja
ktp mitra
blok kuasa
jati ima
puri ima
manajer surat
e. Membangun index melalui proses sorting dan grouping term:
Kumpulan term pada Tabel 2.11 kemudian disusun ke dalam satu kolom dan dihitung frekuensi kemunculannya pada masing – masing surat.
Tabel 2.12 Daftar term berserta frekuensi kemunculannya.
terms ��
�
term frequency Surat
pengunduran diri
Surat lamaran kerja
Surat kuasa
surabaya
1
yth
1
kerja
1
manajer
1
surat
1
mitra
1
jati
1
ima
1
cibinong
1
alamat
1
staf
1
lamar
1
kerja
1
blok
1
ima
1
manajer
1
alamat
1
tanda
1
tangan
1
indah
1
ktp
1
kuasa
1
puri
1
surat
1
Term pada Tabel 2.12 kemudian diurutkan secara alfabet:
Tabel 2.13 Hasil sorting secara ascending.
terms ��
�
term frequency Surat
pengunduran diri
Surat lamaran kerja
Surat kuasa
alamat
1
alamat
1
blok
1
cibinong
1
indah
1
kerja
1
kerja
1
ktp
1
kuasa
1
lamar
1
manajer
1
manajer
1
mitra
1
puri
1
jati
1
staf
1
surabaya
1
surat
1
surat
1
tanda
1
tangan
1
ima
1
ima
1
yth
1
Melalui hasil sorting pada Tabel 2.13, terlihat bahwa beberapa term yang sama muncul lebih dari satu kali. Term – term yang sama tersebut kemudian digabung menjadi
satu.
Tabel 2.14 Hasil grouping berdasarkan term yang sama.
terms ��
�
term frequency Surat
pengunduran diri
Surat lamaran kerja
Surat kuasa
alamat
1 1
blok
1
cibinong
1
indah
1
kerja
1 1
ktp
1
kuasa
1
lamar
1
manajer
1 1
mitra
1
puri
1
jati
1
staf
1
surabaya
1
surat
1 1
tanda
1
tangan
1
ima
1 1
yth
1
1.8.1.2. Training