Indexing data training Pemrosesan Data Training

1.8.1.1. Indexing data training

a. Tokenization: Tabel 2.8 Contoh hasil tokenization. terms Surat pengunduran diri Surat lamaran kerja Surat kuasa Surabaya Cibinong Alamat Melalui Alamat bertanda Kepada staf tangan Yth Lamaran Untuk bekerja Pekerjaan sebagaimana Manager Blok kuasa surat Terima Puri Mitra Manajer Surat Sejati diberi KTP terima saya Indah b. Normalization: Tabel 2.9 Contoh hasil penghilangan stop word pada Tabel 2.8. terms Surat pengunduran diri Surat lamaran kerja Surat kuasa surabaya cibinong alamat melalui alamat bertanda kepada staf tangan yth lamaran untuk bekerja pekerjaan sebagaimana manajer blok kuasa surat terima puri mitra manajer surat sejati diberi ktp terima saya indah c. Stop word removal: Tabel 2.10 Contoh hasil proses normalisasi terhadap Tabel 2.9. terms Surat pengunduran diri Surat lamaran kerja Surat kuasa surabaya cibinong alamat yth alamat bertanda bekerja staf tangan manajer lamaran indah surat pekerjaan ktp mitra blok kuasa sejati terima puri terima manajer surat d. Stemming: Tabel 2.11 Contoh hasil stemming dari Tabel 2.10. terms Surat pengunduran diri Surat lamaran kerja Surat kuasa surabaya cibinong alamat yth alamat tanda kerja staf tangan manajer lamar indah surat kerja ktp mitra blok kuasa jati ima puri ima manajer surat e. Membangun index melalui proses sorting dan grouping term: Kumpulan term pada Tabel 2.11 kemudian disusun ke dalam satu kolom dan dihitung frekuensi kemunculannya pada masing – masing surat. Tabel 2.12 Daftar term berserta frekuensi kemunculannya. terms �� � term frequency Surat pengunduran diri Surat lamaran kerja Surat kuasa surabaya 1 yth 1 kerja 1 manajer 1 surat 1 mitra 1 jati 1 ima 1 cibinong 1 alamat 1 staf 1 lamar 1 kerja 1 blok 1 ima 1 manajer 1 alamat 1 tanda 1 tangan 1 indah 1 ktp 1 kuasa 1 puri 1 surat 1 Term pada Tabel 2.12 kemudian diurutkan secara alfabet: Tabel 2.13 Hasil sorting secara ascending. terms �� � term frequency Surat pengunduran diri Surat lamaran kerja Surat kuasa alamat 1 alamat 1 blok 1 cibinong 1 indah 1 kerja 1 kerja 1 ktp 1 kuasa 1 lamar 1 manajer 1 manajer 1 mitra 1 puri 1 jati 1 staf 1 surabaya 1 surat 1 surat 1 tanda 1 tangan 1 ima 1 ima 1 yth 1 Melalui hasil sorting pada Tabel 2.13, terlihat bahwa beberapa term yang sama muncul lebih dari satu kali. Term – term yang sama tersebut kemudian digabung menjadi satu. Tabel 2.14 Hasil grouping berdasarkan term yang sama. terms �� � term frequency Surat pengunduran diri Surat lamaran kerja Surat kuasa alamat 1 1 blok 1 cibinong 1 indah 1 kerja 1 1 ktp 1 kuasa 1 lamar 1 manajer 1 1 mitra 1 puri 1 jati 1 staf 1 surabaya 1 surat 1 1 tanda 1 tangan 1 ima 1 1 yth 1

1.8.1.2. Training