Text preprocessing ANALISIS DAN PERANCANGAN SISTEM

23 7. Tahapan selanjutnya, admin memilih kategori dari teks pdf yang telah diproses. Lalu sistem akan melakukan penyimpanan data berupa, nilai hash dan fingerprint, teks yang telah di-stemming, dan teks tanpa stemming beserta nilai hash dan fingerprint-nya ke dalam database. Adapun bentuk flowchart dari tahapan yang dilakukan admin dapat dilihat pada Gambar 3.1.

a. Text preprocessing

Text Preprocessing adalah beberapa proses yang akan dilalui sebelum teks di- stemming. Proses tersebut adalah sebagai berikut: 1. Masukkan teks dokumen yang telah di-parsing. 2. Mengubah keseluruhan teks menjadi huruf kecil toLowerCase. 3. Menghapus beberapa karakter, angka, dan simbol. 4. Menghapus 2 kata yang tidak memiliki arti penting, seperti: oh, yg, ya, dan lainnya. 5. Pembentukan teks dokumen yang baru, yang akan dilanjutkan ke proses berikutnya. Proses text preprocessing dapat juga dilihat pada flowchart Gambar 3.2. 24 Tabel 3.2. Tabel Keyword id nama _file teks_key word teks_tan pa_stem ming isi_keywo rd isi_tanpa_ste mming hash_keyword hash_tanpa_stem ming fingerprint_key word fingerprint_tanpa _stemming kate gori 1 agp- apr20 05- 1.pdf zulkfikar siregarev aluasikea mbaanda yaserapai rlarut … zulkfikar siregarev aluasikea mbaanda yaserapai rdankelar utan … zulkfikar siregar evaluasi keambaan daya serap air larut evaluasi… zulkfikar siregar evaluasi keambaan daya serap air dan kelarutan dari… a:6151:{i:0;d:5 155;i:1;d:4240; i:2;d:9592;i:3; d:7129;i:4;d:74 15;i:5;d:4748;i :6;d:3423;i:7;d :374; … a:9044:{i:0;d:515 5;i:1;d:4240;i:2;d: 9592;i:3;d:7129;i: 4;d:7415;i:5;d:47 48;i:6;d:3423;i:7; d:374;i:8;d:8894; … a:1350:{i:0;d:42 40;i:2;d:3423;i:3 ;d:374;i:8;d:766; i:10;d:2546;i:12; d:4359;i:13;d:43 54;i:15;d:3362;i: 19;d:1811;… a:1803:{i:0;d:424 0;i:2;d:3423;i:3;d: 374;i:8;d:766;i:10 ;d:2546;i:12;d:43 59;i:13;d:4354;i:1 5;d:3362;i:19;d:1 811;i:24;… 1 2 agp- apr20 05- 2.pdf hasnuditr ihestiwa hyunipen garuhgun ahasilsa mpingin dustri… hasnudid antrihesti wahyuni pengaruh penggun aanhasils amping … hasnudi tri hesti wahyuni pengaruh guna hasil samping industri… hasnudi dan tri hesti wa- hyuni pengaruh penggunaan hasil sampingan… a:12052:{i:0;d: 3172;i:1;d:256 0;i:2;d:716;i:3; d:4167;i:4;d:31 36;i:5;d:8550;i :6;d:5906;i:7;d :4979;i:8;… a:18763:{i:0;d:14 07;i:1;d:4936;i:2; d:4475;i:3;d:1719 ;i:4;d:8665;i:5;d:3 794;i:6;d:8377;i:7 ;d:9694;i:8;d:732 5;i:9; … a:1969:{i:0;d:71 6;i:3;d:3136;i:4; d:1858;i:5;d:479 ;i:10;d:562;i:13; d:2624;i:14;d:48 29;i:17;d:2319;i: 22;d:3202; … a:2661:{i:0;d:140 7;i:1;d:1719;i:4;d: 3794;i:6;d:4979;i: 7;d:1858;i:8;d:47 9;i:13;d:562;i:16; d:2624;i:17;d:482 9;i:20; … 1 25 Mulai Masukkan pdf Parsing pdf Text Preprocessing Penghapusan Stopwords Stemming Perlu di-Stemming Pembentukan nilai hash dan fingerprint Pilih Kategori Jurnal TIDAK YA Selesai Gambar 3.1. Flowchart Proses Admin 26 Mulai Masukkan teks yang telah di- parsing toLowerCase Penghapusan karakter, angka, dan simbol Penghapusan karakter, angka, dan simbol Penghapusan 2 kata Masukkan teks yang telah di- parsing Array kata pembentuk kalimat Mulai Selesai Gambar 3.2. Flowchart Text Preprocessing

b. Penghapusan stopwords