23
7. Tahapan selanjutnya, admin memilih kategori dari teks pdf yang telah diproses. Lalu sistem akan melakukan penyimpanan data berupa, nilai hash
dan fingerprint, teks yang telah di-stemming, dan teks tanpa stemming beserta nilai hash dan fingerprint-nya ke dalam database.
Adapun bentuk flowchart dari tahapan yang dilakukan admin dapat dilihat pada Gambar 3.1.
a. Text preprocessing
Text Preprocessing adalah beberapa proses yang akan dilalui sebelum teks di- stemming. Proses tersebut adalah sebagai berikut:
1. Masukkan teks dokumen yang telah di-parsing. 2. Mengubah keseluruhan teks menjadi huruf kecil toLowerCase.
3. Menghapus beberapa karakter, angka, dan simbol. 4. Menghapus 2 kata yang tidak memiliki arti penting, seperti: oh, yg, ya, dan
lainnya. 5. Pembentukan teks dokumen yang baru, yang akan dilanjutkan ke proses
berikutnya. Proses text preprocessing dapat juga dilihat pada flowchart Gambar 3.2.
24
Tabel 3.2. Tabel Keyword
id nama _file
teks_key word
teks_tan pa_stem
ming isi_keywo
rd isi_tanpa_ste
mming hash_keyword hash_tanpa_stem
ming fingerprint_key
word fingerprint_tanpa
_stemming kate
gori
1 agp- apr20
05- 1.pdf
zulkfikar siregarev
aluasikea mbaanda
yaserapai rlarut
… zulkfikar
siregarev aluasikea
mbaanda yaserapai
rdankelar utan
… zulkfikar
siregar evaluasi
keambaan daya serap
air
larut evaluasi…
zulkfikar siregar
evaluasi keambaan
daya serap air dan kelarutan
dari… a:6151:{i:0;d:5
155;i:1;d:4240; i:2;d:9592;i:3;
d:7129;i:4;d:74 15;i:5;d:4748;i
:6;d:3423;i:7;d :374;
… a:9044:{i:0;d:515
5;i:1;d:4240;i:2;d: 9592;i:3;d:7129;i:
4;d:7415;i:5;d:47 48;i:6;d:3423;i:7;
d:374;i:8;d:8894;
… a:1350:{i:0;d:42
40;i:2;d:3423;i:3 ;d:374;i:8;d:766;
i:10;d:2546;i:12; d:4359;i:13;d:43
54;i:15;d:3362;i:
19;d:1811;… a:1803:{i:0;d:424
0;i:2;d:3423;i:3;d: 374;i:8;d:766;i:10
;d:2546;i:12;d:43 59;i:13;d:4354;i:1
5;d:3362;i:19;d:1
811;i:24;… 1
2 agp- apr20
05- 2.pdf
hasnuditr ihestiwa
hyunipen garuhgun
ahasilsa mpingin
dustri… hasnudid
antrihesti wahyuni
pengaruh penggun
aanhasils amping
… hasnudi tri
hesti wahyuni
pengaruh guna hasil
samping
industri… hasnudi dan
tri hesti wa- hyuni
pengaruh penggunaan
hasil
sampingan… a:12052:{i:0;d:
3172;i:1;d:256 0;i:2;d:716;i:3;
d:4167;i:4;d:31 36;i:5;d:8550;i
:6;d:5906;i:7;d
:4979;i:8;… a:18763:{i:0;d:14
07;i:1;d:4936;i:2; d:4475;i:3;d:1719
;i:4;d:8665;i:5;d:3 794;i:6;d:8377;i:7
;d:9694;i:8;d:732 5;i:9;
… a:1969:{i:0;d:71
6;i:3;d:3136;i:4; d:1858;i:5;d:479
;i:10;d:562;i:13; d:2624;i:14;d:48
29;i:17;d:2319;i: 22;d:3202;
… a:2661:{i:0;d:140
7;i:1;d:1719;i:4;d: 3794;i:6;d:4979;i:
7;d:1858;i:8;d:47 9;i:13;d:562;i:16;
d:2624;i:17;d:482 9;i:20;
… 1
25
Mulai
Masukkan pdf
Parsing pdf
Text Preprocessing
Penghapusan Stopwords
Stemming Perlu
di-Stemming
Pembentukan nilai hash dan
fingerprint
Pilih Kategori Jurnal
TIDAK YA
Selesai
Gambar 3.1. Flowchart Proses Admin
26
Mulai Masukkan
teks yang telah di-
parsing
toLowerCase
Penghapusan karakter, angka, dan
simbol Penghapusan
karakter, angka, dan simbol
Penghapusan 2 kata Masukkan
teks yang telah di-
parsing
Array kata pembentuk
kalimat Mulai
Selesai
Gambar 3.2. Flowchart Text Preprocessing
b. Penghapusan stopwords