Framework Academicopter

4.1 Framework Academicopter

Framework Academicopter ditunjukkan oleh Gambar 4.1.

Gambar 4.1. Framework Academicopter

Penjelasan alur dalam framework Academicopter adalah sebagai berikut :

1. User memasukkan keywords pencarian dalam form input pencarian Academicopter.

2. Academicopter membaca string keywords yang dimasukkan oleh user, kemudian membangkitkan url halaman sumber data dengan cara menambahkan keywords ke dalam string url sumber data yang polanya telah dikenali sebelumnya. Contoh pengenalan pola url dengan sumber academic search engine Libra adalah sebagai berikut :

a. Melakukan pencarian dengan cara memasukkan keywords pada form input Libra, misalnya text mining.

http://libra.msra.cn/Search?query= text%20mining &s=0. Dari contoh url tersebut

url untuk

Libra adalah http://libra.msra.cn/Search?query= $keywords &s=0. Di mana $keywords adalah ruang yang akan diisi oleh string keywords yang dimasukkan oleh user.

3. Academicopter membaca halaman HTML hasil pencarian yang diperoleh dari url yang telah dibangkitkan untuk mengekstraksi informasi pada data yang memiliki link dokumen PDF jurnal ilmiah. Informasi yang diekstrak adalah judul jurnal, web address sumber jurnal ilmiah, author, web address PDF jurnal ilmiah, dan data pagination.

4. Untuk mencegah terjadinya pengulangan pemrosesan peringkasan dokumen, dilakukan pencocokan antara nama file dokumen PDF yang pernah diringkas dengan informasi nama file dokumen PDF yang sedang diekstrak. Nama file dokumen yang sedang diekstrak diperoleh dengan membaca filename pada web address file PDF jurnal ilmiah.

5. Mengunduh dokumen PDF yang belum pernah diringkas sebelumnya dengan fungsi copy pada web address PDF. Dokumen PDF disimpan dalam folder Academicopter.

6. Dokumen PDF diekstrak ke dalam bentuk TXT dengan tool pdftotext.exe dan hasil ekstraksi disimpan dalam folder Academicopter.

7. Teks dalam dokumen TXT kemudian diuraikan untuk memperoleh konten, abstrak, dan keywords. Konten adalah keseluruhan isi dari dokumen. Konten diuraikan untuk memperoleh sentences. Untuk peringkasan, Academicopter hanya akan memproses isi dari abstrak dan pendahuluan dengan asumsi sebanyak maksimal lima puluh kalimat. Konten, abstrak, keywords, dan sentences disimpan dalam database Academicopter. Tahap ini sekaligus menyaring dokumen apakah termasuk dalam kategori jurnal. Dokumen akan dikenali sebagai jurnal jika memenuhi salah satu syarat di bawah ini:

a. Ditemukan kata abstract, keywords, introduction dan references. Di mana kata abstract terletak di depan kata keywords, kata keywords terletak di a. Ditemukan kata abstract, keywords, introduction dan references. Di mana kata abstract terletak di depan kata keywords, kata keywords terletak di

b. Ditemukan kata abstract, introduction dan references. Di mana kata abstract terletak di depan kata introduction, dan kata introduction terletak di depan kata references.

c. Ditemukan kata abstract, keywords dan references. Di mana kata abstract terletak di depan kata keywords, kata keywords terletak di depan kata references.

d. Ditemukan kata keywords, introduction dan references. Di mana kata keywords terletak di depan kata introduction, dan kata introduction terletak di depan kata references.

e. Ditemukan kata abstract, conclusion dan references. Di mana kata abstract terletak di depan kata conclusion, kata conclusion terletak di depan kata references.

f. Ditemukan kata keywords, conclusion dan references. Di mana kata keywords terletak di depan kata conclusion, kata conclusion terletak di depan kata references.

g. Ditemukan kata keywords, acknowledgment dan references. Di mana kata keywords terletak di depan kata acknowledgment, kata acknowledgment terletak di depan kata references.

h. Ditemukan kata introduction, conclusion dan references. Di mana kata introduction terletak di depan kata conclusion, kata conclusion terletak di depan kata references.

8. Sentences dari dokumen yang masuk dalam kategori jurnal akan diproses pada text preprocessing yang bertujuan untuk mencari kata-kata penting yang dapat mewakili isi dokumen. Proses ini terdiri dari 3 tahap, yaitu tokenizing, tagging, dan stemming yang telah dijelaskan pada sub bab 2.1.3 pada bab II. Kemudian pembobotan kalimat pada setiap dokumen dengan menghitung nilai tf (term frequency) dengan formula yang ditunjukkan pada persamaan

2.1 pada bab II, idf (inverse document frequency dengan formula yang ditunjukkan pada persamaan 2.2 pada bab II, dan fungsi untuk menghitung 2.1 pada bab II, idf (inverse document frequency dengan formula yang ditunjukkan pada persamaan 2.2 pada bab II, dan fungsi untuk menghitung

9. Dilakukan proses summarization dengan menghitung nilai Continuous Sentence Rank (CSR) pada setiap kalimat dengan formula yang ditunjukkan pada persamaan 3.1 pada bab III dan menghitung nilai metadata formula untuk metadata title, keywords, dan abstract dengan formula yang ditunjukkan pada persamaan 3.3 pada bab III. Semua skor dinormalisasi dengan formula yang ditunjukkan pada persamaan 3.4 pada bab III, kemudian dilakukan kombinasi linier dengan formula yang ditunjukkan pada persamaan

3.5 pada bab III sehingga didapatkan skor akhir. Ringkasan dibangkitkan dengan mengekstrak kalimat yang memiliki skor tertinggi. Formula untuk membangkitkan ringkasan ditunjukkan oleh persamaan 3.6 pada bab III.

10. Hasil akan digabungkan dalam satu daftar tunggal yang disajikan kepada user dengan pagination yang mengikuti pagination dari sumber data. Duplikasi data dokumen akan dihilangkan dengan menampilkan satu data saja yang berasal dari search engines dengan jumlah data yang paling sedikit.