3.2. Analisis Sistem
Analisis sistem bertujuan untuk mengidentifikasi permasalahan-permasalahan yang ada pada sistem yang meliputi perangkat lunak software, pengguna user serta hasil
analisis terhadap sistem dan elemen-elemen yang terkait. Analisis ini diperlukan sebagai dasar bagi tahapan perancangan sistem. Analisis sistem ini meliputi desain
data, deskripsi sistem, dan implementasi desain dan semua yang diperlukan dalam aplikasi peringkasan teks otomatis.
Dalam penelitian ini sistem mempunyai 2 tahapan proses yaitu tahapan pertama adalah tahap text Preprocessing yaitu tahap awal dari text mining. Tahap ini
mencakup semua rutinitas, dan proses untuk mempersiapkan data yang akan digunakan pada operasi knowledge discovery sistem text mining Feldman Sanger,
2007. Tindakan yang dilakukan pada tahap ini adalah toLowerCase, yaitu mengubah semua karakter huruf menjadi huruf kecil dan Tokenizing yaitu proses penguraian
deskripsi yang semula berupa kalimat-kalimat menjadi kata-kata dan menghilangkan delimiter-delimiter seperti tanda titik ., koma ,, spasi dan karakter angka yang ada
pada kata tersebut Weiss et al, 2005. Sedangkan tahap kedua adalah Tahap seleksi fitur feature selection bertujuan untuk mengurangi dimensi dari suatu kumpulan
teks, atau dengan kata lain menghapus kata-kata yang dianggap tidak penting atau tidak menggambarkan isi dokumen sehingga proses pengklasifikasian lebih efektif
dan akurat Do et al, 2006., Feldman Sanger, 2007., Berry Kogan 2010. Pada tahap ini tindakan yang dilakukan adalah menghilangkan stopword stopword
removal dan stemming terhadap kata yang berimbuhan Berry Kogan 2010., Feldman Sanger 2007.
3.2.1. Text Preprocessing
Langkah-langkah proses text preprocessing adalah sebagai berikut : 1. Setelah teks dokumen dimasukkan maka sistem akan merubah semua karakter
huruf menjadi huruf kecil melalui proses toLowerCase. 2. Kemudian dilakukan penghapusan delimiter yaitu karakter angka dan karakter
simbol kecuali karakter huruf serta penguraian terhadap kalimat-kalimat yang ada di teks dokumen tersebut.
3. Hasilnya adalah kata-kata penyusun kalimat yang ada di teks dokumen.
Universitas Sumatera Utara
4. Proses text preprocessing selesai. Flowchart dari proses text preprocessing adalah sebagai berikut:
Mulai
Teks dokumen
toLowerCase
Menghilangkan delimiter dan
penguraian kalimat
Kata-kata penyusun
kalimat
Selesai
Gambar 3.2 Flowchart Text Preprocessing
Contoh : Misal terdapat input kalimat seperti :
Maka setelah melalui proses ToLowerCase maka huruf besar dalam kalimat tersebut berubah menjadi huruf kecil :
Kemudian setelah proses penghilangan delimiter dan penguraian kalimat maka Kemudian setelah proses penghilangan delimiter dan penguraian kalimat maka
hasilnya adalah sebagai berikut :
Gambar 3.4 Contoh kalimat setelah ToLowerCase
dalam penelitian ini data terdiri 3 bagian yaitu data berita, data unik, dan data kata dasar.
Dalam penelitian ini data terdiri 3 bagian yaitu data berita, data unik, dan data kata dasar.
Gambar 3.3 Contoh kalimat yang akan diinput
Universitas Sumatera Utara
Tabel 3.4 Hasil dari proses text preprocessing
dalam penelitian
ini terdiri
bagian yaitu
data berita
data unik
dan data
kata dasar
3.2.2. Feature Selection
Pada tahap ini terdapat dua proses yang dilakukan, adalah sebagai berikut : 1. Stopword Removal Filtering
Langkah-langkah untuk proses filtering adalah sebagai berikut : a. Kata-kata penyusun kalimat hasil dari tahap text preprocessing dijadikan
sebagai masukkan. b. Kemudian dibandingkan dengan kata-kata yang ada di database stopword.
c. Jika kata yang dimasukkan sama dengan kata di database stopword maka kata yang dimasukkan dihapus. Namun jika kata yang dimasukkan tidak
sama dengan kata yang ada di database stopword maka tersebut tidak dihapus
d. Proses filtering selesai. Flowchart dari proses filtering adalah sebagai berikut :
Universitas Sumatera Utara
Mulai
Kata-kata hasil text
processing
Membandingkan kata yang diinput dengan
dengan kata-kata yang ada di database stopword
Kata yang diinput = kata yang ada didatabase stopword
Kata-kata yang bukan
stopword
Selesai Ya
hapus Tidak
Gambar 3.5 Flowchart proses filtering
Contoh : Misalkan terdapat masukkanyang merupakan hasil dari proses text processing
sebagai berikut :
Tabel 3.5 Hasil dari proses text preprocessing yang dijadikan input.
dalam penelitian
ini terdiri
bagian yaitu
data berita
data unik
dan data
kata dasar
Dan misalnya terdapat stopword yang dalam database stopword sebagai berikut :
Tabel 3.6 Kumpulan stopword
dan dari
ingin ini
kepada dalam
selalu lalu
yaitu bahwa
terdiri sekali
dulu sekalian
enggak bagian
Universitas Sumatera Utara
Kemudian sistem akan membandingkan antara kata-kata yang dimasukkan dengan kata-kata yang ada di dalam database stopword. Selanjutnya sistem akan
menghapus kata-kata yang dimasukkan apabila kata-kata yang dimasukkan sama dengan kata-kata yang ada di database stopword. Maka ouput-nya menjadi sebagai
berikut :
Tabel 3.7 Hasil dari proses filtering
penelitian data
berita data
unik data
kata dasar
3.2.3. Contoh penggunaan algoritma tfidf
Berikut simulasi perhitungan nilai tfidf bisa dilihat pada bagian dibawah ini : Terdapat kalimat:
Saya sedang belajar menghitung tf.idf. Tf.idf merupakan frekuensi kemunculan term pada dokumen. Langkah awal perhitungan tersebut adalah
menghitung tf, kemudian menghitung df dan idf. Langkah terakhir menghitung nilai tf.idf. Mari kita belajar
Catatan: tiap kalimat dianggap sebagai dokumen. Setelah di pisah akan menjadi seperti berikut :
D1 Saya sedang belajar menghitung tf.idf. D2 Tf.idf merupakan frekuensi kemunculan term pada dokumen.
D3 Langkah awal perhitungan tersebut adalah menghitung tf, kemudian menghitung df dan idf.
D4 Langkah terakhir menghitung nilai tf.idf. D5 Mari kita belajar
Menghitung Term Frequency tf
Term frequency tf merupakan frekuensi kemunculan term t pada dokumen d. Data tulisan tersebut mengalami proses tokenisasi, stop words dan steaming sehingga
menjadi :
Universitas Sumatera Utara
Tabel 3.8 Menghitung tf Term t
D1 D2
D3 D4
D5
Akhir 1
Awal 1
Belajar 1
1 Dokumen
1 Frekuensi
1 Hitung
1 3
1 Idf
1 1
1 1
Kita 1
Langkah 1
1 Muncul
1 Saya
1 Term
1 Tf
1 1
1 1
Menghitung document frequency df
Document frequency df adalah banyaknya dokumen dimana suatu term t muncul.
Tabel 3.9 Menghitung df Term t
df
Akhir 1
Awal 1
Belajar 2
Dokumen 1
Frekuensi 1
Hitung 3
Idf 4
Kita 1
Langkah 2
Muncul 1
Saya 1
Term 1
Tf 4
Universitas Sumatera Utara
Menghitung invers document frequency idf
Menggunakan rumus 1 IDF = 1 df
Tabel 3.10 Menghitung idf 1 Term t
df idf
Akhir 1
1 Awal
1 1
Belajar 2
½=0.5 Dokumen
1 1
Frekuensi 1
1 Hitung
3 13=0.3
Idf 4
¼=0.25 Kita
1 1
Langkah 2
½=0.5 Muncul
1 1
Saya 1
1 Term
1 1
Tf 4
¼=0.25 Menggunakan rumus 2
IDF = Log Ndf
Tabel 3.11 Menghitung idf 2
Term t df
idf
Akhir 1
Log 51 = 0.699 Awal
1 Log 51 = 0.699
Belajar 2
Log 52 = 0.398 Dokumen
1 Log 51 = 0.699
Frekuensi 1
Log 51 = 0.699 Hitung
3 Log 53 = 0.221
Idf 4
Log 54 = 0.097 Kita
1 Log 51 = 0.699
Langkah 2
Log 52 = 0.398 Muncul
1 Log 51 = 0.699
Saya 1
Log 51 = 0.699 Term
1 Log 51 = 0.699
Tf 4
Log 54 = 0.097
Universitas Sumatera Utara
Menghitung tf.idf
Hasil kali tf x idf
Tabel 3.12 Menghitung tf.idf
Term t D1 D2 D3 D4 D5 idf
tf.idf D1
D2 D3
D4 D5
Akhir 1
Log 51 = 0.699 0.699
Awal 1
Log 51 = 0.699 0.699
Belajar 1
1 Log 52 = 0.398
0.398 0.398
Dokumen 0 1
Log 51 = 0.699 0.699
Frekuensi 0 1
Log 51 = 0.699 0.699
Hitung 1
3 1
Log 53 = 0.222 0.222
0.666 0.222
Idf 1
1 1
1 Log 54 = 0.097
0.097 0.097
0.097 0.097
Kita 1
Log 51 = 0.699 0.699
Langkah 1
1 Log 52 = 0.398
0.398 0.398
Muncul 1
Log 51 = 0.699 0.699
Saya 1
Log 51 = 0.699 0.699
Term 1
Log 51 = 0.699 0.699
Tf 1
1 1
1 Log 54 = 0.097
0.097 0.097
0.097 0.097
Total W 1.513
2.99 1.957
1.513 1.097
3.3. Perancangan Sistem