Analisis Sistem Peringkasan teks berita secara Otomatis menggunakan TF.IDF

3.2. Analisis Sistem

Analisis sistem bertujuan untuk mengidentifikasi permasalahan-permasalahan yang ada pada sistem yang meliputi perangkat lunak software, pengguna user serta hasil analisis terhadap sistem dan elemen-elemen yang terkait. Analisis ini diperlukan sebagai dasar bagi tahapan perancangan sistem. Analisis sistem ini meliputi desain data, deskripsi sistem, dan implementasi desain dan semua yang diperlukan dalam aplikasi peringkasan teks otomatis. Dalam penelitian ini sistem mempunyai 2 tahapan proses yaitu tahapan pertama adalah tahap text Preprocessing yaitu tahap awal dari text mining. Tahap ini mencakup semua rutinitas, dan proses untuk mempersiapkan data yang akan digunakan pada operasi knowledge discovery sistem text mining Feldman Sanger, 2007. Tindakan yang dilakukan pada tahap ini adalah toLowerCase, yaitu mengubah semua karakter huruf menjadi huruf kecil dan Tokenizing yaitu proses penguraian deskripsi yang semula berupa kalimat-kalimat menjadi kata-kata dan menghilangkan delimiter-delimiter seperti tanda titik ., koma ,, spasi dan karakter angka yang ada pada kata tersebut Weiss et al, 2005. Sedangkan tahap kedua adalah Tahap seleksi fitur feature selection bertujuan untuk mengurangi dimensi dari suatu kumpulan teks, atau dengan kata lain menghapus kata-kata yang dianggap tidak penting atau tidak menggambarkan isi dokumen sehingga proses pengklasifikasian lebih efektif dan akurat Do et al, 2006., Feldman Sanger, 2007., Berry Kogan 2010. Pada tahap ini tindakan yang dilakukan adalah menghilangkan stopword stopword removal dan stemming terhadap kata yang berimbuhan Berry Kogan 2010., Feldman Sanger 2007. 3.2.1. Text Preprocessing Langkah-langkah proses text preprocessing adalah sebagai berikut : 1. Setelah teks dokumen dimasukkan maka sistem akan merubah semua karakter huruf menjadi huruf kecil melalui proses toLowerCase. 2. Kemudian dilakukan penghapusan delimiter yaitu karakter angka dan karakter simbol kecuali karakter huruf serta penguraian terhadap kalimat-kalimat yang ada di teks dokumen tersebut. 3. Hasilnya adalah kata-kata penyusun kalimat yang ada di teks dokumen. Universitas Sumatera Utara 4. Proses text preprocessing selesai. Flowchart dari proses text preprocessing adalah sebagai berikut: Mulai Teks dokumen toLowerCase Menghilangkan delimiter dan penguraian kalimat Kata-kata penyusun kalimat Selesai Gambar 3.2 Flowchart Text Preprocessing Contoh : Misal terdapat input kalimat seperti : Maka setelah melalui proses ToLowerCase maka huruf besar dalam kalimat tersebut berubah menjadi huruf kecil : Kemudian setelah proses penghilangan delimiter dan penguraian kalimat maka Kemudian setelah proses penghilangan delimiter dan penguraian kalimat maka hasilnya adalah sebagai berikut : Gambar 3.4 Contoh kalimat setelah ToLowerCase dalam penelitian ini data terdiri 3 bagian yaitu data berita, data unik, dan data kata dasar. Dalam penelitian ini data terdiri 3 bagian yaitu data berita, data unik, dan data kata dasar. Gambar 3.3 Contoh kalimat yang akan diinput Universitas Sumatera Utara Tabel 3.4 Hasil dari proses text preprocessing dalam penelitian ini terdiri bagian yaitu data berita data unik dan data kata dasar 3.2.2. Feature Selection Pada tahap ini terdapat dua proses yang dilakukan, adalah sebagai berikut : 1. Stopword Removal Filtering Langkah-langkah untuk proses filtering adalah sebagai berikut : a. Kata-kata penyusun kalimat hasil dari tahap text preprocessing dijadikan sebagai masukkan. b. Kemudian dibandingkan dengan kata-kata yang ada di database stopword. c. Jika kata yang dimasukkan sama dengan kata di database stopword maka kata yang dimasukkan dihapus. Namun jika kata yang dimasukkan tidak sama dengan kata yang ada di database stopword maka tersebut tidak dihapus d. Proses filtering selesai. Flowchart dari proses filtering adalah sebagai berikut : Universitas Sumatera Utara Mulai Kata-kata hasil text processing Membandingkan kata yang diinput dengan dengan kata-kata yang ada di database stopword Kata yang diinput = kata yang ada didatabase stopword Kata-kata yang bukan stopword Selesai Ya hapus Tidak Gambar 3.5 Flowchart proses filtering Contoh : Misalkan terdapat masukkanyang merupakan hasil dari proses text processing sebagai berikut : Tabel 3.5 Hasil dari proses text preprocessing yang dijadikan input. dalam penelitian ini terdiri bagian yaitu data berita data unik dan data kata dasar Dan misalnya terdapat stopword yang dalam database stopword sebagai berikut : Tabel 3.6 Kumpulan stopword dan dari ingin ini kepada dalam selalu lalu yaitu bahwa terdiri sekali dulu sekalian enggak bagian Universitas Sumatera Utara Kemudian sistem akan membandingkan antara kata-kata yang dimasukkan dengan kata-kata yang ada di dalam database stopword. Selanjutnya sistem akan menghapus kata-kata yang dimasukkan apabila kata-kata yang dimasukkan sama dengan kata-kata yang ada di database stopword. Maka ouput-nya menjadi sebagai berikut : Tabel 3.7 Hasil dari proses filtering penelitian data berita data unik data kata dasar 3.2.3. Contoh penggunaan algoritma tfidf Berikut simulasi perhitungan nilai tfidf bisa dilihat pada bagian dibawah ini : Terdapat kalimat: Saya sedang belajar menghitung tf.idf. Tf.idf merupakan frekuensi kemunculan term pada dokumen. Langkah awal perhitungan tersebut adalah menghitung tf, kemudian menghitung df dan idf. Langkah terakhir menghitung nilai tf.idf. Mari kita belajar Catatan: tiap kalimat dianggap sebagai dokumen. Setelah di pisah akan menjadi seperti berikut : D1 Saya sedang belajar menghitung tf.idf. D2 Tf.idf merupakan frekuensi kemunculan term pada dokumen. D3 Langkah awal perhitungan tersebut adalah menghitung tf, kemudian menghitung df dan idf. D4 Langkah terakhir menghitung nilai tf.idf. D5 Mari kita belajar Menghitung Term Frequency tf Term frequency tf merupakan frekuensi kemunculan term t pada dokumen d. Data tulisan tersebut mengalami proses tokenisasi, stop words dan steaming sehingga menjadi : Universitas Sumatera Utara Tabel 3.8 Menghitung tf Term t D1 D2 D3 D4 D5 Akhir 1 Awal 1 Belajar 1 1 Dokumen 1 Frekuensi 1 Hitung 1 3 1 Idf 1 1 1 1 Kita 1 Langkah 1 1 Muncul 1 Saya 1 Term 1 Tf 1 1 1 1 Menghitung document frequency df Document frequency df adalah banyaknya dokumen dimana suatu term t muncul. Tabel 3.9 Menghitung df Term t df Akhir 1 Awal 1 Belajar 2 Dokumen 1 Frekuensi 1 Hitung 3 Idf 4 Kita 1 Langkah 2 Muncul 1 Saya 1 Term 1 Tf 4 Universitas Sumatera Utara Menghitung invers document frequency idf Menggunakan rumus 1 IDF = 1 df Tabel 3.10 Menghitung idf 1 Term t df idf Akhir 1 1 Awal 1 1 Belajar 2 ½=0.5 Dokumen 1 1 Frekuensi 1 1 Hitung 3 13=0.3 Idf 4 ¼=0.25 Kita 1 1 Langkah 2 ½=0.5 Muncul 1 1 Saya 1 1 Term 1 1 Tf 4 ¼=0.25 Menggunakan rumus 2 IDF = Log Ndf Tabel 3.11 Menghitung idf 2 Term t df idf Akhir 1 Log 51 = 0.699 Awal 1 Log 51 = 0.699 Belajar 2 Log 52 = 0.398 Dokumen 1 Log 51 = 0.699 Frekuensi 1 Log 51 = 0.699 Hitung 3 Log 53 = 0.221 Idf 4 Log 54 = 0.097 Kita 1 Log 51 = 0.699 Langkah 2 Log 52 = 0.398 Muncul 1 Log 51 = 0.699 Saya 1 Log 51 = 0.699 Term 1 Log 51 = 0.699 Tf 4 Log 54 = 0.097 Universitas Sumatera Utara Menghitung tf.idf Hasil kali tf x idf Tabel 3.12 Menghitung tf.idf Term t D1 D2 D3 D4 D5 idf tf.idf D1 D2 D3 D4 D5 Akhir 1 Log 51 = 0.699 0.699 Awal 1 Log 51 = 0.699 0.699 Belajar 1 1 Log 52 = 0.398 0.398 0.398 Dokumen 0 1 Log 51 = 0.699 0.699 Frekuensi 0 1 Log 51 = 0.699 0.699 Hitung 1 3 1 Log 53 = 0.222 0.222 0.666 0.222 Idf 1 1 1 1 Log 54 = 0.097 0.097 0.097 0.097 0.097 Kita 1 Log 51 = 0.699 0.699 Langkah 1 1 Log 52 = 0.398 0.398 0.398 Muncul 1 Log 51 = 0.699 0.699 Saya 1 Log 51 = 0.699 0.699 Term 1 Log 51 = 0.699 0.699 Tf 1 1 1 1 Log 54 = 0.097 0.097 0.097 0.097 0.097 Total W 1.513 2.99 1.957 1.513 1.097

3.3. Perancangan Sistem