Analisis Masalah Analisis Sistem

Langkah pertama yang dilakukan dalam proses text mining adalah proses tokenizing . Tokenizing adalah sebuah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Proses pemotongan ini akan menghilangkan tanda baca atau karakter yang dianggap tidak perlu. Karakter tersebut didefinisikan sebagai berikut : , , , , „ , “ , , , \, , =, ., ,, :, -, , ;, , ?, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 Setelah kalimat dikenai proses tokenizing kalimat tersebut akan dipotong-potong ke dalam bentuk array, proses ini dilakukan jika dalam kalimat hasil tokenizing ditemukan spasi. Setelah kalimat sudah dipotong ke dalam bentuk array, langkah selanjutnya adalah melakukan proses filtering. Proses filtering merupakan tahap mengambil kata-kata penting dari hasil tekonizing. Kata-kata yang dianggap tidak penting dalam proses filtering ini disimpan di tabel tbl_stopwords, jika kata dari proses tokenizing ada yang ditemukan di tabel stopwords, maka kata tersebut akan dihilangkan atau dianggap sebagai kata tidak penting. Berikut sebagian contoh kata yang dianggap tidak penting di dalam tabel tbl_stopwords : ada, agar, akan, apa, dalam, entah, hingga, jadi, yaitu, yang Setelah kalimat dihilangkan kata tidak pentingnya dengan menggunakan proses filtering , selanjutnya kata-kata yang masih dianggap penting akan dikenai proses stemming . Stemming merupakan suatu proses yang terdapat dalam sistem IR Information Retrieval yang mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata- kata akarnya rood word dengan menggunakan aturan-aturan tertentu. Proses stemming pada aplikasi chatbot menggunakan algoritma Nazief dan Adriani. Kata dasar didefinisikan di tabel tbl_katadasar, berikut sebagian contoh kata dasar yang ada di tabel tbl_katadasar : ajar, acara, akal, teknik, tongkat, tidur, lubuk Setelah proses stemming selesai, akan dilakukan proses analyzing atau perhitungan pembobotan kalimat dari pengguna dengan kalimat yang menjadi pengetahuan chatbot. Pada tahap analyzing digunakan sebuah rumus TF-IDF untuk menentukan tingkat similaritas antar kalimat. TF Term Frequency adalah frekuensi dari kemunculan sebuah term dalam dokumen kalimat yang bersangkutan. Oleh sebab itu, TF memiliki nilai yang