IMPLEMENTASI DAN ANALISA HASIL PENUTUP

9

2.3 Text Mining

Text Mining didefinisikan sebagai proses pengetahuan intensif yang melibatkan interaksi pengguna dengan sekumpulan dokumen dari waktu ke waktu menggunakan berbagai macam analisis. Sejalan dengan data mining, text mining berusaha mengekstrak informasi yang berguna dari sumber data melalui identifikasi dan eksplorasi pattern Putri, 2013. Text mining mencoba untuk mengekstrak informasi yang berguna dari sumber data melalui identifikasi dan eksplorasi dari suatu pola menarik. Sumber data berupa sekumpulan dokumen dan pola menarik yang tidak ditemukan dalam bentuk database record, tetapi dalam data text yang tidak terstruktur Sujana, 2013.

2.4 Preprocessing

Pemrosesan teks merupakan proses menggali, mengolah, dan mengatur informasi dengan cara menganalisis hubungan dan aturan yang ada pada data tekstual semi terstruktur atau tidak terstruktur. Agar pemrosesan lebih efektif, data tekstual diubah ke dalam format yang sesuai kebutuhan pemakai. Proses ini disebut preprocessing. Setelah dikenai preprocessing, data tekstual semi terstruktur atau tidak terstruktur akan menjadi lebih terstruktur. Data tersebut dapat dijadikan sebagai sumber data yang diolah lebih lanjut Luhulima, 2013. Preprocesssing meliputi tokenizing, stopword removal, dan stemming. 10

2.4.1 Tokenization Tokenizing

Tokenization merupakan langkah untuk memotong dokumen menjadi potongan-potongan kecil yang disebut token dan terkadang disertai langkah untuk membuang karakter tertentu seperti tanda baca Manning, Raghavan, dan Schütze, 2009. Contoh proses tokenization: Input: aku merasa bahagia telah temukan dirimu kekasihku Output: aku merasa bahagia telah temukan dirimu kekasihku

2.4.2 Stopword Removal

Kata umum yang sering digunakan memiliki nilai yang kecil dalam membantu pemilihan dokumen yang sesuai dengan kebutuhan pengguna. Kata umum tersebut adalah stop words. Terdapat beberapa cara dalam menentukan stop words. Cara pertama adalah dengan mengurutkan kata berdasarkan jumlah kemunculan dalam dokumen kemudian mengambil kata-kata yang sering muncul sebagai stop words. Cara kedua adalah dengan menentukan kata-kata yang termasuk dalam stop list sesuai konteks dokumen yang digunakan.