9
2.3 Text Mining
Text Mining didefinisikan sebagai proses pengetahuan intensif yang melibatkan interaksi pengguna dengan sekumpulan dokumen dari waktu ke
waktu menggunakan berbagai macam analisis. Sejalan dengan data mining, text mining berusaha mengekstrak informasi yang berguna dari sumber data
melalui identifikasi dan eksplorasi pattern Putri, 2013. Text mining mencoba untuk mengekstrak informasi yang berguna dari
sumber data melalui identifikasi dan eksplorasi dari suatu pola menarik. Sumber data berupa sekumpulan dokumen dan pola menarik yang tidak
ditemukan dalam bentuk database record, tetapi dalam data text yang tidak terstruktur Sujana, 2013.
2.4 Preprocessing
Pemrosesan teks merupakan proses menggali, mengolah, dan mengatur informasi dengan cara menganalisis hubungan dan aturan yang ada pada data
tekstual semi terstruktur atau tidak terstruktur. Agar pemrosesan lebih efektif, data tekstual diubah ke dalam format yang sesuai kebutuhan pemakai. Proses
ini disebut preprocessing. Setelah dikenai preprocessing, data tekstual semi terstruktur atau tidak terstruktur akan menjadi lebih terstruktur. Data tersebut
dapat dijadikan sebagai sumber data yang diolah lebih lanjut Luhulima, 2013.
Preprocesssing meliputi tokenizing, stopword removal, dan stemming.
10
2.4.1 Tokenization Tokenizing
Tokenization merupakan langkah untuk memotong dokumen menjadi potongan-potongan kecil yang disebut token dan terkadang
disertai langkah untuk membuang karakter tertentu seperti tanda baca Manning, Raghavan, dan Schütze, 2009.
Contoh proses tokenization: Input:
aku merasa bahagia telah temukan dirimu kekasihku Output:
aku merasa bahagia
telah temukan
dirimu kekasihku
2.4.2 Stopword Removal
Kata umum yang sering digunakan memiliki nilai yang kecil dalam membantu pemilihan dokumen yang sesuai dengan kebutuhan
pengguna. Kata umum tersebut adalah stop words. Terdapat beberapa cara dalam menentukan stop words. Cara
pertama adalah dengan mengurutkan kata berdasarkan jumlah kemunculan dalam dokumen kemudian mengambil kata-kata yang
sering muncul sebagai stop words. Cara kedua adalah dengan menentukan kata-kata yang termasuk dalam stop list sesuai konteks
dokumen yang digunakan.