Langkah pertama yang dilakukan pada fase ini adalah feature extraction. Pendekatan yang umum digunakan adalah distribusi frekuensi kata. Nilai numerik yang diperoleh
dapat berupa berapa kali suatu kata muncul di dalam dokumen, 1 jika kata ada di dalam dokumen atau 0 jika tdak ada biner, atau jumlah kemunculan kata pada awal
dokumen. Fitur yang diperoleh dapat direduksi agar dimensi vektor menjadi lebih kecil. Beberapa pendakatan feature reduction dapat diterapkan seperti menghapus
stop-words, stemming, dan statistical filtering. Teknik lebih lanjut seperti SVD dan genetic algorithm akan menghasilkan vector berdimensi lebih rendah.
2. Fase klasifikasi utama. Suatu algoritma memproses data numerik di atas untuk memutuskan ke kategori mana
teks baru bukan contoh ditempatkan. Terdapat beberapa algoritma klasifikasi yang merupakan kajian di bidang statistika dan machine learning yang dapat diterapkan
pada fase ini, di antaranya adalah naïve Bayesian, Rocchio, Decision Tree, k-Nearest Neighbor k-NN, Neural Network NN, dan Support Vector Machines SVM.
Teknik-teknik tersebut berbeda dalam mekanisme pembelajaran dan representasi model yang dipelajari . K-NN dan SVM merupakan algoritma yang memberikan hasil
klasifikasi terbaik dengan presisi di atas 85 Kaiser,et all, 2005.
2.3 Text Mining
Text mining adalah salah satu bidang khusus dari data mining. Sesuai dengan buku The Text mining Handbook, Text Mining dapat didefinisikan sebagai suatu proses
menggali informasi dimana seorang user berinteraksi dengan sekumpulan dokumen menggunakan tools analisis yang merupakan komponen komponen dalam data
mining yang salah satunya adalah peringkatan dokumen Ali, 2006. Tujuan dari Text mining adalah untuk mendapatkan informasi yang berguna dari sekumpulan
dokumen. Jadi sumber data yang digunakan pada Text mining adalah kumpulan teks yang memiliki format yang tidak terstruktur atau minimal semi terstruktur. Adapun
tugas khusus dari Text mining antara lain yaitu pengkategorisasian teks text categorization dan pengelompokan teks text clustering. Text mining biasa
dianggap subjek riset yang tergolong baru. Text mining dapat memberikan solusi dari permasalahan seperti pemrosesan, pengorganisasian pengelompokan dan
Universitas Sumatera Utara
menganalisa unstructured text dalam jumlah besar. Dalam memberikan solusi, text mining mengadopsi dan mengembangkan banyak teknik dari bidang lain, seperti Data
mining, Information retrieval, Statistik dan Matematik, Machine Learning, Linguistic, Natural Languange Processing, dan Visualization. Kegiatan riset untuk
text mining antara lain ekstraksi dan penyimpanan text, preprocessing akan konten text, pengumpulan data statistic dan indexing dan analisa konten.
2.4 Ekstrasi Dokumen
Teks yang akan dilakukan proses text mining, pada umumnya memiliki beberapa karakteristik diantaranya adalah memiliki dimensi yang tinggi, terdapat noise pada
data, dan terdapat struktur teks yang tidak baik. Cara yang digunakan dalam mempelajari suatu data teks, adalah dengan terlebih dahulu menentukan fitur fitur
yang mewakili setiap kata untuk setiap fitur yang ada pada dokumen. Sebelum menentukan fitur-fitur yang mewakili, diperlukan tahap pre-procecing yang
dilakukan secara umum dalam text mining pada dokumen,yaitu case folding, tokenizing, filtering, stemming, analyzing Manning, 2008 seperti yang ditunjukkan
pada gambar 2.6
Gambar 2.6 Proses Pre-Proccecing Text
Case Folding
Tokenizing
Analyzing Stemming
Filtering
Universitas Sumatera Utara
a. Case Folding dan Tokenizing