Text Mining Ekstrasi Dokumen

Langkah pertama yang dilakukan pada fase ini adalah feature extraction. Pendekatan yang umum digunakan adalah distribusi frekuensi kata. Nilai numerik yang diperoleh dapat berupa berapa kali suatu kata muncul di dalam dokumen, 1 jika kata ada di dalam dokumen atau 0 jika tdak ada biner, atau jumlah kemunculan kata pada awal dokumen. Fitur yang diperoleh dapat direduksi agar dimensi vektor menjadi lebih kecil. Beberapa pendakatan feature reduction dapat diterapkan seperti menghapus stop-words, stemming, dan statistical filtering. Teknik lebih lanjut seperti SVD dan genetic algorithm akan menghasilkan vector berdimensi lebih rendah. 2. Fase klasifikasi utama. Suatu algoritma memproses data numerik di atas untuk memutuskan ke kategori mana teks baru bukan contoh ditempatkan. Terdapat beberapa algoritma klasifikasi yang merupakan kajian di bidang statistika dan machine learning yang dapat diterapkan pada fase ini, di antaranya adalah naïve Bayesian, Rocchio, Decision Tree, k-Nearest Neighbor k-NN, Neural Network NN, dan Support Vector Machines SVM. Teknik-teknik tersebut berbeda dalam mekanisme pembelajaran dan representasi model yang dipelajari . K-NN dan SVM merupakan algoritma yang memberikan hasil klasifikasi terbaik dengan presisi di atas 85 Kaiser,et all, 2005.

2.3 Text Mining

Text mining adalah salah satu bidang khusus dari data mining. Sesuai dengan buku The Text mining Handbook, Text Mining dapat didefinisikan sebagai suatu proses menggali informasi dimana seorang user berinteraksi dengan sekumpulan dokumen menggunakan tools analisis yang merupakan komponen komponen dalam data mining yang salah satunya adalah peringkatan dokumen Ali, 2006. Tujuan dari Text mining adalah untuk mendapatkan informasi yang berguna dari sekumpulan dokumen. Jadi sumber data yang digunakan pada Text mining adalah kumpulan teks yang memiliki format yang tidak terstruktur atau minimal semi terstruktur. Adapun tugas khusus dari Text mining antara lain yaitu pengkategorisasian teks text categorization dan pengelompokan teks text clustering. Text mining biasa dianggap subjek riset yang tergolong baru. Text mining dapat memberikan solusi dari permasalahan seperti pemrosesan, pengorganisasian pengelompokan dan Universitas Sumatera Utara menganalisa unstructured text dalam jumlah besar. Dalam memberikan solusi, text mining mengadopsi dan mengembangkan banyak teknik dari bidang lain, seperti Data mining, Information retrieval, Statistik dan Matematik, Machine Learning, Linguistic, Natural Languange Processing, dan Visualization. Kegiatan riset untuk text mining antara lain ekstraksi dan penyimpanan text, preprocessing akan konten text, pengumpulan data statistic dan indexing dan analisa konten.

2.4 Ekstrasi Dokumen

Teks yang akan dilakukan proses text mining, pada umumnya memiliki beberapa karakteristik diantaranya adalah memiliki dimensi yang tinggi, terdapat noise pada data, dan terdapat struktur teks yang tidak baik. Cara yang digunakan dalam mempelajari suatu data teks, adalah dengan terlebih dahulu menentukan fitur fitur yang mewakili setiap kata untuk setiap fitur yang ada pada dokumen. Sebelum menentukan fitur-fitur yang mewakili, diperlukan tahap pre-procecing yang dilakukan secara umum dalam text mining pada dokumen,yaitu case folding, tokenizing, filtering, stemming, analyzing Manning, 2008 seperti yang ditunjukkan pada gambar 2.6 Gambar 2.6 Proses Pre-Proccecing Text Case Folding Tokenizing Analyzing Stemming Filtering Universitas Sumatera Utara

a. Case Folding dan Tokenizing