Klasifikasi Perancangan Email Client Dengan Pengklasifikasian Email Menggunakan Algoritma Vector Space Model

B. POP3 Server

Hal yang terjadi pada POP3 Server sebenarnya sangatlah sederhana, yaitu hanya mengumpulkan email yang masuk saja, dan mengirimkannya melewati port 110 ke komputer client jika client meminta email-email tersebut. Untuk melihat maupun mengambil email dengan menggunakan POP3 maupun web based email, diperlukan username dan password agar tidak sembarang orang dapat melihat email tersebut.

2.2 Klasifikasi

Kategorisasi teks atau klasifikasi teks adalah suatu proses yang mengelompokkan suatu teks ke dalam suatu kategori tertentu Sebastiani, 2002 .Kategorisasi teks merupakan solusi yang tepat untuk mengelola informasi yang saat ini berkembang dengan sangat cepat dan melimpah. Kategorisasi teks membuat pengelolaan informasi tersebut menjadi efektif dan efisien Chenometh, 2009.Lebih mudah kalau dokumen dikelompokkan menjadi beberapa bagian misalnya dua kelas, yaitu dokumen tentang multicore computer chips dan dokumen bukan tentang multicore computer chips. Kelas biasanya merujuk ke topic dokumen. Prosesnya sering disebut sebagai text classification, text categorization, topic classification, topic spotting. Dokumen yang digunakan untuk pembelajaran dinamakan contoh sample atau trainingdata set yang dideskripsikan oleh himpunan atribut atau variabel. Salah satu atribut mendeskripsikan kelas yang diikuti oleh suatu contoh, hingga disebut atribut kelas.Atribut lain dinamakan atribut independen atau predictor. Klasifikasi termasuk pembelajaran jenis supervised learning. Jenis lain adalah unsupervised learning atau dikenal sebagai clustering. Pada supervised learning, data latihan mengandung pasangan data input biasanya vektor dan output yang diharapkan, sedangkan pada unsupervised learning belum ditentukan target output yang harus diperoleh. Proses klasifikasi teks dapat dibagi ke dalam dua fase, yaitu Mahinovs, 2007 : 1.Fase information retrieval IR untuk mendapatkan data numerik dari dokumen teks. Universitas Sumatera Utara Langkah pertama yang dilakukan pada fase ini adalah feature extraction. Pendekatan yang umum digunakan adalah distribusi frekuensi kata. Nilai numerik yang diperoleh dapat berupa berapa kali suatu kata muncul di dalam dokumen, 1 jika kata ada di dalam dokumen atau 0 jika tdak ada biner, atau jumlah kemunculan kata pada awal dokumen. Fitur yang diperoleh dapat direduksi agar dimensi vektor menjadi lebih kecil. Beberapa pendakatan feature reduction dapat diterapkan seperti menghapus stop-words, stemming, dan statistical filtering. Teknik lebih lanjut seperti SVD dan genetic algorithm akan menghasilkan vector berdimensi lebih rendah. 2. Fase klasifikasi utama. Suatu algoritma memproses data numerik di atas untuk memutuskan ke kategori mana teks baru bukan contoh ditempatkan. Terdapat beberapa algoritma klasifikasi yang merupakan kajian di bidang statistika dan machine learning yang dapat diterapkan pada fase ini, di antaranya adalah naïve Bayesian, Rocchio, Decision Tree, k-Nearest Neighbor k-NN, Neural Network NN, dan Support Vector Machines SVM. Teknik-teknik tersebut berbeda dalam mekanisme pembelajaran dan representasi model yang dipelajari . K-NN dan SVM merupakan algoritma yang memberikan hasil klasifikasi terbaik dengan presisi di atas 85 Kaiser,et all, 2005.

2.3 Text Mining