2. Devi, Eka Mala – PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE

Vol 2, No 3 Juni 2012

ISSN 2088-2130

PEMILIHAN FITUR OPTIMAL UNTUK TUGAS
AKHIR MAHASISWA DENGAN METODE
SUPPORT VECTOR MACHINE
Devie Rosa Anamisa1), Eka Mala Sari Rochman2)
1,2

Teknik Informatika, Fakultas Teknologi Informasi
Institut Teknologi Sepuluh Nopember
Surabaya, Indonesia
1
devros_gress@yahoo.com

ABSTRAK
Kategorisasi teks merupakan salah satu solusi untuk mengelola informasi yang
berkembang pesat dan tidak terorganisir. Meningkatnya kebutuhan para pengembang tugas
akhir untuk mendapatkan informasi yang terkait dengan dokumen yang dibacanya saat ini,
maka timbul permasalahan yaitu bagaimana mengelompokan dokumen tugas akhir secara

otomatis yang sesuai bidang minat untuk membantu kategorisasi tugas akhir mahasiswa
dengan mengusulkan fitur penting dari meta data antara lain dari sisi topik, abstrak, bidang
minat dosen pembimbing dan referensi yang menjadi rujukan dalam dokumen tugas akhir
sesuai dengan bidang minat jurusan, yaitu jaringan komputer, kecerdasan buatan dan sistem
informasi. Tujuan penelitian ini adalah mengimplementasikan pemilihan fitur optimal
menggunakan metode Support Vector Machine (SVM), yang nantinya digunakan sebagai
masukkan klasifikasi tugas akhir. Metode SVM dapat meminimalisir tingkat error dengan
memilih batas hyperplane yang terbaik. Analisis pengaruh dari pemilihan fitur tersebut dengan
melihat performansi dari hasil klasifikasi berdasarkan precision dan recall. Dari percobaan
yang telah dilakukan penerapan metode SVM dalam klasifikasi tugas akhir memiliki akurasi
yang baik terbukti dengan tingkat presisi sebesar 56% dan recall sebesar 57% dan akurasi 61%
untuk kategorisasi teks dengan lima fitur optimal.
Kata kunci: Kategorisasi teks, Dokumen tugas akhir, SVM, Feature Selection.

ABSTRACT
Text Categorization is one of solution to manage the rapidly growing information and
disorganized.The increasing needs of the the final project developers to get more information
are related the documents, so it raised problems are how to classify documents automatically
appropriate with interest to help categorization final project of students with proposed
important feature of the meta-data such as from the topic, abstract, field supervisor and the

reference interest as the reference in the final document in accordance with their interests
majors, namely computer networks, artificial intelligence and information systems.The purpose
of the research is to implemention to optimal feature selection using support vector machine
(SVM), which will be used as the desired classification of final project in universitas. SVM
method can minimized the level of error with selecting the best hyperplane boundarys.Analysis
of the effect from selection of features by looking at the performance from classification results
based on precision and recall. From the experiments have been carried out applying with SVM
method in the classification of final project has good accuracy as evidenced by a 56% level of
precision and recall by 57% and 61% accuracy for text categorization with an optimal
features.
Keywords: text categorization, document the final task, SVM, Feature Selection.

350

Vol 2, No 3 Juni 2012

PENDAHULUAN
Beberapa penelitian yang terkait dengan
kategori teks menyatakan bahwa kateogorisasi
teks merupakan salah satu penelitian penting

dalam data mining. Untuk mengenali,
memahami dan mengelompokkan tipe teks dari
sebuah dokumen merupakan unsur penting
dalam kategorisasi teks [1]. Kategorisasi teks
merupakan sebuah permasalahan pemilihan
kategori untuk sebuah teks yang memiliki
karakteristik atau tanda-tanda umum yang
dimiliki oleh teks, artikel atau dokumen
tersebut.
Suatu teks, artikel, atau dokumen berita
dapat dikategorisasikan oleh beberapa kategori,
tepat satu kategori, atau tidak termasuk dalam
kategori manapun [2]. Permasalahan yang
signifikan dalam kategorisasi teks adalah
dimensionalitas data yang sangat tinggi.
Dimensionalitas data yang sangat tinggi tersebut
menyebabkan waktu pemrosesan menjadi lama
dan membutuhkan memori yang lebih besar.
Kategorisasi
teks

pada penelitian
ini
menggunakan formulasi analisa diskriminan
serta untuk mengatasi ketogorisasi teks yang
multi-class menggunakan metode SVM. Namun
penambahan kriteria pada klasifikasi dokumen
masih merupakan permasalahan karena analisa
diskriminan menggunakan invers matriks untuk
komputasinya sehingga prosesnya lama dan
membutuhkan banyak dimensi data.
Salah satu cara untuk mengatasi hal
tersebut adalah dengan melakukan feature
selection terhadap data. Feature selection
dilakukan untuk memilih fitur-fitur penting dan
relevan terhadap data dan membuang fitur-fitur
yang tidak berpengaruh terhadap proses
kategorisasi
teks.
Dengan
demikian,

dimensionalitas data dapat dikurangi. Namun
kemudian muncul permasalahan, berapa banyak
fitur yang harus digunakan, dan bagaimana
untuk mem-validasi skema pemilihan tersebut.
Untuk menjawab pertanyaan tersebut,
Tae Yue Wang menggunakan metode klasifikasi
teks, yaitu Support Vector Machine. Pemilihan
metode tersebut didasarkan pada penelitianpenelitian sebelumnya yang menyebutkan
bahwa metode tersebut memiliki performansi
yang baik dalam permasalahan kategorisasi teks.
Metode SVM (Support Vector Machines)
berdasarkan pada prinsip Structural Risk
Minimization (SRM) dimana penanganan
terhadap error dilakukan terhadap kesalahan

pada training-set dan factor yang dipengaruhi
oleh dimensi VC(Vapnik-Chervokinensis).
Selain itu, pada SVM juga digunakan teknik
mapping vektor input pada high dimensional
feature space. Pada penelitian sebelumnya,

SVM menunjukkan hasil yang baik untuk
kategorisasi teks. Metode ini menghindari
overfitting. Selain itu, SVM merupakan metode
yang generalized, mampu mengklasifikasikan
suatu pattern yang tidak termasuk data yang
dipakai dalam fase learning. Beberapa studi
empiris menunjukkan bahwa pendekatan SVM
memberikan error generalisasi yang lebih
sedikit dibandingkan metode lain yang
menggunakan Empirical Risk Minimization
yaitu strategi minimisasi kesalahan pada
training-set [3].
Seleksi fitur adalah salah satu metode
pengolahan awal data untuk menentukan fiturfitur yang akan diolah pada tahap berikutnya.
seleksi fitur mereduksi jumlah fitur dan
menghilangkan data yang tidak relevan. Meta
data merupakan hal penting dalam kategorisasi
teks, banyak penelitian yang membahas tentang
content namun jarang sekali penelitian yang
membahas tentang meta data.

Dalam penelitian ini mengusulkan
beberapa fitur penting dari meta data antara lain
dari sisi topik, abstrak, bidang minat dosen
pembimbing dan referensi yang menjadi rujukan
dalam dokumen tugas akhir.

Kategorisasi Teks
Pengklasifikasian
teks
sangat
dibutuhkan dalam berbagai macam aplikasi,
terutama aplikasi yang jumlah dokumennya
bertambah dengan cepat. Ada dua cara dalam
penggolongan teks, yaitu clustering teks dan
klasifikasi teks. Clustering teks berhubungan
dengan menemukan sebuah struktur kelompok
yang belum kelihatan (tak terpandu atau
unsupervised) dari sekumpulan dokumen.
Sedangkan pengklasifikasian teks dapat
dianggap sebagai proses untuk membentuk

golongan-golongan (kelas-kelas) dari dokumen
berdasarkan pada kelas kelompok yang sudah
diketahui
sebelumnya
(terpandu
atau
supervised)
Proses klasifikasi teks dapat dibagi ke
dalam dua fase, yaitu [2], yang pertama fase
information retrieval (IR) untuk mendapatkan
data numerik dari dokumen teks. Pendekatan
yang umum digunakan adalah distribusi
351

Devie Rosa Anamisa dkk, Pemilihan Fitur Optimal...

frekuensi kata. Nilai numerik yang diperoleh
dapat berupa berapa kali suatu kata muncul di
dalam dokumen, 1 jika kata ada di dalam
dokumen atau 0 jika tidak ada (biner), atau

jumlah kemunculan kata pada awal dokumen.
Feature yang diperoleh dapat direduksi agar
dimensi vektor menjadi lebih kecil. Beberapa
pendakatan feature reduction dapat diterapkan
seperti
menghapus
stop-words,stemming,
statistical filtering. Sedangkan fase klasifikasi
utama ketika suatu algoritma memroses data
numerik tersebut untuk memutuskan ke kategori
mana teks ditempatkan. Terdapat beberapa
algoritma klasifikasi yang merupakan kajian di
bidang statistika dan machine learning yang
dapat diterapkan pada fase ini, di antaranya
adalah k-Nearest Neighbor, Neural Network,
dan Support Vector Machines. Teknik-teknik
tersebut
berbeda
dalam
mekanisme

pembelajaran dan representasi model yang
dipelajari [3].

METODE
Support Vector Machine (SVM) adalah
sistem pembelajaran yang menggunakan ruang
hipotesis berupa fungsi-fungsi linier dalam
sebuah ruang fitur (feature space) berdimensi
tinggi,
dipelatihan
dengan
algoritma
pembelajaran yang didasarkan pada teori
optimasi dengan mengimplementasikan learning
bias yang berasal dari teori pembelajaran
statistic[3]. Teori yang mendasari SVM sendiri
sudah berkembang sejak 1960-an, tetapi baru
diperkenalkan oleh Vapnik, Boser dan Guyon
pada tahun 1992 dan sejak itu SVM
berkembang dengan pesat. SVM adalah salah

satu teknik yang relatif baru dibandingkan
dengan teknik lain, tetapi memiliki performansi
yang lebih baik di berbagai bidang aplikasi
seperti bioinformatics, pengenalan tulisan
tangan, klasifikasi teks dan lain sebagainya.

Gambar 1. Diagram Alir Proses Klasifikasi
Dokumen

Gambar 2. Tahapan Feature Selection

SVM
dibangun
dengan
konsep
kebalikan dengan penerapan Neural Network
(NN).
SVM
dibangun
bermula
dari
penyampaian
suatu
konsep
kemudian
diekperimenkan dan diterapkan dalam suatu
aplikasi, sedangkan NN berdasarkan heuristik
(heuristics) yaitu berdasarkan pengalaman,
kemudian diaplikasikan kemudian baru
dibangun teorinya. Metode yang digunakan
adalah Support Vektor Mechine dalam teknik
klasifikasi dengan tahapan, ditunjukkan pada
Gambar 1.
Feature selection dilakukan pada proses
feature selection dilakukan pemilihan atau
penentuan karakteristik dari masing-masing teks
atau dokumen. Terdapat beberapa fitur dalam
dokumen tugas akhir berupa topik, abstrak,
bidang minat dosen pembimbing dan referensi
yang menjadi rujukan dalam dokumen tugas
akhir tersebut. Kemudian sejumlah dokumen
tersebut diolah menjadi representasi kata atau
string (yang dipisahkan oleh spasi) yang
merupakan bagian dari teks atau dokumen
tersebut menjadi matrik vektor. Feature
selection perlu dikakukan karena karakteristik
yang di dapatkan akan menjadi sangat banyak,
dapat dilihat pada Gambar 2.
Preprocessing adalah Proses untuk
mengkonsentrasikan input kepada fitur – fitur.
Fitur dalam penelitian ini (topik, abstrak, bidang
minat dosen pembimbing dan referensi yang
menjadi rujukan dalam dokumen). Fitur tersebut
akan menjadi input bagi SVM, yang kemudian
akan mengklasifikasinya ke dalam kelas –
kelasnya [4]. Tahapan yang dilakukan SVM
untuk kategorisasi teks dapat dilihat pada
Gambar 3.

Gambar 3. Proses SVM

352

Vol 2, No 3 Juni 2012

Pembentukan model adalah melakukan
learning metode terhadap dokumen atau teksteks yang telah dikumpulkan sebagai data uji.
data uji secara bersamaan akan diubah menjadi
data vektor. Proses pengubahan data teks
menjadi data vektor dilakukan dengan membaca
kata satu persatu dan menghitung nilai tf-idf.
Nilai tf-idf adalah kemunculan kata (term
frequency) dalam kalimat dikalikan log jumlah
dokumen/record dibagi jumlah dokumen/record
yang mengandung kata yang dimaksud.
Dinotasikan sebagai berikut [3] :

dihitung menggunakan suatu fungsi ukuran
kemiripan (similarity measure). Ukuran ini
memungkinkan perankingan dokumen sesuai
dengan kemiripan (relevansi)nya terhadap
query. Setelah dokumen diranking, sejumlah
tetap dokumen top-scoring dikembalikan kepada
pengguna. Alternatifnya, suatu threshold dapat
digunakan untuk memutuskan berapa banyak
dokumen akan dikembalikan. Threshold dapat
digunakan untuk mengontrol tarik-ulur antara
presisi dan recall.

w t ,d  (1  log tft ,d )  log N / df t

Tabel 1. Hasil Implementasi Metode SVM
Kategorisasi
Akurasi
Presisi
(%)
(%)

Recall
(%)

Semua fitur

60,7

55,6

56,5

Dosen
Pembimbing

58,7

84,6

38,9

Daftar Referensi

83,6

81,7

87,5

(1)

.
tft,d adalah jumlah kemunculan term t
pada dokumen d dibagi dengan jumlah
kemunculan semua fitur pada dokumen d,
sedangkan dft adalah invers dari frekuensi
dokumen dan N adalah jumlah dokumen dalam
korpus.

HASIL DAN PEMBAHASAN
Eksperimen yang dilakukan adalah
melihat kinerja dari algoritma klasifikasi
dokumen teks yaitu metode SVM. Data
eksperimen berupa evaluasi kinerja sebuah
algoritma dalam pengkategorian teks antara lain
adalah recall dan precision, dapat dilihat pada
persamaan (2). Ukuran untuk mengevaluasi
kinerja yang digunakan pada eksperimen adalah
accuracy. Accuracy merupakan jumlah rata-rata
dari hasil recall pada tiap kelasnya. Pada
penelitian ini menggunakan proses steaming dan
stopword yang dilakukan oleh [5].
|

|
|
| |
|
|
|
|
| |
|

(2)

TPi (true positive) adalah kumpulan
dokumen yang memiliki klasifikasi benar
berdasarkan kategori Ci, FP i adalah kumpulan
dokumen false positive, dan FNi adalah
kumpulan dokumen false negative.
Model ruang vektor dan pembobotan tfidf digunakan untuk merepresentasikan nilai
numerik dokumen sehingga kemudian dapat
dihitung kedekatan antar dokumen. Semakin
dekat dua vektor di dalam suatu SVM maka
semakin mirip dua dokumen yang diwakili oleh
vektor tersebut. Kemiripan antar dokumen

Beberapa studi empiris menunjukkan
bahwa pendekatan SVM memberikan nilai
presisi tinggi dan recall rendah dibandingkan
metode lain contohnya pada penelitian[1]
menyatakan nilai recall 3.6 % untuk SVM dan
8,3% untuk KNN (K-Nearest Neighbour).
Sedangkan nilai presisi 99% untuk SVM dan
93% untuk KNN.
Tabel 1 merupakan hasil implementasi
pemilihan fitur optimal menggunakan metode
support vector machine (SVM), yang nantinya
digunakan sebagai masukkan klasifikasi tugas
akhir.
Pada penelitian ini masih terdapat
kesalahan pada proses prediksi untuk
menentukan tugas akhir yang sesuai dengan
bidang minatnya. Dari 116 data yang telah
diinputkan terdapat 25 tugas akhir yang tidak
sesuai dengan bidang minat. Hal ini dikarenakan
banyak terjadi kesamaan pada fitur Dosen
pembimbing yaitu tidak sesuai dengan bidang
minat. Fitur dosen pembimbing tidak menjadi
pembeda yang baik sehingga nilai bobotnya
kecil.

SIMPULAN DAN SARAN
Dengan pengkategorisasian teks secara
otomatis
ini
dapat
membantu
untuk
mengalokasikan dan klasifikasikan dokumen
dengan mudah karena dapat memudahkan

353

Devie Rosa Anamisa dkk, Pemilihan Fitur Optimal...

mahasiswa dalam mencari tugas akhir yang
sesuai dengan bidang minat.
Pembobotan pada tiga fitur optimal dalam
kategorisasi teks ini dilakukan dengan
perankingan pada setiap fitur. Hasil dari
perankingan tersebut membuktikan bahwa fitur
daftar referensi memiliki nilai ranking yang
paling tinggi sedangkan untuk fitur dosen
pembimbing berada pada ranking yang rendah.
Kategorisasi dokumen tugas akhir dengan
metode SVM dapat dikembangkan dengan
menambahkan jumlah dokumen hingga lebih
dari seratus lima puluh data latih dan
menambahkan satu parameter minimum
frekuensi untuk menghindari pemakaian kata
yang tidak penting dalam percobaan.

DAFTAR PUSTAKA
[1] Guo. Y, Shao. Z, Hua. N, Automatic Text
Categorization Based on Content
Analysis with Cognitive Situation
Models, www.elsevier.com/locate/ins 180
613–630, 2010
[2] Li. T, Zhu. S, Ogihara. M, Text
Categorization
Via
Generalized
Discriminant
Analysis,
www.elsevier.com/locate/infoproman 44
1684–1697, 2008
[3] Wang. T.Y, Chiang H.M, Fuzzy Support
Vector Machine for Multi-Class Text
Categorization,
www.elsevier.com/locate/infoproman 43
914–929, 2007
[4] Krisantus S, Support Vector Machine,
Bandung, S1 Teknik Informatika,
Sekolah Teknik Elektro dan Informatika,
ITB, 2007.
[5] Mahendra I.P.A, Penggunaan Algoritma
Semut dan Confix Tripping Steammer
untuk Klasifikasi Dokumen Berita
Berbahasa Indonesia, Surabaya, Tugas
Akhir Jurusan Teknik Informatika ITS,
2008.

354