2.2.1.4. Text Frequency dan Pembobotan
Semakin banyak kata yang mirip atau sama antara dua dokumen maka semakin dekat kedua dokumen tersebut dan akan memiliki bobot
atau nilai yang lebih tinggi Manning,2008. Pemberian bobot atau nilai akan menggunakan teknik TFIDFterm frequency inverse document
frequency . TF adalah jumlah kemunculan suatu kata dalam sebuah
dokumen, sedangkan IDF adalah inverse dari banyanknya dokumen dimana suatu term tersebut muncul.
Rumus Pembobotan Saton1983:
Wt,d = tft,d idft = tft,d logNnt 2.1
Keterangan: a.
Wt,d = bobot dari termkata t dalam dokumen d. b.
Tft,d = frekuensi kemunculan termkata t dalam dokumen d. c.
Idft = Inverse document frequency dari kata t. d.
N = jumlah seluruh dokumen. e.
Nt = jumlah dari dokumen training yang mengandung kata t.
2.3. Klasifikasi Teks
Klasifikasi merupakan proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan kelas
– kelas data fungsi tersebut digunakan untuk memperkirakan kelas dari suatu objek yang
labelnya tidak diketahui. Proses klasifikasi ini terbagi menjadi dua tahapan, yaitu tahap test dan tahap uji. Pada tahap test, sebagian data
yang telah diketahui kelas datanya diumpankan untuk membentuk model prediksi Han dan Kamber, 2006.
2.3.1. K-Nearest Neighbour
Metode KNN adalah salah satu metode yang digunakan dalam sistem klasifikasi yang menggunakan pendekatan Machine Learning.
Machine Learning merupakan sebuah proses dalam membangun sistem
klasifikasi melakui pembelajaran dari sejumlah contoh yang sudah diklasifikasikan sebelumnya Feldman Sanger, 2007.
Salah satu masalah yang dihadapi KNN adalah pemilihan nilai K yang tepat. Misalnya, diambil K bernilai 13, kelas 0 dimiliki oleh 7
tetangga yang jauh, sedangkan kelas 1 dimiliki oleh 6 tetangga yang lebih dekat. Hal ini mengakibatkan data uji tersebut akan terdistorsi
sehingga ikut tergabung dengan kelas 0. Hal ini karena setiap tetangga tersebut memiliki bobot yang sama terhadap data uji, sedangkan nilai
K yang terlalu kecil bisa menyebabkan algoritma terlalu sensitif terhadap noise. Nilai K yang bagus dapat dipilih berdasarkan optimisasi
parameter, misalkan dengan cross validation Eko Prasetyo, 2012. Berikut ini adalah beberapa karakteristik kelebihan dan
kekurangan metode KNN menurut Eko Prasetyo2012. 1.
KNN merupakan algoritma yang menggunakan seluruh data latih untuk melakukan proses klasifikasi complete storage. Hal ini
mengakibatkan proses prediksi yang sangat lama untuk data dalam jumlah yang sangat besar. Pendekatan lain adalah dengan
menggunakan mean data dari setiap kelas, kemudian menghitung jarak terdekat data uji ke mean data setiap kelas tersebut. Hal ini
memberi keuntungan kerja yang lebih cepat, tetapi hasilnya kurang memuaskan karena model hanya membentuk hyperplane tepat di
tengah-tengah di antara 2 kelas yang memisahkan 2 kelas untuk kasus 2 kelas. Semakin banyak data latih, semakin halus hyperplane
yang dibuat. Ada relasi pertukaran trade- off relation antara jumlah data latih pada biaya komputasi dengan kualitas batas keputusan
decision boundary yang dihasilkan. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2. Algoritma KNN tidak membedakan setiap fitur dengan suatu bobot
seperti pada Artificial Neural Network ANN yang berusaha menekan fitur yang tidak mempunyai kontribusi terhadap
klasifikasi menjadi 0 pada bagian bobot. KNN tidak memiliki bobot untuk masing- masing fitur.
3. Karena KNN masuk kategori lazy learning yang menyimpan
sebagian atau semua data dan hampir tidak ada proses pelatihan, KNN sangat cepat dalam proses pelatihan karena memang tidak
ada, tetapi sangat lambat dalam proses prediksi. 4.
Hal yang rumit adalah menentukan nilai K yang paling sesuai. 5.
Karena KNN pada prinsipnya memilih tetangga terdekat, parameter jarak juga penting untuk dipertimbangkan sesuai dengan kasus
datanya. Euclidean sangat cocok untuk menggunakan jarak terdekat lurus antara dua data, tetapi Manhattan sangat teguh
robust untuk mendeteksi outlier dalam data. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2.3.2. Langkah Algoritma KNN
1. Tentukan parameter k = jumlah dokumen tetangga.
2. Hitung kemiripan antara dokumen baru dan dokumen pelatihan
dengan menggunakan rumus cosine similarity Manning, Raghavan, dan Schutze, 2008:
Sim � , � =
�
. ‖
�
‖ ‖ ‖
2.2
2.3
Keterangan: -
� : dokumen j dokumen pelatihan
- �
: query dokumen dokumen test -
∑ �
, �
=
:
jumlah bobot kata i pada dokumen j -
∑ �
, �
=
:
jumlah bobot kata i pada dokumen q test
3. Urutkan nilai kesamaan dan tentukan tetangga terdekat berdasarkan
jarak terkecil, banyak tetangga terdekat diambil dari parameter k. 4.
Gunakan label mayoritas dari kategori dokumen tetangga sebagai
nilai prediksi dokumen test.
�
,
�
, �
=
ඩ �
, �
=
ඩ �
, �
=
Sim
� , �
=
2.3.3. Perhitungan Akurasi
Perhitungan akurasi dilakukan dengan menggunakan metode cross-validation
. Pada metode cross-validation, data dibagi menjadi k subset
atau fold yang saling bebas secara acak, yaitu S1, S2, ...., Sk, dengan ukuran setiap subset sama. Pelatihan dan pengujian dilakukan
sebanyak k kali. Pada iterasi ke-i, subse S1 diperlukan sebagai data pengujian, dan subset lainnya sebagai data pelatihan. Tingkat akurasi
dihitung dengan membagi jumlah keseluruhan klasifikasi yang benar dengan jumlah semua instance pada data awal Han Kamber 2006.
Jika menggunakan 3 fold, maka akan dibagi menjadi 3 tahap seperti dibawah ini:
Tahap I 1.
fold 1 sebagai data uji. 2.
fold 2 sebagai data pelatihan. 3.
fold 3 sebagai data pelatihan. Tahap II
1. fold 2 sebagai data uji.
2. fold 1 sebagai data pelatihan.
3. fold 3 sebagai data pelatihan.
Tahap III 1.
fold 3 sebagai data uji. 2.
fold 1 sebagai data pelatihan. 3.
fold 2 sebagai data pelatihan.
Setelah dilakukan cross-validation maka dilanjutkan dengan precision
untuk menentukan akurasi.
Precision =
�ℎ � � �� � �
�ℎ � � �
x 100 2.4
21
BAB III METODOLOGI PENELITIAN
3.1. Gambaran Umum Sistem