KLASIFIKASI DOKUMEN TEKS BERITA HASIL PR

1

1
1

Jumadi, 2Edi Winarko

[email protected] [email protected]

1
Jurusan Teknik Informatika
Fakultas Sains dan Teknologi
Universitas Islam Negeri Sunan Gunung Djati Bandung

2

Jurusan Ilmu Komputer dan Elektronika Instrumentasi
Fakultas Matematika dan Ilmu Pengetahuan Alam
Universitas Gadjah Mada Yogyakarta

Dokumen teks yang dipublikasi di internet dari hari ke hari semakin banyak jumlahnya. Salah satu

teknologi internet yang paling sering terjadi proses pemuktahiran konten dokumen teks ini, adalah
yang dijadikan sebagai sarana untuk membangun komunitas di dunia maya dan penyebar informasi yang praktis dan
cepat. Salah satunya adalah Twitter yang merupakan salah satu
dengan jumlah
yang dipublikasi
dalam hitungan jam oleh para pemilik akun tersebut, khususnya para jurnalis.
Berita/berita yang dipublikasi oleh para jurnalis melaui Twitter terkadang kurang nyaman untuk dibaca
oleh para pembaca berita. Karena berita/berita tersebut ditampilkan secara tersusun beruntun ke bawah pada
halaman web tersebut. Tetapi setelah tweet/tweet yang ada dikelompokkan secara tematik jadi semakin menarik
karena pembaca dapat memilih berita/berita tertentu yang telah dikelompokkan oleh Algoritma
. Tetapi pada algoritma ini, masih tetap menghasilkan dokumen/dokumen yang tidak memiliki
kelompok. Pada Penelitian ini, dokumen/dokumen tersebut mencoba untuk di klasifikasikan ke dalam kelompok
yang ada dengan menggunakan Algoritma
.
: KNN, STC.

Berdasarkan penelitian yang dilakukan oleh Zamir dan Etzioni (1998), algoritma yang digunakan
untuk melakukan pengklastran dokumen web kali pertama adalah

, algoritma


klasterisasi ini memiliki waktu linear dalam mengelompokkan dokumen hasil pencarian ke dalam bentuk
group/group atau klaster berdasarkan kata atau frase yang terdapat di dalam dokumen yang ada.
Kemudian Osiński dan Weiss (2004), mengembangkan
Kesuksesan dan popularitas aplikasi

dengan nama

!

.

! adalah mengorganisir hasil dari pencaraian di internet agar

lebih mudah dalam menjelajah dalam bentuk pengelompokan secara tematik hasil pencarian pada saat
menggunakan browser internet, yang dikenal dengan proses klasterisasi. Algoritma yang digunakan
dalam proses pengelompokan ini, diantaranya adalah menggunakan algoritma

.


Selanjutnya, penelitian yang telah dilakukan oleh Arifin dkk.(2008), dengan menggunakan Algoritma
dalam pengelompokkan berita dalam Bahasa Indonesia, memiliki tingkat
yang sangat tinggi, yaitu 80%.Hal ini dikarenakan dalam Algoritma ini, menggunkaan
dasar pembentukan

.

sebagai

2
!

Tetapi, kinerja algoritma STC yang dikembangkan oleh

masih memiliki kekurangan.

Hasil proses pengklasteran dengan algoritma ini, sering dijumpai banyak dokumen yang tidak
terkelompokkan. Mengacu pada konsep yang dibahas oleh Liao (2002), untuk mengatasi permasalahan ini
perlu adanya proses klasifikasi dokumen teks tersebut denga Algoritma K/NN ke dalam kelompok yang
terbentuk oleh Algoritma STC sebelumnya.


Penelitian Ukkonen (1995) mampu menyajikan proses pengkontruksian

dari

sejumlah deretan string, karakter demi karakter dari kiri ke kanan dengan kompleksitas waktu linier yang
sangat sederhana (dalam ukuran kuadratik) pada penelitian serupa yaitu

. Penelitian ini,

memiliki kelemahan pada panjang string mempengaruhi waktu proses, terlepas dari
kuadraktikanya. Dengan demikian,

merupakan metode yang praktis dan terbaik dengan catatan

masukan string tidak terlampau panjang dan dikenal baik secara umum dalam mengkontruksi
.
dari sederatan string Farach (1997) merupakan struktur data dasar pada
kombinasional. Weiner (1973) memperkenalkan struktur data, dengan waktu algoritma
dalam membuat


dari sejumlah

Pada model perbandingan, terdapat waktu
algoritma Weiner sesuai

deretan karakter string pada alphabet dengan ukuran tetap.
"

ini secara

berdasarkan
"

.

pada

, dan


mampu menjawab

permasalahan alphabet integer dengan waktu algoritma

berdasarkan pada proses

perbandingan. Farach (1997) menyelesaikan masalah ini dengan cara menutupi gap, dan membuat
dengan waktu linier pada alphabet integer.
Penelitian yang dilakukan oleh Zamir dan Etzioni (1998) memperhatikan para pengguna mesin
pencari web, yang sering mengkehendaki untuk mendaptkan panjangnya deratan daftar penggalan
dokumen web sebagai hasil pencarian. Komunitas #

$

" , melakukan proses klasterisasi

dokumen sebagai metode alternatif pengorganisasian hasil penelusuran, tetapi klasterisasi belum
dikembangkan pada mesin pencari (

). Penelitian yang dilakukan menunjukan adanya


evolusi metode klasterisasi dokumen web.Kebutuhan utama dalam penelitian ini, adalah penggalan/
penggalan dokumen web yang dihasilkan oleh

. Proses yang dilakukan dalam usaha untuk

mendapatkan hasil yang memuaskan pada proses klasterisasi dokumen web ini, adalah memperkenalkan
algoritma dengan sifat

dan waktu linier. Algoritma ini, adalah

3
yang mampu menciptakan

berdasarkan pada

di antara dokumen/dokumen yang

ada.
Penelitian yang dilakukan oleh Arifin dkk. (2008), mengimplementasikan algoritma

untuk pengelompokkan dokumen berita yang memperbolehkan adanya

berita

antar dokumen. Tahap pertama, pembersihan dokumen yang meliputi pembersihan tag/tag HTML,
penghilangan

dan proses

. Tahap kedua, mengidentifikasi

membentuk

sehingga

ditemukan. Tahap tiga, mengkombinasikan

untuk mereduksi jumlah
menghasilkan suatu
algoritma


dengan cara melakukan

untuk

antar

sehingga akan

baru. Berdasarkan percobaan yang dilakukan oleh Arifin dkk. (2008)
terbukti memiliki tingkat rata/rata

yang sangat tinggi. Dimana

data hasil uji coba menunjukan bahwa dengan menggunakan frase sebagai dasar pembentukan
akan mempunyai tingkat ketepatan yang sangat tinggi.
Penelitian yang dilakukan oleh Wicaksono (2012) mengembangkan aplikasi pengelompokkan
dokumen berbasis web dengan menggunakan metode

. Konsep dasar metode ini,


adalah dengan mengelompokkan dokumen hasil pencarian ke dalam grup/gup atau

berdasarkan

kata atau frase yang terdapat di dalam dokumen/dokumen tersebut. Aplikasi yang dikembangkan,
membutuhkan input pencarian dan menghasilkan output berupa
dokumen yang bersesuaian.

yang didalamnya terdapat

ini bisa bertingkat/tingkat tergantung dara kata atau frase yang

mungkin bisa dibedakan lagi pada

induk yang sama.

ditampilkan kepada pengguna. Selanjutnya pada

yang dihasilkan inilah yang


terakhir yang dipilih akan menampilkan

kumpulan dokumen yang masing/masing terdiri dari judul, cuplikan dan URL dokumen. Dengan metode
ini, menghasilkan hasil pencarian yang lebih mudah ditelusuri.
Penelitian/penelitian yang berkaitan proses klasterisasi dengan algoritma
dan proses klasifikasi dengan algoritma

, dirangkum dan disajikan secara global pada

Tabel 2.1. Keterkaitan penelitian satu dengan yang lainnya, dilihat dari kesamaan penggunaan metode
maupun data.

! Rangkuman Penelitian Sejenis
"
1

"#
Ukkonen
(1995)

$
Mengkontruksi
dari sederetan string
dengan waktu linear

%
Mengkontruksi
secara online

4
! Rangkuman Penelitian Sejenis
"

"#

$

%

2

Gusfield
(1997)

Mengimplementasikan
metode
meurut
Ukkonen dan Weiner

Dapat mempresentasikan
histori penting waktu linear
dalam mengkontruksi

3

Zamir and
Etzioni
(1998)

Mengklaster hasil
pencarian pada dokumen
web

Dokumen hasil pencarian
tersaji dalam bentuk klaster

4

Kwon
(2003)

Menklasifikasi dokumen
web

Dokumen web
terklasifikasi dalam 3
frase; web

,

dan

&!

5

Cao et al.
(2003)

Pengklasteran digunakan
untuk memecah kumpulan
data ke kelompok
berdasarkan kesamaan
objek

Pengguna terbantu dalam
dan
mengarahkan hasil
pencarian karena dokumen
" terkluster

6

Arifin dkk.
(2008)

Mengelompokkan berita

Berita yang disajikan
secara
terkelompokan

7

Janruang dan
Guha (2011)

Mengimplementasikan
semantik pada algoritma

Proses pembentukan
melibatkan semantik

8

Yang et al.
(2011)

Memperhatikan struktur
kalimat dalam proses
pengklasterannya

Klaster dibentuk
mengkaitakan dengan
bobot struktur kalimat pada

'"( )

*

+,

Inti dari suatu hasil pencarian yang menerapkan
Algoritma
1. Menggunakan

adalah penggunaan algoritma

(STC) memiliki dua kunci utama, yaitu :
sebagai dasar pembentukan

2. Menggunakan suatu definisi

nya%

sederhana.

memiliki dua langkah utama. Dalam langkah pertama, pencarian
semua dokumen berita yang dikoleksi. Kita menyebut

sebagai

ditemukan dengan menggunakan suatu struktur data yang dinamakan
mengkombinasikan

%

atau

untuk
& yang

% Dalam langkah kedua, kita

ke dalam suatu klaster% Penggabungan antar dua

didasarkan pada jumlah dokumen yang melakukan "

diantara kedua

tersebut (Zamir & Etzioni,

5
1998). Suatu

yang dimaksud dalam konteks algoritma ini adalah urutan satu atau lebih kata/kata. STC

memiliki tiga langkah utama, yaitu :
1. Pembersihan (

dokumen%

2. Identifikasi

menggunakan

3. Mengkombinasikan

%

ke dalam suatu

.

Beberapa karakteristik yang membuat

cocok digunakan untuk pengelompokkan

dokumen% Pertama adalah membangkitkan klaster/klaster untuk pengelompokkan dokumen berdasarkan
'

%

juga bermanfaat untuk membangun uraian dan keakuratan deskripsi dari klaster. Kedua, tidak tergantung

pada model data. Hal itu mengasumsikan hanya dokumen dengan topik yang sama yang akan memiliki
% Ketiga, STC memperbolehkan adanya

"

. Hal itu sangat penting untuk menghindari

pembatasan bahwa setiap dokumen hanya memiliki satu klaster saja, karena sering kita jumpai satu dokumen
mempunyai lebih dari satu topik, dengan demikian terdapat kemiripan yang lebih dari satu kelompok dokumen.
Keempat, STC menggunakan definisi klaster yang sederhana. Semua dokumen yang berisi salah satu
akan menjadi anggota dari klaster tersebut. STC menggunakan
STC menggunakan

untuk mengidentifikasi

adalah adanya "

) (% -

#"

% Fitur yang membuat suksesnya STC sebagai algoritma

. Kualitas klaster yang terbentuk dari algoritma STC ini akan menurun

jika tanpa menggunakan

&!!

untuk mendeteksi kemiripan antar dokumen.

dan tidak memperbolehkan adanya "

.

)

(

adalah tahap awal dalam algoritma

. Pada tahap ini, dokumen

yang telah didapat dari proses download akan dibersihkan dan dipersiapkan untuk tahap selanjutnya. Proses untuk
mempersiapkan dokumen meliputi proses pembersihan dokumen dari tag/tag HTML, proses analisa leksikal teks,
proses penghapusan

&!

#

, dan proses

)

- %

Algoritma

#"

.

% #

'

'"( )

"( (

untuk Bahasa Indonesia dengan nama '

dikembangkan oleh Talla (2003) dan implementasi berdasarkan *
Frakes (1992). Beberapa modifikasi '

'

)

Struktur kata pada Bahasa Indonesia terdiri dari

,]+[

!]+

+[

]+[

yang dikembangkan oleh

)

#

" +

#

dapat dilihat pada

bekerja berdasarkan struktur kata Bahasa Indonesia.
,

,

,

yang dimaksud ditulis dalam rangkaian opsional kata dalam format:
[

#

Bahasa Inggris telah dilakukan agar dapat digunakan untuk

mengolah teks Bahasa Indonesia. Rancangan algoritma'
Gambar 3.1. Algoritma '

)

]+[

]

" +

dan

. Struktur kata

6

( & ! Rancangan dasar '

)

Pada Gambar 3.1 terlihat beberapa langkah
Tabel 3.5. Dengan demikian algoritma '
melakukan proses

"

)

"

#

(Talla, 2003)

menurut aturan yang ada pada Tabel 3.1 sampai dengan
)

#

terdapat 5 langkah pengecekan untuk

sehingga mampu mendapatkan kata dasar (

) pada kata/kata teks Bahasa Indonesia.

& ! Peraturan pertama untuk
$
kah
lah
pun

/00
/00
/00

.

2
2
2

*
/00
/00
/00

Peraturan kedua untuk

&
$
ku
mu
nya

(Talla, 2003)

/00
/00
/00

2
2
2

bukukah→buku
dialah→dia
bukupun→buku
"

.

(Talla, 2003)
*

/00
/00
/00

bukuku→buku
bukumu→buku
bukunya→buku

7
& & Peraturan untuk
$
meng
meny
men
men
mem
mem
me
peng
peny
pen
pen
pem
pem
di
ter
ke

/00
s
/00
t
p
/00
/00
/00
s
/00
t
p
/00
/00
/00
/00

"
-

.

*

2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2

/00
v…
/00
v…
v…
/00
/00
/00
v…
/00
v…
v…
/00
/00
/00
/00

mengukur→ukur
menyapu→sapu
menduga→duga
menuduh→tuduh
memilah→pilah
membaca→baca
merusak→rusak
pengukur→ukur
menyapu→sapu
penduga→duga
penuduh→tuduh
pemilah→pilah
pembaca→baca
diukur→ukur
tersapu→sapu
kekasih→kasih

& . Peraturan keempat untuk
$
ber
bel
be
per
pel
pe

/00
/00
/00
/00
/00
/00

"

&!.

#

.

*

2
2
2
2
2
2

/00
ajar
k*er..
/00
ajar
/00

berlari→lari
belajar→ajar
bekerja→kerja
perjelas/jelas
pelajar→ajar
pekerja→kerja

"

(Talla, 2003)

-

.

*

prefix∉{ke,
peng}
prefix∉{di,
meng, ter}
V|K…c1c2,
c1≠s, c2≠i and
∉ {ber, ke,
peng}

Tarikkan →tarik
(meng) ambilkan→ambil
makanan→makan
(per) janjian→janji
Tandai→tanda
(men) dapati→dapat
warna→warnai

kan

/0

2

an

/0

2

i

/0

2

0

(Talla, 2003)

-

& / Peraturan kelima untuk
$

(Talla, 2003)

%

Tahap identifikasi

merupakan tahap terpenting dalam algoritma

, karena

pada tahap ini akan menghasilkan klaster/klaster dasar (Zamir & Etzioni, 1998). Pembentukkan
dilakukan dengan cara menemukan share

antar dokumen. Untuk menemukan share

digunakan

struktur data

. Dengan menggunakan struktur data ini, maka setiap dokumen akan direpresentasikan

menjadi suatu kalimat. Untuk menemukan
dari

dapat dilakukan dengan cara membuat suatu

"

untuk semua dokumen.
Pembentukkan

untuk kalimat

&

& dan

diperlihatkan pada Gambar 3.2 yang menunjukkan adanya internal node yang terbentuk. Setiap internal node
merepresentasikan suatu kelompok dokumen dan share
internal node juga merepresentasikan

untuk kelompok tersebut. Oleh karena itu, setiap

yang terbentuk. Semua

yang terbentuk dapat

ditunjukkan pada Tabel 3.6.

)

(&

1

(Zamir & Etzioni, 1998)

& 1. Base cluster yang terbentuk (Zamir & Etzioni, 1998)
% + % (
a
b
c
d
e
f
Setiap

yang terbentuk memiliki suatu

jumlah dokumen yang masuk anggota
untuk menghitung skor

-( %
cat ate
ate
cheese
mouse
Too
ate cheese

"

) %
1, 3
1, 2, 3
1, 2
2, 3
2, 3
1, 2

. Penghitungan score merupakan suatu fungsi dari

dan jumlah kata yang menyusun

dari

ditunjukkan oleh Persamaan (3.1).

) 2 3)3% 3'3 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% (3.1)

dimana pada Persamaan (3.1) :
3)3 adalah jumlah dokumen di dalam
3'3 adalah jumlah kata yang menyusun frase '.

) dan

. Fungsi

3'3 = 0, jika 3'3 = 1 dan
3'3 = 6, jika 3'3 2 6
&!/

")

%

Tahap ini digunakan untuk menangani

"

Sebelum melakukan kombinasi antar
4 antar

. Dalam tahap ini,

tidak dipertimbangkan.

(Zamir & Etzioni, 1998), kita harus menghitung dulu nilai

yang didasarkan pada jumlah dokumen yang "

. Adanya "

dokumen ini

didasarkan karena dokumen memiliki lebih dari satu topik sehingga dokumen dapat memiliki lebih dari satu
.
Ukuran nilai

4 menggunakan nilai biner. Rumus untuk menghitung nilai

4 antar

ditunjukkan pada Persamaan (3.2) dan (3.3)
3) ∩) 3 5 3) 3 6 7&8 ........................................................................................................................ (3.2)
3) ∩) 3 5 3) 3 6 7&8 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% (3.3)
dengan
3) ∩) 3 adalah jumlah dokumen yang "
terhadap
3) 3 dan 3) 3 masing/masing adalah jumlah dokumen dalam
Dalam Persamaan 3.2 dan 3.3, menunjukkan

) dan ) %
) dan ) %

penggunaan nilai

0,5 karena nilai tersebut

merupakan nilai tengah antara 0 sampai 1. Jika Persamaan (3.2) dan (3.3) bernilai benar maka
bernilai 1 sehingga antara kedua

4 akan

tersebut akan terhubung. Jika salah satu dari Persamaan (2) dan (3)

bernilai benar atau keduanya bernilai salah maka

4 akan bernilai 0 sehingga antara kedua

tersebut tidak terhubung. Keterhubungan antar

dapat diceritakan dalam bentuk

ditunjukkan pada Gambar 3.3

)

1

(Zamir & Etzioni, 1998)

yang

10
Dari Gambar 3.3 menunjukkan bahwa antar
akan membentuk satu

tunggal. Untuk pembentukkan

4 minimal antar
domain

&

terhubung sehingga dari 6
digunakan algoritma

dimana nilai

sebagai kriteria berhenti. Kita menggunakan algoritma ini, digunakan dalam

dimana algoritma ini hanya menemukan keterhubungan antara

( %

tersebut

yang terkecil.

'- "(
merupakan suatu pengelompokkan suatu data baru berdasarkan jarak data baru ke

beberapa data atau tetangga terdekat (Santosa, 2007:53). Menurut Kusrini dan Luthfi, (2009:94)
adalah suatu pendekatan untuk mencari kasus dengan menghitung kedekatan antara kasus baru dengan kasus lama,
yaitu berdasarkan pada pencocokan bobot dari sejumlah fitur yang ada.
Algoritma

merupakan algoritma yang melakukan klasifikasi berdasarkan kedekatan

lokasi (jarak) suatu data dengan data yang lain. Klasifikasi merupakan suatu pekerjaan menilai objek data untuk
memasukkannya kedalam kelas tertentu dari sejumlah kelas yang tersedia.
Tujuan dari algoritma

adalah mengklasifikasikan obyek baru bedasarkan atribut dan

. Diberikan suatu titik 9
paling dekat dengan titik 9

4, selanjutnya akan ditemukan sejumlah

4. Nilai prediksi dari 9

4

obyek atau (titik

) yang

akan ditentukan berdasarkan klasifikasi

ketetanggaan.
Pada algoritma

& jarak antara satu data ke data yang lain dapat dihitung. Nilai jarak inilah

yang digunakan sebagai nilai kedekatan atau kemiripan antara data uji dengan data latih. Nilai K pada
berarti K/data terdekat dari data uji. Gambar 3.5 memberikan contoh algoritma

& tanda

lingkaran untuk kelas 0, tanda plus untuk kelas 1. Seperti yang ditunjukan pada Gambar 3.4 (a), jika K bernilai 1,
kelas dari 1 data latih sebagai tetangga terdekat (terdekat pertama) dari data uji tersebut akan diberikan sebagai kelas
untuk data uji, yaitu kelas 1 . Jika K bernilai 2, akan diambil 2 tetangga terdekat dari data latih. Begitu juga jika nilai
K adalah 3,4,5 dan sebagainya. Jika dalam K/tetangga ada dua kelas yang berbeda, akan diambil kelas dengan
jumlah data terbanyak (voting mayoritas), seperti yang ditunjukan pada Gambar 3.4 (c). Pada Gambar Gambar 3.4
(c) terlihat bahwa kelas 0 mempunyai jumlah yang lebih banyak daripada kelas 1 sehingga kelas 1 akan
dikategorikan kedalam kelas 0. Jika kelas dengan data terbanyak ada dua atau lebih, akan diambil kelas dari data
dengan jumlah yang sama tersebut secara acak.

11

)

dengan nilai k/tetangga terdekat (Kusrini dan Luthfi, 2009)

(&.

Salah satu masalah yang dihadapi

adalah pemilihan nilai K yang tepat. Cara voting

mayoritas dari K/tetangga untuk nilai K yang besar bisa mengakibatkan distorsi data yang besar, seperti yang
ditunjukkan pada Gambar 3.5. misalnya diambil K bernilai 13, pada Gambar 3.5, kelas 0 dimiliki oleh 7 tetangga
yang jauh, sedangkan kelas 1 dimiliki oleh 6 tetangga yang lebih dekat. Hal ini karena setiap tetangga mempunyai
bobot yang sama terhadap data uji, sedangkan K yang terlalu kecil bisa menyebabkan algoritma terlalu sensitif
terhadap

.

)

&&

"#

dengan nilai K yang besar (Kusrini dan Luthfi, 2009)

(&/

' ")2"

%

''

Pengkategorian teks Liao (2002) adalah proses pengelompokkan dokumen teks menjadi satu atau lebih
kategori yang telah ditetapkan berdasarkan isi kontennya. Sejumlah teknik klasifikasi statistik dan mesin
pembelajaran telah diterapkan untuk pengkategorisasian teks, diantaranya adalah$
&(

&

&

& dan

:

-

& ) 4
:- .

Langkah pertama dalam pengkategorian teks adalah mengubah dokumen, yang biasanya merupakan string
karakter, menjadi sebuah representasi yang cocok untuk algoritma pembelajaran dan tugas pengklasifikasian.
Representasi dokumen yang paling umum digunakan adalah :

-

: - . Dalam model ini, setiap

12
dokumen direpresentasikan/diwakilkan oleh vektor kata/kata. Matriks A yang merupakan kata/berdasarkan/
)

dokumen digunakan sebagai koleksi dokumen, contohnya

=(

dokumen ;. Ada beberapa cara untuk menentukan bobot

. Pada saat ini, berasumsikan

kata pada dokumen ;.
dan

adalah bobot dari kata

pada

merupakan frekuensi

adalah jumlah dokumen dalam koleksi, - adalah jumlah kata yang berbeda dalam koleksi,

adalah total banyaknya kata

pembobotan

dimana

muncul di seluruh koleksi. Pendekatan yang paling sederhana adalah

, yang menetapkan bobot dari

menjadi 1 jika kata tersebut muncul dalam dokukmen dan 0

untuk sebaliknya. Pendekatan lain yang sederhana adalah menggunakan frekuensi kata dalam dokumen, contohnya
=
9

. Pendekatan bobot yang lebih umum adalah pembobotan

9

4

"

4:

=

× log

........................................................................................................................... (3.4)

Sedikit variasi Kwok (1998) dari pembobotan

, yang memperhitungkan kemungkinan dokumen/dokumen

memiliki panjang yang berbeda, adalah sebagai berikut :
=

× log

.................................................................................................................... (3.5)

Untuk matriks A, jumlah baris sesuai dengan jumlah kata M dalam koleksi dokumen. Mungkin ada ratusan
ribu kata yang berbeda.Untuk mengurangi dimensi yang tinggi, penghapusan
muncul yang tidak membawa informasi),

(penghapusan

(kata/kata yang sering

), dan teknik pengurangan dimensi

tambahan, seleksi fitur atau re/parameterisasi, biasanya digunakan.
Untuk mengklasifikasi

pada dokumen X, algoritma pengklasifikasian

mengurutkan/merangking dokumen tetangga diantara vektor/vektor dokumen pelatihan, dan menggunakan label
kelas dari k/tetangga paling mirip untuk memprediksi kelas dokumen baru. Kelas/kelas tetangga ini dibobot dengan
menggunakan persamaan dari masing/masing tetangga ke X, di mana persamaan diukur dengan jarak *

atau

nilai kosinus antara dua vektor dokumen. Persamaan kosinus didefinisikan sebagai berikut:
!, # $ =

' ∈ )∩+

% ×&

,-, ×./ .

........................................................................................................... (3.6)

dimana < adalah dokumen tes, yang direpresentasikan sebagai suatu vektor; # adalah dokumen pelatihan ke ;; 0

adalah kata yang berasal dari < dan # ; 1 adalah bobot dari kata 0 dalam 0.5…………………………………………….(4.1)

Pada kasus ini, |Ba∩Bb|/|Ba|=2/2=1, dan |Ba∩Bb|/|Bb|=2/3=0.67 dengan demikiam kedua simpul memiliki
4, jadi antara simpul a dan b berhubungan dan dapat berada dalam satu klaster atau kelompok. Rekap
perhitungan dengan rumus

4 antar term/term pada dokumen yang ada, dapat dilihat hasil secara keseluruhan

pada Tabel 4.2
.

Nilai Similarity antar Simpul

)2

+

/
0.67
0.50
0.50
1.00

1.00
/
1.00
1.00
1.00

0.50
0.67
/
0.50
0.50

#
0.50
0.67
1.00
/
1.00

1.00
0.67
1.00
0.50
/

1

Tabel 4.2 menunjukan nilai

4 antar simpul/simpul yang ada. Sehingga nilai/nilai yang berkaitan

ini, dapat direpresentasikan dalam bentuk graph seperti tertera pada Gambar 4.3

)

.

'

("% %

(-

'

%

( . & Graph Klaster Frase

(

2 #

'"( )

Perhitungan manual pada algoritma

dengan menggunakan dokumen teks anggota klaster

sebagai inputannya, akan dijelaskan secara detail yang meliputi deskripsi input, proses dan output yang
dihasilkannya.

)2

%%

'

2

'"( )

(%

'- "(

Data yang digunakan pada proses klasifikasi dengan menggunakan algoritma
merupakan hasil dari proses pengklasteran oleh pustaka

!

menggunakan algoritma

(STC). Tabel 4.3 berisi kumpulan teks bebahasa Indonesia sebagai data inputan awal pada sistem pengelompokkan.
. & Kumpulan data teks
"
1
2
3
4

Sugeng bertemu dengan Edwin
Rini menemui Edwin juga
Sugeng menemui Rini juga
UGM singkatan dari Universitas Gadjah Mada

&

1
. & Kumpulan data teks (lanjutan)
"
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40

% 2("% % 2 )

UGM berlokasi di Yogyakarta
UGM mempunyai Jurusan Ilmu Komputer
Mahasiswa sering mendapatkan cemilan di Kantin
Mahasiswa sering menjelajah internet di perpustakaan
UGM memiliki akun twitter
Jurusan Ilmu Komputer memiliki akun twitter juga
Sugeng dan Rini pergi ke kantor setiap hari
Sugeng sedang duduk di atas kursi sekarang
Yogyakarta berlokasi di pulau Jawa
Muiz menyukai kopi
Muiz memiliki mobil baru
Muiz adalah seorang guru
Yoyok berbicara Bahasa Inggris dengan lancer
Yoyok bukan guru kursus Bahasa Inggris
Kuncoro telah pergi belanja kemarin
Yoyok berbicara Bahasa Inggris dan Sugeng berbicara Bahasa Jawa
Setelah Akas mendapatkan sarapan, dia pergi ke sekolah
Akas dan Ocha pergi ke Bandung
Cibaduyut berlokasi di Bandung
Akas dan Dika sedang bermain game
Ada pohon jeruk di kebunnya Akas
Akas telah dilahirkan di Bandung
Ocha telah dilahirkan di Bandung
Keukeu pernah ke kota Pemalang
Kota Pemalang berlokasi di Jawa Tengah
Ocha memiliki kucing dan ikan
Kucing memakan ikan
Tikus memakan ikan
Akas dan Ocha berbicara Bahasa Sunda
Akas pergi ke sekolah dengan mobil
Akas ingin menjadi dokter
Akas dan ibunya pergi ke Yogyakarta
Akas memiliki saudara
Yoyok dilahirkan di Yogyakarta
Yoyok memiliki akun twitter
Pemerintah Yogyakarta memiliki akun twitter dan facebook

% (" -

+

Kumpulan data berjumlah 40 buah pada Tabel 4.4 diproses oleh algoritma
menghasilkan 4 klaster, termasuk klaster
Tabel 4.7

(STC)

. Hasil algoritma ini dapat dilihat pada Tabel 4.4, 4.5, 4.6 dan

20
. . Daftar anggota Klaster C1 ”.
"
1
2
3
4
5
6
7
8
9

"#
" )
D19
D20
D22
D24
D31
D32
D33
D34
D35



%
Setelah Akas mendapatkan sarapan, diapergi ke sekolah
Akas dan Ocha pergi ke Bandung
Akas dan Dika bermain game
Akas dilahirkan Bandung
Akas dan Ocha berbicara Bahasa Sunda
Akas pergi ke sekolah dengan mobil
Akas ingin menjadi dokter
Akas dan ibunya pergi ke Yogyakarta
Akas memiliki saudara

. / Daftar anggota Klaster C2 “.
"
1
2
3

"#
" )
D6
D7
D37



%
UGM memiliki akun twitter
Jurusan Ilmu Komputer memiliki akun twitter juga
Yoyok memiliki akun twitter

. 1 Daftar anggota Klaster C3 “> 4 ”
"
1
2

"#
" )
D15
D16

3
4
5

D18
D36
D37

%
Yoyok berbicara Bahasa Ingris dengan lancar
Yoyok bukan guru kursus Bahasa Inggris
Yoyok berbicara Bahasa Inggris dan Sugeng berbicara Bahasa
Jawa
Yoyok dilahirkan di Yogyakarta
Yoyok memiliki akun twitter

. 4 Daftar anggota Klaster C4 “
"
1
2
3
4
5
6
7
8
9
10

"#
" )
D0
D1
D2
D3
D4
D5
D8
D9
D10
D11



%
Sugeng menemui Rini juga
UGM berlokasi di Yogyakarta
UGM memiliki Jurusan Ilmu Komputer
UGM singkatan dari Universitas Gadjah Mada
Mahasiswa sering mendapatkan cemilan di kantin
Mahasiswa sering menjelajah internet di perpustakaan
Sugeng bertemu dengan Edwin
Sugeng and Rini pergi ke kantor setiap hari
Sugengsedang duduk di atas kursi sekarang
Yogyakarta berlokasi di pulau Jawa

21
. 4 Daftar anggota Klaster C4 “
"

% (

11
12
13
14
15
16
17
18
19
20
21
22
23
24

"#
" )
D12
D13
D14
D17
D21
D23
D25
D26
D27
D28
D29
D30
D38
D39

$

%0

” (lanjutan)

%
Muiz menyukai kopi
Muiz memiliki mobil baru
Muiz adalah seorang guru
Kuncoro telah pergi belanja kemarin
Cibaduyut berlokasi di Bandung
Ada pohon jeruk di kebunnya Akas
Ocha dilahirkan di Bandung
Keukeu pernah ke Kota Pemalang
Kota Pemalang berlokasi di Jawa Tengah
Ocha memiliki kucing dan ikan
Kucing memakan ikan
Tikus memakan ikan
Pemerintah Yogyakarta memiliki akun twitter dan facebook
Rini menemui Edwin juga

%

(% (

''"

Kumpulan dokumen teks anggota klaster yang ada, selain klaster
Data pada Tabel 4.8 akan digunakan sebagai data

dapat dilihat pada Tabel 4.8.

dalam proses perbandingan untuk setiap anggota klaster

terhadap dokumen teks yang ada pada setiap kelas sebagai kelas tujuan dari proses perpindahan
dokumen anggota

%
. 5 Daftar anggota klaster C1, C2 dan C3 hasil klasterisasi dengan STC

"
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

"#
% (
C1
C1
C1
C1
C1
C1
C1
C1
C1
C2
C2
C2
C3
C3
C3
C3
C3

"#
" )
D19
D20
D22
D24
D31
D32
D33
D34
D35
D6
D7
D37
D15
D16
D18
D36
D37

%
Setelah Akas mempunyai sarapan, dia pergi ke sekolah
Akas dan Ocha pergi ke Bandung
Akas dan Dika bermain game
Akas dilahirkan di Bandung
Akas dan Ocha berbicara Bahasa Sunda
Akas pergi ke sekolah dengan mobil
Akas ingin menjadi dokter
Akas dan ibunya pergi ke Yogyakarta
Akas memiliki saudara
UGM memiliki akun twitter
Jurusan Ilmu Komputer memiliki akun twitter juga
Yoyok memiliki akun twitter
Yoyok berbicara Bahasa Inggris dengan lancar
Yoyok bukan guru kursus Bahasa Inggris
Yoyok berbicara Bahasa Inggris dan Sugeng berbicara
Bahasa Jawa
Yoyok dilahirkan di Yogyakarta
Yoyok memiliki akun twitter

22

#

("% %

%0

% #"

)

%

''"

% (

Seandainya proses pengklaster dokumen teks dengan menggunakan STC menghasilkan 4 klaster termasuk
klaster

dengan kode C4 dan seandainya juga jumlah anggota setiap masing/masing klaster yaitu C1

memiliki 4 anggota, C2 memiliki 3 anggota, klaster C3 memiliki 5, dan klaster C4 memiliki 24 anggota. Pada tahap
klasifikasi akan dilakukan proses klasifikasi terhadap semua dokumen anggota klaster ?

@ yang

berjumlah 24 untuk diklasifikasikan ke salah satu klaster C1, C2, C3 atau C4. Pada contoh kasus ini, akan
melakukan percobaan proses pengklasifikasian terhadap salah satu dokumen anggota klaster
kode D38 dan teks tersebut berisikan kalimat sebagai berikut “'

>

dengan

4

”. Pertanyaanya adalah “Apakah dokumen D38 ini akan diklasifikasikan ke klaster dengan label “Akas”,
“Akun Twitter” atau “Yoyok”. Langkah awal yang dilakukan untuk menjawab pertanyaan ini, adalah dengan
terlebih dahulu menggabungkan dokumen teks D38 dengan anggota klaster C1, C2 dan C3 untuk diproses dalam
perhitungan TF/IDF.
Tabel 4.9 merupakan kumpulan data yang telah melalui proses
dan

, dan proses

dengan menggunakan '

& meliputi penghapusan
)

#

. Hasil

praproses yang digunakan dalam proses klasifikasi ini sebelum proses pengklasteran STC telah disimpan. Pada
proses klasifikasi data praproses yang telah tersimpan akan dipergunkan kembali untuk dihitung dengan fungsi
TF/IDF. Data hasil praproses dapat dilihat pada Tabel 4.9
. 6 Hasil praproses
"
!
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

"#
% (
+.
C1
C1
C1
C1
C1
C1
C1
C1
C1
C2
C2
C2
C3
C3
C3
C3
C3

"#
" )
&5
D19
D20
D22
D24
D31
D32
D33
D34
D35
D6
D7
D37
D15
D16
D18
D36
D37

%
) (
- "'7
( )
8
setelah Akas sarapan dia pergi sekolah
Akas Ocha pergi Bandung
Akas Dika bermain game
Akas lahir Bandung
Akas Ocha bicara Sunda
Akas pergi sekolah mobil
Akas ingin dokter
Akas ibu pergi Yogyakarta
Akas milik saudara
UGM milik akun twitter
Jurusan Ilmu Komputer milik akun twitter
Yoyok milik akun twitter
Yoyok bicara Inggris lancar
Yoyok bukan guru kursus Bahasa Inggris
Yoyok bicara Inggris Sugeng bicara Jawa
Yoyok lahir Yogyakarta
Yoyok miliki akun twitter

(0

""

23
'-

'

9

Semua dokumen teks yang ada pada Tabel 4.10 dipisahkan (

=

) kata demi kata. Kata/kata yang ada

diinventarisir agar tidak dicatat berulang kali, kemudian disebut dengan term tunggal. Term/term tunggal yang ada
kemudian dihitung frekuensi kemunculan term pada setiap dokumen. Frekuensi kemunculan kemunculan term/term
tunggal pada setiap dokumen, dikenal
dengan

9
9

4

9

4

dan nilai frekuensi dokumen terhadap , yang dikenal

. Sehingga nilai invers dari frekuensi setiap dokumen, yang dikenal dengan

"

4 dapat dihitung dengan rumus log(n/df) dengan n adalah jumlah dokumen. Nilai/nilai tf, df, dan

idf dapat dilihat pada Tabel 4.10

. !: Daftar nilai frekuensi term dan dokumen
()
pemerintah
facebook
Akas
sarapan
dia
sekolah
Ocha
pergi
Bandung
Dika
main
game
lahir
Sunda
mobil
ingin
dokter
Ibu
Yogyakarta
memiliki
saudara
UGM
Twitter
akun
komputer
ilmu

!6

&5

:

.

&!

&

&&

&. &/ 1

4

1
1
1
1
1
1
1

1

1

1

1

1

1

1

1

1
1
1
1

1
1

1

1
1
1
1
1
1
1
1
1

1
1

1
1

1
1
1
1

1

1

1
1
1

1
1
1

&4 !/ !1 !5 &1 &4 0
1
1
9
1
1
2
2
3
2
1
1
1
1
2
1
1
1
1
1
1
3
1
1 5
1
1
1
1 5
1
1 4
1
1

#0
1.2552
1.2552
0.301
1.2552
1.2552
0.9542
0.9542
0.7781
0.9542
1.2552
1.2552
1.2552
0.9542
1.2552
1.2552
1.2552
1.2552
1.2552
0.7781
0.5563
1.2552
1.2552
0.5563
0.6532
1.2552
1.2552

24

. !: (lanjutan)
:
. &! &
&& &. &/ 1 4 &4 !/ !1 !5 &1 &4 0 #0
()
&5 !6
program
1
1 1.2552
Yoyok
1 1 1 1 1 1 6 0.4771
bicara
1
1
2
2 0.9542
Inggris
1 1 1
3 0.7781
lancar
1
1 1.2552
bukan
1
1 1.2552
guru
1
1 1.2552
kursus
1
1 1.2552
Sugeng
1
1 1.2552
Jawa
1
1 1.2552
Langkah berikutnya, adalah menentukan bobot, dengan istilah
(wdt). Nilai bobot
berasal dari nilai idf untuk setiap term yang ada pada Tabel 4.10, kemudian dikalikan dengan nilai tf untuk setiap
term di semua dokumen yang ada pada Tabel 4.10 juga. Hasil operasi perkalian nilai idf dan nilai tf dari term/term
yang ada dapat dilihat sebagai nilai bobot untuk semua term di setiap dokumen yang digunakan termasuk satu
dokumen anggota teks berita klaster

sebagai 9

4 atau dokumen teks yang akan dibandingkan dengan

dokumen teks yang ada pada klaster/klaster yang ada lainnya dapat dilihat nilai/nilainya pada Tabel 4.11. Proses
yang dilakukan setelah ditemukan nilai
,

adalah

adalah penentuan nilai bobot dengan rumus 9&: = 0

&:

∗ 2 : , A adalah

dan adalah term.
. !! Bobot term dan dokumen

:
.
&!
&
&&
&.
&/ 1 4 &4 !/ !1 !5 &1
&4
&5
!6
1.25520
0
0
0
0
0
0
0
0
0 0 0 0 0 0 0
0
1.25520
0
0
0
0
0
0
0
0
0 0 0 0 0 0 0
0
0
0.301 0.301 0.301 0.301 0.301 0.301 0.301 0.301 0.3010 0 0 0 0 0 0
0
0
1.25520
0
0
0
0
0
0
0
0 0 0 0 0 0 0
0
0
1.25520
0
0
0
0
0
0
0
0 0 0 0 0 0 0
0
0
0.95420
0
0
0
0.95420
0
0
0 0 0 0 0 0 0
0
0
0
0.95420
0
0.95420
0
0
0
0 0 0 0 0 0 0
0
0
1.25520.77810
0
0
0.77810
0.77810
0 0 0 0 0 0 0
0
0
0
0.95420
0.95420
0
0
0
0
0 0 0 0 0 0 0
0
0
0
0
1.25520
0
0
0
0
0
0 0 0 0 0 0 0
0
0
0
0
1.25520
0
0
0
0
0
0 0 0 0 0 0 0
0
0
0
0
1.25520
0
0
0
0
0
0 0 0 0 0 0 0
0
0
0
0
0
0.95420
0
0
0
0
0 0 0 0 0 0 0.95420
0
0
0
0
0
1.25520
0
0
0
0 0 0 0 0 0 0
0
0
0
0
0
0
0
1.25520
0
0
0 0 0 0 0 0 0
0
0
0
0
0
0
0
0
1.25520
0
0 0 0 0 0 0 0
0
0
0
0
0
0
0
0
1.25520
0
0 0 0 0 0 0 0
0
0
0
0
0
0
0
0
0
1.25520
0 0 0 0 0 0 0
0
1.25520
0
0
0
0
0
0
0.77810
0 0 0 0 0 0 0.77810

25
. !! (lanjutan)
& && &. &/
1
4
&4
!/
!1
!5
&1
&4
&5
!6 :
. &!
1.25520 0 0 0 0
0 0 0 0.55630.55630.55630.55630
0
0
0
0.5563
0
0 0 0 0 0
0 0 0 1.25520
0
0
0
0
0
0
0
0
0 0 0 0 0
0 0 0 0
1.25520
0
0
0
0
0
0
1.25520 0 0 0 0
0 0 0 0
0.55630.55630.55630
0
0
0
0.5563
1.25520 0 0 0 0
0 0 0 0
0.65320
0.65320
0
0
0
0.6532
0
0 0 0 0 0
0 0 0 0
0
1.25520
0
0
0
0
0
0
0 0 0 0 0
0 0 0 0
0
1.25520
0
0
0
0
0
0
0 0 0 0 0
0 0 0 0
0
1.25520
0
0
0
0
0
0
0 0 0 0 0
0 0 0 0
0
0
0.47710.47710.47710.47710.47710.4771
0
0 0 0 0 1.25520 0 0 0
0
0
0
0.95420
1.90840
0
0
0 0 0 0 0
0 0 0 0
0
0
0
0.77810.77810.77810
0
0
0 0 0 0 0
0 0 0 0
0
0
0
1.25520
0
0
0
0
0 0 0 0 0
0 0 0 0
0
0
0
0
1.25520
0
0
0
0 0 0 0 0
0 0 0 0
0
0
0
0
1.25520
0
0
0
0 0 0 0 0
0 0 0 0
0
0
0
0
1.25520
0
0
0
0 0 0 0 0
0 0 0 0
0
0
0
0
0
1.25520
0
0
0 0 0 0 0
0 0 0 0
0
0
0
0
0
1.25520
0
Nilai bobot dokumen pada salah satu anggota klaster
, dalam hal ini adalah D38 yang ada pada
Tabel 4.11 kemudian akan dikalikan dengan nilai bobot term/term untuk setiap dokumen yang ada pada klaster
lainnya. Perkalian nilai bobot term/term dokumen D38 dengan term/term angota klaster yang ada lainnya dapat
ditentukan dan hasilnya dapat dilihat pada Tabel 4.12.
. ! Nilai bobot D38 terhadap dokumen anggota klaster C1, C2 dan C3
!6
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

:
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

. &! &
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

&& &.
&/
1
4
&4
!/ !1 !5 &1
&4
0
0
0
0
0
0 0 0 0
0
0
0
0
0
0
0 0 0 0
0
0
0
0
0
0
0 0 0 0
0
0
0
0
0
0
0 0 0 0
0
0
0
0
0
0
0 0 0 0
0
0
0
0
0
0
0 0 0 0
0
0
0
0
0
0
0 0 0 0
0
0
0
0
0
0
0 0 0 0
0
0
0
0
0
0
0 0 0 0
0
0
0
0
0
0
0 0 0 0
0
0
0
0
0
0
0 0 0 0
0
0
0
0
0
0
0 0 0 0
0
0
0
0
0
0
0 0 0 0
0
0
0
0
0
0
0 0 0 0
0
0
0
0
0
0
0 0 0 0
0
0
0
0
0
0
0 0 0 0
0
0
0
0
0
0
0 0 0 0
0
0
0
0
0
0
0 0 0 0
0
0.9766 0
0
0
0
0 0 0 0.9766 0
0
0.6982 0.6982 0.6982 0.6982 0 0 0 0
0.6982

26
. ! (lanjutan)
!6
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

:
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

. &! &
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

&& &.
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

&/
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

1
4
&4
!/ !1 !5 &1
0
0
0
0 0 0 0
0
0
0
0 0 0 0
0.6982 0.6982 0.6982 0 0 0 0
0.8198 0
0.8198 0 0 0 0
0
0
0
0 0 0 0
0
0
0
0 0 0 0
0
0
0
0 0 0 0
0
0
0
0 0 0 0
0
0
0
0 0 0 0
0
0
0
0 0 0 0
0
0
0
0 0 0 0
0
0
0
0 0 0 0
0
0
0
0 0 0 0
0
0
0
0 0 0 0
0
0
0
0 0 0 0
0
0
0
0 0 0 0

&4
0
0
0.6982
0.8198
0
0
0
0
0
0
0
0
0
0
0
0

Tabel 4.12 terdapat nilai bobot setiap term untuk setiap dokumen berdasarkan nilai tf dan idf, nilai bobot ini
kemudian akan dihitung pada proses berikutnya untuk mendapatkan panjang vektornya.

0

("% %

(-

'

$

';

Hasil perhitungan panjang
termasuk dokumen anggota klaster

"(
vektor didapat dari hasil kuadrat bobot yang ada pada setiap dokumen,
dan hasil perkalian bobot ini dapat dilihat hasilnya pada Tabel 4.13.

Pada proses pembobotan ini dilakukan dengan proses perkalian antara nilia tf dengan nilai idf untuk masing/masing
term/term yang ada pada setiap dokumen yang dilibatkan pada proses penentuan nilai tf/idf. Hasil pembobotan
terhadap term dan dokumen yang ada bisa dilihat pada Tabel 4.11. Proses perhitungan selanjutnya berfungsi untuk
mendapatkan nilai vektor semua dokumen anggota pada klaster yang ada, dengan mengkuadratkan nili bobot (Tabel
4.11) yang ada pada setiap term dan dokumen yang ada.
. !& Panjang vektor
&5
!6
:
.
&!
&
&&
&.
&/
1
2.48220
0
0
0
0
0
0
0
0
0
2.48220
0
0
0
0
0
0
0
0
0
0
0.00820.0082 0.00820.0082 0.00820.00820.00820.00820.0082 0
0
2.48220
0
0
0
0
0
0
0
0
0
2.48220
0
0
0
0
0
0
0
0
0
0.82880
0
0
0
0.82880
0
0
0
0
0
0.8288 0
0
0.82880
0
0
0
0
0
2.48220.3665 0
0
0
0.36650
0.36650
0
0
0
0.8288 0
0.8288 0
0
0
0
0
0
0
0
0
2.48220
0
0
0
0
0
0

4
0
0
0
0
0
0
0
0
0
0

&4
0
0
0
0
0
0
0
0
0
0

!/
0
0
0
0
0
0
0
0
0
0

!1
0
0
0
0
0
0
0
0
0
0

!5
0
0
0
0
0
0
0
0
0
0

&1
0
0
0
0
0
0
0
0
0
0

&4
0
0
0
0
0
0
0
0
0
0

27
. !& Panjang vektor
&5
!6
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2.48220
2.48220
0
0
0
0
2.48220
2.48220
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

:
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

.
&!
&
&&
&.
&/
1
4
&4
!/
!1
!5
&1
&4
2.48220
0
0
0
0
0
0
0
0
0
0
0
0
0
2.48220
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0.8288 0
0
0
0
0
0
0
0
0
0
0
0.82880
0
0
2.48220
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2.48220
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2.48220
0
0
0
0
0
0
0
0
0
0
0
0
0
2.48220
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2.48220
0
0
0
0
0
0
0
0
0
0
0
0
0
0.36650
0
0
0
0
0
0
0.36650
0
0
0
0
0
0
0.0957 0.09570.09570.09570
0
0
0
0.0957
0
0
0
0
0
0
2.4822 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2.48220
0
0
0
0
0
0
0
0
0
0
0
0
0
0.09570.09570.09570
0
0
0
0.0957
0
0
0
0
0
0
0
0.18190
0.18190
0
0
0
0.1819
0
0
0
0
0
0
0
0
2.48220
0
0
0
0
0
0
0
0
0
0
0
0
0
2.48220
0
0
0
0
0
0
0
0
0
0
0
0
0
2.48220
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0.05180.05180.0518 0.0518 0.05180.0518
0
0
0
0
0
0
0
0
0
0
0.82880
13.26340
0
0
0
2.48220
0
0
0
0
0
0
0.36650.3665 0.3665 0
0
0
0
0
0
0
0
0
0
0
0
2.48220
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2.4822 0
0
0
0
0
0
0
0
0
0
0
0
0
0
2.4822 0
0
0
0
0
0
0
0
0
0
0
0
0
0
2.4822 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2.4822 0
0
0
0
0
0
0
0
0
0
0
0
0
0
2.4822 0
0

Tabel 4.14 merupakan rekap nilai total untuk setiap dokumen yang ada pada Tabel 4.12. Proses
perhitungan untuk mendapatkan nilai vektor dokumen D38 sebagai anggota

terhadap dokumen anggota

klaster yang ada, dengan mengkuadratkan nili bobot (Tabel 4.12) yang ada pada setiap term dan dokumen yang ada.
. !. Rekap Total Nilai Bobot D38 Terhadap Dokumen lain
!6
0

:
0

0

0

. &! & && &.
&/
1
4
&4
!/ !1 !5 &1
&4
0 0 0 0.97660.69822.21621.39642.21620 0 0 0.97662.2162

Tebel 4.15 merupakan rekap nilai total untuk panjang vektor yang ada pada Tabel 4.13.

. !/ Rekap Total Nilai Panjang Vektor
:
.
&! &
&&
&.
&/
1
4
&4 !/
!1
!5
&1
&4
&5 !6
9.45 4.757 2.516 4.817 1.911 4.15 3.181 3.241 2.876 1.975 2.620 5.345 1.27 3.318 5.559 7.625 1.743 1.27
3
4
8
1
4
2
9
6
9
5
9
3
3
9
5
9
4
3

2
Tabel 4.16 merupakan nilai akar rekap total nilai pada Tabel 4.15 untuk setiap dokumen yang ada. Panjang
vektor Dj didapat dengan melakukan penjumlahan panjang vektor untuk term/term yang ada disetiap dokumen
dengan menggunakan fungsi SUM dan mencai nilai akar dari fungsi SUM untuk setiap dokumennya dengan rumus
>>>?= < =
>>?= < =
SUM dan mencai nilai akar dari fungsi SUM untuk setiap dokumennya dengan rumus

Dokumen yang terkait

HASIL PENELITIAN KETERKAITAN ASUPAN KALORI DENGAN PENURUNAN STATUS GIZI PADA PASIEN RAWAT INAP DI BANGSAL PENYAKIT DALAM RSU DR SAIFUL ANWAR MALANG PERIODE NOVEMBER 2010

7 171 21

PEMAKNAAN BERITA PERKEMBANGAN KOMODITI BERJANGKA PADA PROGRAM ACARA KABAR PASAR DI TV ONE (Analisis Resepsi Pada Karyawan PT Victory International Futures Malang)

18 209 45

KADAR TOTAL NITROGEN TERLARUT HASIL HIDROLISIS DAGING UDANG MENGGUNAKAN CRUDE EKSTRAK ENZIM PROTEASE DARI LAMBUNG IKAN TUNA YELLOWFIN (Thunnus albacares)

5 114 11

KAJIAN MUTU FISIK TEPUNG WORTEL (Daucus carota L.) HASIL PENGERINGAN MENGGUNAKAN OVEN

17 218 83

KARAKTERISASI DAN PENENTUAN KOMPOSISI ASAM LEMAK DARI HASIL PEMURNIAN LIMBAH PENGALENGAN IKAN DENGAN VARIASI ALKALI PADA ROSES NETRALISASI

9 139 85

PENGGUNAAN BAHASA JURNALISTIK PADA TERAS BERITA HEADLINE HARIAN UMUM GALAMEDIA

8 75 43

PENGGUNAAN BAHAN AJAR LEAFLET DENGAN MODEL PEMBELAJARAN THINK PAIR SHARE (TPS) TERHADAP AKTIVITAS DAN HASIL BELAJAR SISWA PADA MATERI POKOK SISTEM GERAK MANUSIA (Studi Quasi Eksperimen pada Siswa Kelas XI IPA1 SMA Negeri 1 Bukit Kemuning Semester Ganjil T

47 275 59

PENERAPAN MODEL COOPERATIVE LEARNING TIPE TPS UNTUK MENINGKATKAN SIKAP KERJASAMA DAN HASIL BELAJAR SISWA KELAS IV B DI SDN 11 METRO PUSAT TAHUN PELAJARAN 2013/2014

6 73 58

PENGARUH PEMANFAATAN PERPUSTAKAAN SEKOLAH DAN MINAT BACA TERHADAP HASIL BELAJAR IPS TERPADU SISWA KELAS VIII SMP NEGERI 1 WAY

18 108 89

PENINGKATAN HASIL BELAJAR TEMA MAKANANKU SEHAT DAN BERGIZI MENGGUNAKAN MODEL PEMBELAJARAN KOOPERATIF TIPE THINK-PAIR-SHARE PADA SISWA KELAS IV SDN 2 LABUHAN RATU BANDAR LAMPUNG

3 72 62