PERBANDINGAN KLASIFIKASI DOKUMEN MENGGUN. pdf

TUGAS SISTEM TEMU KEMBALI INFORMASI (STKI)
PERBANDINGAN KLASIFIKASI DOKUMEN MENGGUNAKAN
METODE NAÏVE BAYES DAN ROCCHIO

Disusun Oleh :
STKI - A

1.

Luh Kiki Sidhi Cillasavet D

0910683060

2.

Rini Rosidah

115060800111036

3.


Suryanti Indahsari

115060807111034

PROGRAM STUDI INFORMATIKA/ ILMU KOMPUTER
PROGRAM TEKNOLOGI INFORMASI DAN ILMU KOMPUTER
UNIVERSITAS BRAWIJAYA
MALANG
2014

BAB I
PENDAHULUAN

1.1 Latar Belakang
Kebutuhan akan informasi semakin meningkat seiring perkembangan teknologi dalam
menyebarkan

informasi

kepada


masyarakat.

Informasi

yang

dibutuhkan

mengalami

perkembangan mulai dari informasi yang bersifat umum hingga informasi yang bersifat khusus.
Banyaknya informasi dan dokumen yang tersedia mendorong manusia untuk mencari cara
mendapatkan informasi dan dokumen yang tepat dalam waktu yang singkat. Apabila dokumen
yang dicari berada pada kumpulan dokumen yang berjumlah sedikit, pencarian dapat dilakukan
secara manual. Namun , apabila jumlah dokuen yang tersedia sangat besar, proses pencarian
secara manual akan menghabiskan waktu dan tenaga. Apabila waktu pencarian yang terlalu
lama, maka manfaat dari informasi yang diperoleh dapat berkurang. Oleh karena itu, diperlukan
cara untuk memperoleh data secara cepat dan tepat.
Klasifikasi dokumen dapat membantu proses pencarian sebuah dokumen dengan cepat

dan tepat. Banyak metode yang dikembangkan untuk melakukan suatu pencarian, salah satu
metode yang umum digunakan adalah dengan menggunakan metode klasifikasi. Beberapa
contoh metode klasifikasi antara lain : Naïve Bayes, K-Nearest Neighbor, Rocchio, dan Vector
Space Model. Dengan banyaknya metode yang dapat digunakan dalam klasifikasi dokumen,

maka diperlukan suatu perbandingan. Perbandingan hasil klasifikasi ditujukan untuk mengetahui
metode mana yang dapat menghasilkan performasi lebih baik dari metode-metode yang
digunakan tersebut. Dalam laporan ini akan dibahas mengenai perbandingan hasil klasifikasi
Naïve Bayes dan Rocchio dalam melakukan klasifikasi dokumen.

BAB II
DASAR TEORI
2.1 Metode Naïve Bayes
Metode klasifikasi ini diturunkan dari penerapan teorema bayes dengan asumsi
independence(saling bebas). Naïve Bayes Classifier termasuk ke dalam algoritma pembelajaran
bayes yang di bangun noleh data pelatihan untuk memperkirakan probabilitas dari setiap katagori
yang terdapat pada ciri dokumen yang diuji [DUM-98:3]. Naïve Bayes Classifier adalah metode
pengklasifikasian paling sederhana dari model pengklasifikasian dengan peluang, dimana
diasumsikan bahwa setiap atribut contoh (data sampel) bersifat saling lepas satu sama lain
berdasarkan atribut kelas. Nilai peluang yang di dapatkan dari perhitungan dengan naïve bayes

dapat digunakan untuk memprediksi kemungkinan dokumen dari anggota suatu kelas.
Naïve Bayes Classifier banyak di gunakan dalam melakukan klasifikasi dokumen teks.
Pada penerapannnya , setiap posisi kata dalam dokumen harus diposisikan atau dianggap sebagai
atribut. Persamaan pengkatagorian dokumen menggunakan naïve bayes adalah sebagai berikut
[MIT-97:176] :

Keterangan :
|

|

|

: peluang kategori tertentu untuk kemunculan sebuah kata.

Jika data yang digunakan merupakan data kontinyu maka persamaan yang di gunakan adalah:



Naïve Bayes Classifier memberi nilai target kepada data baru menggunakan nilai VMAP, yaitu

nilai kemungkinan tertinggi dari seluruh anggota himpunan set domain V[MIT-97:177].

Keterangan :
: fungsi yang mengembalikan index dari nilai maksimum dari sekumpulan himpunan
data.
Teorema Bayes kemudian digunakan untuk menulis ulang persamaan yang di tulis menjadi 2.3
menjadi persamaan 2.4 sebagai berikut :
|

Pada persamaan 2.4 nilai P(a1,a2,a3,….,an) akan bernilai konstan untuk semua

sehingga

persamaan 2.4 dapat ditulis menjadi persamaan 2.5 sebagai berikut :
|

Dengan asumsi bahwa teorema bayes bersifat independence (saling bebas) maka menyebabakan
setiap kata pada kategori akan independent antara satu dengan lainnya [MIT-97:177]. Sehingga
menjadi persamaan :
|


|

Subtitusi persamaan 2.5 dengan persamaan 2.6 menjadi persamaan 2.7 :
|
Keterangan :
:nilai probabilitas hasil perhitungan Naïve Bayes Classifier untuk nilai fungsi target yang
bersangkutan.
: Frekuensi kemunculan kata
Himpunan set dari nilai-nilai probabilitas ini berkorespondensi dengan hipotesa uang ingin
dipelajari. Hipotesa kemudian digunakan untuk mengklasifikasi data-data baru. Pada
pengklasifikasian teks, perhitungan rumus 2.6 dapat didefinisikan [MIT-97:182]:

( )
(

Keterangan :
P( )
(


| )

|

|

: Peluang jumlah dokumen ketegori tertentu terhadap seluruh dokumen
| )

: Peluang kategori Wk ketika terdapat kemunculan sebuah kata vj.

: kumpulan dokumen yang memiliki nilai target vj
: jumlah dokumen yang digunakan dalam pelatihan (kumpulan data latih).
: jumlah total kata yang terdapat di dalam data tekstual yang memiliki nilai fungsi

target yang sesuai.
: jumlah kemunculan kata Wk pada semua data tekstual yang memiliki nilai fungsi
target yang sesuai
|
|

digunakan

: jumlah kata yang berbeda yang muncul dalam seluruh data tekstual yang

2.2 Metode Rocchio
Metode Rocchio relevance feedback adalah strategi reformulasi query paling populer
karena sering digunakan untuk membantu user pemula suatu information retrieval systems.
Dalam siklus relevance feedback, kepada user disajikan hasil pencarian dokumen, setelah itu
user dapat memeriksa dan menandai dokumen yang benar-benar relevan[YDH-13].
Rocchio classifiers merupakan salah satu metode pembelajara supervised document
classification. Metode klsifikasi rocchio membandingkan kesamaan isi antara data training dan
data test dengan merepresentsaikan semua data ke dalam sebuah vector. Kedekatan kesamaan isi
dihitung dari kedekatan sudut yang terbentuk antara bobot data training dan bobot data test
menggunakan aturan sodinus. Untuk menghitung bobot setiap kata dalam dokumen digunakan
skema pembobotan tfidf (Term Frequency / Invers Document Frequency) karena komponen

heuristic utama adalah klasifikasi rocchio yaitu skema pembobtan tfidf, metode pembelajaran
rocchio disebut juga dengan tfidf Classifiers [FAT-13].
Didalam membandngkan kesamaan isi antara data training dan data test, tfidf classifiers
menggunakan prototype vector untuk merepresentasikan kategori yang terbentuk dari data

training, dengan kata lain prototype vector merupakan vector yang mewakili seluruh vector data
training dalam setiap kategori. Tiga hal utama yang dapat dipakai pada klasifikasi tfidf adalah
menggunakan skema pembobotan tfidf yang berguna untuk merepresentsikan dokumen ke dalam
sebuah vector, merepresentasikan prototype setiap kategori dengan menjumlahkan vector –
vector dalam satu kategori dari data training, membandingkan kedekatan sudut antara vector data
test dengan semua prototype vector [FAT-13].
Teknik ini menggunakan Vector Space Model untuk merepresentasikan setiap dokumen
dalam korpus. Algoritma rocchio diasumsikan bahwa sebagian pengguna memiliki konsep
umum pada dokumen yang relevan dan non-relevan sebagai saranan meningkatkan pencarian
yang singkat dan presisi.
Langkah-langkah pengolahan query [FAT-13]:
a. Text Mining dan Klasifikasi Teks : mencari dan mengelompokkan dokumen ke dalam
kategori tertentu
b. Parsering : memilah isi dokumen menjadi unit-unit kecil (token), yang berupa kata, frase,
atau kalimat.
c. Stemming : proses penghilangan prefiks (awalan) dan sufiks (akhiran)
d. Inverted Index : struktur yang dioptimasi untuk menemukan kembali dokumen
Dalam menggunakan vector space model diperlukan batas-batas antar kelas untuk
mengetahui klasifikasi yang sesuai. Teknik Rocchio menggunakan centroid untuk batas-batas
tersebut.

⃗⃗⃗

|

|



Dimana Dc adalah himpunan dokumen di dalam korpus pada kelas c. sedangkan merupakan

vektor dokumen yang telah dinormalisasi.Untuk menentukan kemiripan dua vektor space model
ada dua cara yaitu dengan mengukur jarak atau dengan mengukur kemiripan.Dalam menentukan
jarak (distance) antara dua vektor space model digunakan jarak euclidean.

Dan dengan menghitung kemiripan (similarity) antara dua vektor dokumen adalah
sebagai berikut:

Jika terdapat suatu kueri diproses menjadi sebuah vektor space, maka dapat dibandingkan
dengan masing-masing centroid kelas yang ada pada korpus. Dengan dua pendekatan mencari
kemiripan dua vektor space., vektor kueri dianggap mirip dengan sebuah centorid kelas dapaat

dilakukan dengan menggunakan jarak (distance) atau menggunakan kemiripan (similarity). Jika
menggunakan jarak, yang dicari adalah kelas yang memiliki jarak yang terkecil dengan
kueri[YDH-13]. Dan jika menggunakan kemiripan yang dicari adalah kelas yang memiliki
kemiripan yang paling besar dengan kueri, seperti yang ada di bawah[YDH-13]:



Menggunakan jarak

Menggunakan kemiripan

|

|

BAB III
PEMBAHASAN

3.1 Klasifikasi Dokumen dengan Naïve Bayes dan Rocchio
Klasifikasi dokumen dengan menggunakan metode Naïve Bayes dan Rocchio ini
menggunakan 15 data training dan 5 data uji. Hasil klasifikasi dari data tersebut akan
digolongkan kedalam 3 kategori kelas, yaitu class 1, class 2 dan class 3. Berikut merupakan
dokumen yang digunkanan sebagai data latih.
Tabel 3.1 Dokumen data latih
Dokumen
Ke 1
2

3
4
5
6
7

8
9
10
11
12
13
14
15

Isi Dokumen
pawang hujan ada orang yang punya ahli dalam unda
mau indah hujan
tugas pawing hujan guna cara tafisik sehingga praktek
yang laku enuh sanan warga lihat unik sulit terjemah
dengan akal sehat
bukti unda indah hujan daerah lain sangat mujarab
pawang hujan biasa dapat minta warga inta bantu agar
hinder hujan saat acara hajat sepert nikah sunat perlu
enuh minta klain banyak cara laku
itu sebaga upaya unda indah hujan daerah sehingga
wilayah daerah hajat tidak guyur hujan
salah satu syarat gunaka sawi guna paku sebanyak
empat buah kertas tulis lafal al quran lafal bahasa arab
benang jahit panjang sudah tentu
empat paku sebut harus baru belum pernah paka satu
satu paku bungkus kertas sudah tulis tulis arab
agar lihat rapi ikat dengan benang jahit telah siap
sebelum
semua bagi ritual laku sang pawing hujan
ritual indah unda hujan mula empat bungkus paku
tancap bumi empat arah juru angin
ritual laku yakni bakar menyan sebuah kulit lapa besar
minta restu pada benda tuah upa keris panjang
bagai macam bunga sebaga harum tidak tinggal siap
tika ancap paku paku sebut sang pawing baca doa
khusus yakin
ritual sebut rupa babak tama

Kelas
1
1

1
1
1
1
2

2
2
2
2
3
3
3
3

Tabel 3.2 Dokumen Uji
Dokumen

Kelas

Isi Dokumen

Ke-

Naïve Bayes

Rocchio

1

3

3

-

jadi hujan gejala alam bentuk siklus putar
air bumi sederhana tahap jadi hujan
gambar pindah air samudera laut sunga
danau air atmosfer uju darat indonesia 2
musim musim marau musim hujan karena
indonesia letak dekat garis khatulistiwa
iklim tropis suhu jadi uap curah hujan
tinggi.huj buat inovasi baru guna jatuh
1

hujan cepat hujan buat bentuk butuh awan
awan kadar air cepat angin lambat butuh
butuh hujan buat buat sema awan bahan
sifat higroskopik tumbuh butir butir hujan
awan ingkat selanjut percepat jadi hujan
awan cumulus awan bagus dia hujan buat
lokasi ilih awan awan kriteria langkah
selanjut semai butuh dia sawat fungsi
angkut bubuk bubuk siap sebar awan awan
bantu angin awan awan gerak gera angin
awan satu bentuk awan gerak langit suhu
rendah butir air kumpul warna awan
labu.akibat titik air butir butir jatuh bumi

2

hujan.perbeda

awan

dingin

awan

hangat.menurut

suhu

lingkung

fisik

atmosfer mana awan awan beda awan
dingin cold cloud awan hangat warm cloud
sebut awan dingin apabila bagi lingkung
atmosfer suhu 0 derajat celcius awan
banyak daerah lintang engah mana suhu

udara muka tanah suhu minus 0 derajat
indonesia suhu udara muka tanah 20 300
derajat celcius dasar awan suhu 180 derajat
celcius meski puncak awan embus lewat
titik beku awan awan hangat sisa awan
dingin awan semacam sebut mixed cloud
jadi hujan awan hangat uap air angkat
atmosfer fungsi inti kondensasi uap air
evaporasi embun inti kondensasi garam
asal air laut sifat higroskopik semenjak
mula kondensasi partikel ubah droplets
titik air droplets kumpul bentuk awan
partikel air eliling debu kristal garam ebal
3

udara jatuh awan hujanproses jadi hujan
awan nginproses mula kristal es tambah air

1

2

3

3

super dingin supercooled water deposit uap
air ada kristal es egang anan hujan awan
dingin sebut kristal es.pada udara naik
atmosfer bentuk titik titik air awan tinggi
tentu sumbu titik beku awan ubah kristal
kristal es udara sekeliling dingin membe
kristal tadi kristal tambah jaid butir salju
jadi hujan panas matahar air sunga danau
laut uap udara air fisik air uap udara asal
tubuh manusia hewan tumbuh tumbuh
benda benda andung air uap air naik satu
4

udara uap uap air lainnya.suhu udara panas
matahar uap air kondensasi adat embun
embun bentuk titik titik air suhu titik titik
embun kumpul adat bentuk awan kaji
neilburger 1995 tahap tetes tetes air ukur

jari jari 5 20 mm ukur tetes air jatuh cepat
0,01 5 cm detik cepat alir udara tetes air
jatuh bumi supaya tetes air jatuh bumi
butuh ukur 1 mm ukur itu tetes air alah
gera udara
salju turun lewat udara hangat salju cair
hujan musim dingin salju jatuh cair fakta
hujan:apabila suhu atmosfer dingin titik air
membe ubah es itu apa suhu rendah hujan
salju indonesia iklim tropis hujan salju sulit
jadi.air hujan asal uap air laut 97 meski air
5

laut air asin hujan air tawar akibat hukum
fisika mana air uap awan kandung hilang

3

2

ketahu garam mineral beda air air ubah
titik titik kandung garam mineral luruh
sendir kondensasi awan kumpul titik titik
air bantu udara gerak dingin adiabatic
lembap nisbi rh nya tambah kondensasi
mula inti kondensasi aktif apabila rh 78

3.2

Hasil Screenshoot program
Hasil klasifikasi dokumen didapatkan dengan mengambil nilai terbesar dari setiap
kemiripan dokumen yang diuji dengan class yang ada.

Dokumen Uji 1

Dokumen Uji 2

Dokumen Uji 3

Dokumen Uji 4

Dokumen Uji 5

DAFTAR PUSTAKA
[DUM-08]

Dumais,Susan, Platt,John, dan Hackerman,David. 2008. “inductive Learning
Algorithm and Representation for text category”.

[FAT-13]

Fatmawati, Triyah. 2013. Rocchio Clasification. Surabaya. Universitas Airlangga

[MIT-97]

Mitchell, Tom M. 1997. “Machine Learning”. T.M.Mitchell, McGraw Hill.

[YDH]

Yugianus, Pausta, Dachlan, Harry Soekotjo, dan Hasanah, Rini Nur. 2013.
Pengembangan Sistem Penelusuran Katalog Perpustakaan Dengan Metode
Rocchio Relevance Feedback. Malang. Jurnal EECCIS Vol. 7, No. 1, Juni 2013

Dokumen yang terkait

ANALISA DAN SIMULASI PERBANDINGAN ALGORITMA WESTWOOD DAN ALGORITMA SELECTIVE ACKNOWLEDGMENT OPTION PADA SISTEM KENDALI KONGESTI JARINGAN TCP

4 92 39

KAJIAN APLIKASI PUPUK KASCING PADA TIGA JENIS TANAMAN SELADA (Lactuca sativa L.) DENGAN PERBANDINGAN MEDIA YANG BERBEDA

3 58 19

PERBANDINGAN BUDIDAYA "AIR LIUR" SARANG BURUNG WALET ANTARA TEKNIK MODERN DAN TEKNIK KONVENSIONAL (Studi Pada Sarang Burung Burung Walet di Daerah Sidayu Kabupaten Gresik)

6 108 9

PERBANDINGAN HASIL BELAJAR SISWA MENGGUNAKAN MODEL PEMBELAJARAN KOOPERATIF TIPE TAKE AND GIVE DENGAN MODEL PEMBELAJARAN THINK PAIR SHARE PADA MATA PELAJARAN GEOGRAFI KELAS XI-IIS DI SMA NEGERI 7 BANDA ACEH

0 47 1

PERBANDINGAN HASIL BELAJAR FISIKA ANTARA PEMBELAJARAN YANG MENGGUNAKAN LEARNING CYCLE 5E DENGAN PROBLEM BASED LEARNING

0 21 58

STUDI PERBANDINGAN HASIL BELAJAR DAN KETERAMPILAN PROSES SAINS DITINJAU DARI PENGGUNAAN MODEL PEMBELAJARAN BERBASIS TEKNOLOGI INFORMASI DAN KOMUNIKASI

6 77 70

PERBANDINGAN HASIL BELAJAR FISIKA SISWA ANTARA MODEL PEMBELAJARAN KOOPERATIF TIPE THINK PAIR SHARE (TPS) DENGAN MODEL PEMBELAJARAN PROBLEM BASED LEARNING (PBL)

11 75 34

PERBANDINGAN HASIL BELAJAR FISIKA SISWA ANTARA MODEL PEMBELAJARAN PROBLEM BASED LEARNING(PBL) DAN MODEL PEMBELAJARAN KOOPERATIF TIPE GROUP INVESTIGATION (GI)

6 62 67

KAJIAN PERBANDINGAN METODE DAN TEKNOLOGI KONSTRUKSI PADA PEMBANGUNAN PLATFORM TANKI TIMBUN DI DERMAGA NILAM TANJUNG PERAK DENGAN SISTEM DECK ON PILEDAN REKLAMASI

5 53 36

PERBANDINGAN HASIL BELAJAR IPS TERPADU ANTARA PENGGUNAAN MEDIA PEMBELAJARAN AUDIO-VISUAL DENGAN MEDIA PEMBELAJARAN GRAFIS KELAS VII SMP NEGERI 3 TERBANGGI BESAR LAMPUNG TENGAH TAHUN PELAJARAN 2014/2015

3 51 68