APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP MENGGUNAKAN NAÏVE BAYES.

KATA PENGANTAR
Syukur Alhamdulillah, puji dan syukur kami panjatkan kehadirat Allah
SWT, karena dengan limpah dan rahmat dan karunia-nya penulis dapat
menyelesaikan penyusunan laporan tugas akhir “APLIKASI KLASIFIKASI
ARTIKEL

TEKNOLOGI

INFORMASI

PADA

MAJALAH

CHIP

MENGGUNAKAN NAÏVE BAYES”.
Maksud dan tujuan penyusunan laporan tugas akhir adalah untuk
memenuhi salah satu syarat dalam perkuliahan guna pembelajran mahasiswa di
dunia kerja yang akan di implementasikan sepenuhnya berdasarkan dengan
keahlian mahasiswa tersebut. Dan untuk mencapai gelar sarjana pada Fakultas

Teknologi Industri, Jurusan Sistem Informasi Pembangunan Nasional “Veteran”
Jawa Timur.
Dengan keterbatasan ilmu dan pengalaman, penulis dengan rendah hati
menyadari sepenuhnya, bahwa penyusunan laporan ini masih jauh dari sempurna,
oleh karena itu penulis bersedia dan ikhlas lahir bathin untuk menerima segala
saran dan kritik dari berbagai pihak demi perbaikan laporan ini.
Akhir kata, semoga laporan ini dapat memberikan manfaat bagi diri
pribadi, almamater dan pembaca. Amin.

Surabaya, 31 Mei 2012

Penyusun

ii
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

DAFTAR ISI

ABSTRAKSI ...........................................................................................


i

KATA PENGANTAR .............................................................................

ii

DAFTAR ISI ...........................................................................................

iii

DAFTAR TABEL ...................................................................................

vi

DAFTAR GAMBAR ..............................................................................

vii

BAB I PENDAHULUAN

1.1

Latar Belakang ................................................................

1

1.2

Rumusan Masalah ...........................................................

1

1.3

Batasan Masalah ..............................................................

2

1.4


Tujuan ..............................................................................

2

1.5

Manfaat ............................................................................

3

1.6

Sistematika Penulisan ......................................................

3

BAB II TINJAUAN PUSTAKA
2.1

Pembelajaran Mesin…………............................................


5

2.1.1 Komponen Sistem Cerdas ....................................

7

2.1.2 Rekayasa Pengetahuan ..........................................

10

2.2.

Proses Pengklasifikasian ................................................... 11

2.3.

Metode Klasifikasi Teks .................................................... 11

2.4


Representasi Dokumen ..................................................... 12

2.5

Mprfologi Bahasa Indonesia ............................................. 12

2.6

Pembobotan Kata ………….............................................. 14

2.7

Training Set Dan Testing Set ............................................. 16
iii

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

2.8


Metode Naïve Bayes ………............................................. 16

2.9

Karakteristik Naïve Bayes Classifier ................................ 19

2.10

Tahapan Pra Proses ............................................................. 22

2.11

Text Mining ........................................................................ 25

2.12

Diagram Proses Klasifikasi ................................................ 27

2.13


Delphi ................................................................................. 28

2.14

Majalah Chips …................................................................. 38

BAB III ANALISIS DAN PERANCANGAN
3.1

Desain Penelitian ............................................................... 41

3.2

Bahan Penelitian ................................................................ 42

3.3

Structured Chart Sistem Klasifikasi Artikel ...................... 43


3.4

Diagram Work Flow .......................................................... 44

3.5

Diagram Alir Sistem .......................................................... 45

3.6

Perancangan Antar Muka .................................................. 46

BAB IV HASIL DAN PEMBAHASAN
4.1

Perangkat Keras Yang Dipergunakan ............................... 49

4.2

Perangkat Lunak Yang Dipergunakan .............................. 49


4.3

Implementasi Prosedur Proses Klasifikasi ........................

50

4.4

Implementasi Prosedur Proses Parsing ..............................

51

4.5

Implementasi Prosedur Proses Filtering ............................ 52

4.6

Implementasi Prosedur Proses Stemming .......................... 53


4.7

Implementasi Prosedur Bayes Classifier ............................ 54

4.8

Data Pelatihan ..................................................................... 57

4.9

Data Pengujian ................................................................... 60
iv

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

4.9

Hasil Pengujian .................................................................. 62

BAB V PENUTUP
5.1

Kesimpulan .......................................................................

5.2

Saran .................................................................................. 65

DAFTAR PUSTAKA ..............................................................................

v
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

65

66

DAFTAR TABEL

Tabel 2.1

Contoh Frekuensi Kata dalam Suatu Dokumen ...............

14

Tabel 2.2

Bobot Kata Dalam Vektor Dokumen ................................

15

Tabel 2.3

Bobot Kata Setelah Proses Normalisasi ............................

16

Tabel 2.4

Data Training ....................................................................

17

Tabel 4.1

Spesifikasi Perangkat Komputer ......................................

49

Tabel 4.2

Spesifikasi Perangkat Lunak .............................................

49

Tabel 4.3

Hasil Pengujian Probabilistic Model ................................

59

Tabel 4.4

Hasil Perhitungan Bayes Pada File Uji_1.txt ...................

63

Tabel 4.5

Hasil Perhitungan Bayes Pada File Uji_2.txt ...................

64

vi
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

DAFTAR GAMBAR

Gambar 2.1

Skema Sistem Pakar .........................................................

7

Gambar 2.2

Proses Rekayasa Pengetahuan .........................................

10

Gambar 2.3

Tahapan Pra Proses .........................................................

24

Gambar 2.4

Tahapan Umum Text Mining ..........................................

12

Gambar 2.5

Contoh Tokenisasi ...........................................................

26

Gambar 2.6

Contoh Filtering ..............................................................

26

Gambar 2.7

Contoh Stemmisasi .........................................................

27

Gambar 2.8

Diagram Proses Klasifikasi .............................................

27

Gambar 3.1

Skema Desain Penelitian .................................................

41

Gambar 3.2

Structured Chart Klasifikasi Artikel ...............................

43

Gambar 3.3

Diagram Workflow Sistem Klasifikasi Artikel ................

44

Gambar 3.4

Diagram Alir Sistem .......................................................

45

Gambar 3.5

Rancangan Form Utama ..................................................

46

Gambar 3.6

Rancangan Form Training ..............................................

47

Gambar 3.7

Rancangan Form Stemming ............................................

48

Gambar 3.8

Rancangan Form Stoplist .................................................

48

Gambar 4.1

Hasil Pengujian artikel uji_1.txt .......................................

63

Gambar 4.2

Hasil Pengujian Dengan Menggunakan Artikel uji_2.txt..

64

vii
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

Judul

: APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI
PADA MAJALAH CHIP MENGGUNAKAN NAÏVE BAYES

Dosen 1
Dosen 2
Penulis

: Nur Cahyo Wibowo, S.Kom, M.Kom
: Doddy Ridwandono, S.Kom
: Rigtianto Setiawan

____________________________________________________________________

Abstrak

Pengklasifikasian teks sangat dibutuhkan dalam berbagai macam aplikasi, terutama
aplikasi yang jumlah dokumennya bertambah dengan cepat seiring dengan
bertambahnya waktu. Contohnya adalah aplikasi spam email, indek otomatis pada
artikel ilmiah, dan lain sebagainya.Ada dua varian utama dalam penggolongan teks,
yaitu clustering text dan klasifikasi teks
Permasalahan yang dihadapi adalah bagaimana membuat aplikasi rekomendasi
pengklasifikasian suatu artikel teks pada CHIP menggunakan algoritma Naïve Bayes
dan seberapa akuratkah proses klasifikasi dalam mengklasifikasikan artikel teks
majalah CHIP menggunakan algoritma Naïve Bayes.
Pembuatan aplikasi ini dikembangkan menggunakan bahasa pemrograman Delphi
dan diintegrasikan dengan database Microsoft Access. Aplikasi yang dihasilkan dapat
mengklasifikasikan artikel teks pada majalah komputer Chip dengan baik.

Kata kunci: Klasifikasi Teks, Naïve Bayes, Majalah Chip.

i
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

BAB I
PENDAHULUAN

1.1.

Latar Belakang
Pengklasifikasian teks sangat dibutuhkan dalam berbagai macam

aplikasi, terutama aplikasi yang jumlah dokumennya bertambah dengan cepat
seiring dengan bertambahnya waktu. Contohnya adalah aplikasi spam email,
indek otomatis pada artikel ilmiah, dan lain sebagainya.Ada dua varian utama
dalam penggolongan teks, yaitu clustering text dan klasifikasi teks. Clustering
teks berhubungan dengan menemukan sebuah struktur kelompok yang belum
kelihatan (tak terpandu atau unsupervised) dari sekumpulan dokumen. Sedangkan
pengklasifikasian teks dapat dianggap sebagai proses untuk membentuk golongangolongan (kelas-kelas) dari dokumen berdasarkan pada kelas kelompok yang
sudah diketahui sebelumnya (terpandu atau supervised). Naive Bayes merupakan
salah satu metode yang digunakan dalam pengklasifikasian teks. Metode lainnya
adalah k-Nearest Neighbor, Support Vector, Rochio Classifier dan lain-lain.
1.2.

Perumusan Masalah
Rumusan masalah yang digunakan dalam tugas akhir ini adalah :

a) Bagaimana membuat aplikasi rekomendasi pengklasifikasian suatu artikel
teks pada majalah CHIP menggunakan algoritma naive bayes
b) Seberapa akuratkah proses klasifikasi dalam mengklasifikasikan artikel
teks majalah Chip dengan menggunakan algoritma naive bayes ?

1
Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

2

1.3.

Batasan Masalah

Dalam pembuatan aplikasi teks untuk tugas akhir ini, menggunakan batasan
masalah sebagai berikut :
a) Artikel teks yang dipergunakan tidak lebih dari 150 kata
b) Artikel teks yang dimaksud berupa file dengan ekstensi *.txt
c) Artikel yang dipergunakan sebagai pengujian diambil dari majalah komputer
Chips
d) Pengklasifikasian artikel berdasarkan kategori yang telah ada di majalah Chips
dan ditambah satu yaitu tidak terkategori.
e) Kategori setiap artikel yang akan diklasifikasikan telah ditentukan sebelumnya
secara manual, hal ini diperlukan untuk pembuatan data pelatihan dan untuk
proses klasifikasi. Pengklasifikasian secara manual ini dapat dilakukan oleh
peneliti. Nantinya, sistem akan mengecek hasil klasifikasi secara manual dengan
hasil klasifikasi secara otomatis menggunakan sistem untuk mendapatkan angka
akurasi pengklasifikasian

1.4.

Tujuan

Tujuan yang ingin dicapai pada pengerjaan tugas akhir ini adalah:
a) Dapat membuat aplikasi rekomendasi pengklasifikasian artikel teks pada
majalah komputer chips.
b) Dapat menggunakan algoritma Naive Bayes untuk klasifikasi teks.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

3

1.5.

Manfaat
Adapun manfaat dan tujuan yang ingin diperoleh dari pengerjaan tugas

akhir ini adalah :
a) Mendapat kemampuan pemahaman dan analisa tentang algoritma naive bayes.
b) Dapat mengimplementasikan algorithma naive bayes untuk membuat aplikasi
klasifikasi data dokumen teks.

1.6.

Sistematika Penulisan
Sistematika penulisan tugas akhir ini disusun untuk memberikan gambaran

umum tentang penelitian yang dijalankan. Sistematika penulisan tugas akhir ini
adalah sebagai berikut :

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

4

BAB I

PENDAHULUAN
Bab ini berisi latar belakang masalah, identifikasi masalah, maksud
dan tujuan yang ingin dicapai, batasan masalah, metodologi
penelitian yang diterapkan dalam memperoleh dan mengumpulkan
data, waktu dan tempat penelitian, serta sistematika penulisan.

BAB II

TINJ AUAN PUSTAKA
Membahas berbagai konsep dasar dan teori-teori yang berkaitan
dengan topik masalah yang diambil dan hal-hal yang berguna
dalam proses analisis permasalahan.

BAB III

ANALISIS DAN PERANCANGAN
Menganalisis masalah dari model penelitian untuk memperlihatkan
keterkaitan antar variabel yang diteliti serta model matematis untuk
analisisnya.

BAB IV

HASIL DAN PEMBAHASAN
Membahas mengenai pengimplementasian aplikasi yang telah
dibuat ke perangkat yang akan digunakan serta melakukan
pengujian terhadap aplikasi yang telah diimplementasikan tersebut.

BAB V

PENUTUP
Berisi kesimpulan dan saran yang sudah diperoleh dari hasil
penulisan tugas akhir dan daftar pustaka.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

BAB II
TINJ AUAN PUSTAKA

2.1.

Pembelajaran Mesin
Pada masa-masa awal berkembangnya teknologi komputer, sudah terdapat

visi agar di masa mendatang komputer dapat “belajar dan menjadi cerdas”. Hal ini
ditandai dengan lahirnya sistem pakar sekitar tahun 70’an.
Sistem pakar merupakan sistem yang berbasis pengetahuan, yaitu sistem
yang meniru penalaran dari seorang pakar dalam bidang tertentu untuk
memecahkan suatu masalah atau untuk memberikan saran. Sistem ini
menggunakan pengetahuan manusia untuk menyelesaikan masalah yang
memerlukan kepakaran seorang ahli. Jadi sistem pakar berbeda dengan sistem
lainnya yang hanya bisa menyimpan data, sistem pakar harus mempunyai
kemampuan penalaran untuk mencari jawaban permasalahan yang diajukan.
Ada berbagai ciri dan karakteristik yang membedakan sistem pakar
dengan sistem yang lain. Ciri dan karakteristik ini menjadi pedoman utama dalam
pengembangan sistem pakar. Ciri dan karakteristik yang dimaksud adalah sebagai
berikut:
1. Pengetahuan sistem pakar merupakan suatu konsep, bukan berbentuk numerik.
Hal ini dikarenakan komputer melakukan proses pengolahan data secara
numerik sedangkan keahlian dari seorang pakar adalah fakta dan aturanaturan, bukan numerik.
2. Informasi dalam sistem pakar tidak selalu lengkap, subjektif, tidak konsisten,
subjek terus berubah dan tergantung pada kondisi lingkungan sehingga
5

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

6

keputusan yang diambil bersifat tidak pasti dan tidak mutlak "ya" atau "tidak"
akan tetapi menurut ukuran kebenaran tertentu. Oleh karena itu dibutuhkan
kemampuan sistem untuk belajar secara mandiri dalam menyelesaikan
masalah-masalah dengan pertimbangan-pertimbangan khusus.
3. Kemungkinan solusi sistem pakar terhadap suatu permasalahan adalah
bervariasi dan mempunyai banyak pilihan jawaban yang dapat diterima,
semua faktor yang ditelusuri memiliki ruang masalah yang luas dan tidak
pasti. Oleh karena itu diperlukan fleksibilitas sistem dalam menangani
kemungkinan solusi dari berbagai permasalahan.
4. Perubahan atau pengembangan pengetahuan dalam sistem pakar dapat terjadi
setiap saat bahkan sepanjang waktu sehingga diperlukan kemudahan dalam
modifikasi sistem untuk menampung jumlah pengetahuan yang semakin besar
dan semakin bervariasi.
5. Pandangan dan pendapat setiap pakar tidaklah selalu sama, yang oleh karena
itu tidak ada jaminan bahwa solusi sistem pakar merupakan jawaban yang
pasti benar. Setiap pakar akan memberikan pertimbangan-pertimbangan
berdasarkan faktor subjektif.
6. Keputusan merupakan bagian terpenting dari sistem pakar. Sistem pakar harus
memberikan solusi yang akurat berdasarkan masukan pengetahuan meskipun
solusinya sulit sehingga fasilitas informasi sistem selalu diperlukan.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

7

Gambar 2.1 Skema Sistem Pakar
Inti dari pengembangan sistem pakar adalah agar orang awam sekalipun dapat
menggunakan pengetahuan seorang pakar untuk menyelesaikan masalah.
Pengembangan sistem pakar terdiri dari beberapa tahap yang terus berulang. Ini
terjadi karena adanya perubahan atau tambahan pengetahuan baru. Ketika sebuah
pengetahuan baru ditambahkan ke basis pengetahuan sistem pakar, sistem
mengujinya untuk mengevaluasi apakah sistem mengerti atau tidak pengetahuan
baru tersebut, sehingga sistem dapat belajar secara mandiri untuk menyelesaikan
masalah.
2.1.1. Komponen Sistem Cer das
Secara umum, sistem pakar terdiri dari beberapa komponen yang saling berhubungan,
yaitu :
1. Basis Pengetahuan
Basis data dalam sistem pakar disebut basis pengetahuan. Basis pengetahuan
berisi

pengetahuan

yang

dibutuhkan

untuk memahami,

merumuskan,

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

dan

8

memecahkan masalah. Basis pengetahuan menggunakan aturan-aturan untuk
mengekspresikan logika masalah yang pemecahannya dibantu oleh sistem pakar.
Basis pengetahuan terdiri dari dua elemen, yaitu:
Fakta: situasi, kondisi, dan kenyataan dari permasalahan yang ada, berisi
juga teori dari bidang permasalahan tersebut
Aturan: mengarahkan pengguna pengetahuan untuk memecahkan masalah
dari bidang tersebut

2. Mesin Inferensi
Mesin Inferensi merupakan otak dari sistem pakar. Dikenal juga sebagai
penerjemah aturan (rule interpreter). Komponen ini berupa program komputer
yang menyediakan suatu metodologi untuk memikirkan (reasoning) dan
memformulasi kesimpulan. Mesin inferensi menggunalan penalaran yang serupa
dengan manusia dalam mengolah isi dari basis pengetahuan. Mesin inferensi
terdiri dari tiga bagian, yaitu:
a. Interpreter: digunakan untuk menerjemahkan aturan ke dalam bahasa
mesin agar dapat menjalankan program
b. Scheduler: digunakan untuk pencarian dan penalaran pada basis
pengetahuan dalam penyelesaian masalah
c. Consistency Enforcer: untuk menampilkan solusi permasalahan
Kerja mesin inferensi meliputi:
a. Menentukan aturan mana yang akan dipakai
b. Menyajikan pertanyaan kepada pengguna ketika diperlukan
c. Menambahkan jawaban ke dalam memori sistem pakar
d. Menyimpulkan fakta baru dari sebuah aturan
e. Menambahkan fakta baru tersebut ke dalam memori

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

9

3. Papan Tulis (Workplace)
Papan Tulis (Workplace) merupakan memori atau lokasi penyimpanan
untuk sistem pakar bekerja dan menyimpan hasil sementara, yang berupa basis
data. Memori ini berisi semua informasi tentang masalah tertentu, baik yang di
input oleh pengguna atau yang berada dalam basis pengetahuan.
4. Antarmuka Pengguna
Interaksi antara sistem pakar dan pengguna berupa bahasa alami, biasanya
dalam bentuk tanya jawab atau ditampilkan dalam bentuk gambar. Sistem pakar
menyediakan antarmuka agar pengguna dapat berinteraksi dengan sistem pakar.
Antarmuka pengguna memegang peranan penting dalam sistem pakar, untuk
memperoleh informasi yang akurat dari pengguna, perekayasa pengetahuan
diharapkan membuat desain antarmuka pertanyaan yang baik.
5. Fasilitas Penjelasan
Fasilitas ini merupakan fasilitas tambahan yang menyediakan penjelasan
kepada pengguna tentang mengapa sistem pakar mempertanyakan sebuah
pertanyaan tertentu kepada pengguna dan bagaimana sistem pakar membuat suatu
keputusan. Fasilitas penjelasan memberikan keuntungan kepada kedua belah
pihak, perekayasa pengetahuan dapat memeperbaiki kekurangan dari basis
pengetahuan dan pengguna mendapatkan penjelasan tentang bagaimana pemikiran
sistem pakar tersebut.
6. Knowledge Refining System
Seorang pakar mempunyai knowledge refining system artinya mereka
dapat menganalisis sendiri performa mereka, belajar dari pengalaman, serta
meningkatkan pengetahuannya untuk konsultasi berikutnya. Pada sistem pakar,

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

10

evaluasi ini penting sehingga dapat menganalisis alasan keberhasilan atau
kegagalan pengambilan keputusan, serta memperbaiki basis pengetahuan.
2.1.2. Rekayasa Pengetahuan
Rekayasa pengetahuan adalah proses membangun suatu sistem pakar. Tidak
seperti mengembangkan sistem biasa, pengembangan sistem pakar adalah proses
yang senantiasa berulang. Perekayasa pengetahuan membangun sistem pakar,
mengujinya, lalu merekayasa pengetahuan sistem. Proses seperti itu terus berulang.
Proses dalam rekayasa pengetahuan meliputi:
Akuisisi pengetahuan, yaitu bagaimana memperoleh pengetahuan dari pakar (dokter,
buku, jurnal atau sumber ilmiah lain)
Validasi pengetahuan, untuk menjaga kualitasnya misalnya dengan uji kasus
Representasi pengetahuan, yaitu bagaimana mengorganisir pengetahuan yang
diperoleh, mengkodekan, dan menyimpannya dalam suatu basis pengetahuan
Penyimpulan pengetahuan, menggunakan mesin inferensi yang mengakses basis
pengetahuan lalu melakukan penyimpulan
Transfer pengetahuan. Hasil inferensi berupa kesimpulan kemudian dijelaskan kepada
pengguna oleh fasilitas penjelasan

Gambar 2.2. Proses Rekayasa Pengetahuan

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

11

2.2.

Pr oses Pengk lasifikasian
Classification adalah proses untuk menemukan model atau kelas data,

dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya
tidak diketahui. Model itu sendiri bisa berupa aturan jika-maka berbentuk pohon
pengambilan keputusan (Decision Tree), formula matematis seperti Bayesian dan
Support Vector Machine atau bisa juga berupa jaringan seperti neural network.
Ada lima ukuran yang dapat digunakan untuk mengevaluasi setiap metode:
1. Predictive accuracy yang mengukur tingkat akurasi dalam mengklasifikasikan
data baru. Ukuran ini paling sering digunakan sebagai pembanding.
2. Kecepatan. Biaya komputasi untuk menghasilkan classifier dan saat
menggunakan classifier pada proses klasifikasi.
3. Robustness. Kemampuan menangani noise dan nilai hilang.
4. Scalability. Kemampuan menangani data dalam jumlah besar.
5. Interpretability. Mengukur sejauh mana model dapat diinterpretasi.
Pada skripsi kali ini, hanya predictive accuracy yang akan digunakan untuk
pengklasifikasian artikel teks berdasarkan isinya.
2.3.

Metode Klasifikasi Teks

Metode yang dapat digunakan untuk pengklasifikasian teks terpandu banyak
macamnya, antara lain adalah Na¨ıve Bayes, k-nearest neighbor, Support Vector
Machines (SVM), boosting, algoritma pembelajaran aturan (rule learning
algorithms) dan Maximum Entropy (MaxEnt). Dalam laporan ini metode yang
akan digunakan adalah naive bayes.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

12

2.4.

Representasi Dokumen

Dalam pengklasifikasian teks, dokumen direpresentasikan sebagai vektor
(W1,W2,W3, ..., Wn). Jenis representasi vektor dapat dibagi menjadi :
Binary, nilai w=1 apabila kata ditemukan dalam dokumen, jika tidak maka W = 0,
Misalnya :
V1 =

contoh vektor binary dua nilai
0

0

1

0

1

Term Frequency (TF), nilai w= tf, frekuensi kehadiran kata dalam
dokumen, misalnya :
V1 =

contoh vektor binary dua nilai
5

10

3

9

15

TfId (Inverse Document), nilai W = Tf*Id
V1 =

contoh vektor binary dua nilai
0,365

2.5.

0,261

0,946 0,128 0,299

Mor fologi Bahasa Indonesia

Sebuah kata memiliki morfologi yang dapat membuat kata tersebut berperan
sebagai kata benda, kata keterangan atau kata kerja (COVNd). Kata-kata dibawah
ini berasal dari kata dasar yang sama :
ajar

belajar

pelajaran

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

13

agar lebih memudahkan pengklasifikasian kata digunakan metode stemming yang
dibuat oleh Nazief dan Adriani yang berbasiskan pada morfologi bahasa Indonesia
dengan definisi sebagai berikut :
kata = stem | kata berimbuhan infleksional | kata berimbuhan derivasional | tidak
dikenal kata berimbuhan infleksional = stem Sinf | kata berimbuhan derivasional
| tidak dikenal
kata berimbuhan derivasional = stem-Sdr | Pder-stem | Pder- kata berimbuhan
derivasional | tidak dikenal
dimana :
Sder = Suffix atau akhiran derivasional
Sinf = Suffix atau akhiran infleksional
Pder = Prefix atau awalan derivasional
Setiap Sder, Sinf, Pder memiliki aturan sendiri. Metode ini menggunakan kamus
untuk menentukan hasil stem. Kata yang hendak di-stem awalnya dicari dalam
kamus, apabila tidak ditemukan maka selanjutnya kata tersebut diduga memiliki
imbuhan infleksional. Untuk mendapatkan imbuhan infleksional digunakan
struktur morfologi kedua. Dalam prosesnya struktur morfologi ketiga akan
digunakan karena kata ini diduga terdiri dari imbuhan derivasional dan Sinf.
Apabila kata dasar masih juga belum ditemukan maka kata ini selanjutnya diduga
memiliki imbuhan derivasional. Untuk mencari kata dasar dari kata dengan
imbuhan derivasional digunakan struktur aturan morfologi ketiga. Apabila kata
dasar belum juga ditemukan, maka kata yang hendak di-stem yang akan
dikembalikan.

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

14

2.6.

Pembobotan Kata

Setiap kata dalam vektor dapat diberikan bobot. Bobot dari sebuah kata
menandakan tingkat kepentingan kata tersebut dalam dokumen. Pemberian bobot
kata dapat dinyatakan dengan nilai tfidf (term frquency inverse document).
Berikut ini adalah formula perhitungan tfidf :

Keterangan


Wij adalah bobot kata i pada dokumen j



N adalah koleksi dokumen



tfif adalah jumlah kehadiran kata i yang akan dihitung bobotnya dalam
dokumen j



dfj adalah dokumen j yang mengandung kata yang akan dihitung
bobotnya



Rumusan Log

disebut juga inverse document

Sebagai contoh :
Berikut ini adalah kata-kata yang ada dalam dokumen beserta frekuensinya :
Tabel 2.1. Contoh Frekuensi Kata dalam Suatu Dokumen

Kata yang hendak dihitung bobotnya adalah hukum. Misalkan jumlah keseluruhan
dokumen adalah 500 dan dari keseluruhan dokumen ada 40 dokumen yang

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

15

mengandung kata hukum, maka bobot kata hukum adalah w(hukum) =
4.Log(500/40)=4.3876
Agar penentuan bobot kata juga memperhitungkan panjang dokumen maka
dilakukan tahapan normalisasi. Proses normalisasi akan membuat setiap vektor
dokumen bernilai (0,1). Normalisasi dilakukan dengan rumusan cosine
normalization seperti dibawah ini :

W kj =

Keterangan :


Wkj adalah bobot kata k di dokumen j setelah mengalami proses
normalisasi



tfidf (tk,dj) adalah nilai tfidf dari kata k pada dokumen j



r adalah jumlah kata dalam dokumen j

Sebagai contoh :
Berikut ini adalah vektor dokumen, dimana kata-katanya telah diberikan bobot
dengan nilai tfidf.
Tabel 2.2. Bobot Kata Dalam Vektor Dokumen

Nilai

pada vektor diatas adalah

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

16

= 9,2169. Sedangkan hasil vektor diatas setelah
mengalami proses normalisasi dengan cara membagi bobot kata pada vektor
dengan 9.2169 ditunjukkan pada tabel dibawah ini:
Tabel 2.3. Bobot Kata Setelah Proses Normalisasi

2.7.

Training Set Dan Testing Set

Trainig set (Tr atau dokumen training) = (d1,d2,d3,...dn) adalah sekumpulan
dokumen yang digunakan oleh clasifier untuk mengobservasi karakteristik dan
kategori. Sedangkan testing set (Te atau dokumen testing) = (dn+1,...ds) adalah
sekumpulan dokumen yang ditujukan untuk menguji efektifitas dari classifier.
Setiap dokumen di Te akan diberikan kepada classifier lalu hasil dari classifier
akan dibandingkan dengan hasil dari seorang ahli. Efektifitas dari pengukuran
classifier didasarkan pada seberapa sering hasil dari classifier sama dengan hasil
dari para ahli.
2.8.

Metode Naive Bayes

The Naive Bayes classifiers juga biasa dikenal dengan algoritma klasifikasi
simple Bayesian. Algoritma ini banyak digunakan karena terbukti efektif untuk
kategorisasi teks, sederhana, cepat dan akurasi tinggi.
Metode ini menghitung probabilitas P(Ci | Dj), yaitu dokumen yang
direpresentasikan oleh vektor yang telah dibahas sebelumnya (bagian 2,
representasi dokumen). Perhitungan probabilitas menggunakan teorema bayes,
yaitu :

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

17

P(Dj) merepresentasikan probabilitas sebuah dokumen yang diambil secara acak
memiliki vektor Dj sebagai representasinya dan P(Ci) adalah probabilitas bahwa
dokumen yang dipilih secara acak akan mempunyai kategori Ci. P(Dj | Ci)
memiliki jumlah kemungkinan vektor dj terlalu banyak. Untuk menghilangkan
kemungkinan tersebut dibuat asumsi bahwa dua koordinat dari vektor dokumen,
apabila dipandang sebagai random variable secara statistik independen satu
dengan lainnya, asumsi ini dituliskan dalam formula sebagai berikut :

Dalam menggunakan naive bayes diperlukan data training. Misalkan
diketahui data training sebagai berikut :
Tabel 2.3. Data Training

Hak Cipta © milik UPN "Veteran" Jatim :
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber.

18

Dari data di atas terdapat 4 atribut yaitu, age, income, student, dan credit_rating.
Class-nya adalah buys_computer yang memiliki 2 values, yaitu yes dan no.
Kemudian ada data X, dimana X = (age = “