KLASIFIKASI KONTEN BERITA MENGGUNAKAN NAIVE.

ISSN : 2302-450X

PROSIDING
PERTEMUAN DAN PRESENTASI KARYA ILMIAH
BALI, 23 OKTOBER 2015

PEMBICARA UTAMA SEMINAR PANEL DENGAN TEMA
“Inovasi Teknologi Informasi dan Komunikasi dalam
Menunjang Technopreneurship”
Ir.Onno Widodo Purbo.M.Eng.Ph.D
Putu Sudiarta, S.Kom

PENYUNTING AHLI
Dr. Ahmad Ashari.M.Kom
Dr. H. Agus Zainal Arifin, S.Kom.,M.Kom
Agus Muliantara, S.Kom., M.Kom.

PELAKSANA SEMINAR

PELINDUNG
Rektor Universitas Udayana, Bali


PENANGGUNG JAWAB
Dekan Fakultas MIPA Universitas Udayana
Ketua Program Studi Teknik Informatika, FMIPA Universitas Udayana

PANITIA
I Gusti Agung Gede Arya Kadyanan,S.Kom.,M.Kom.
I Dewa Made Bayu Atmaja Darmawan,S.Kom.,M.Cs.
I Wayan Supriana,S.Si.,M.Cs.
Ida Bagus Made Mahendra, S.Kom., M.Kom.
I Komang Ari Mogi, S.Kom, M.Kom.
I Made Widi Wirawan, S.Si., M.Cs.
I Putu Gede Hendra Suputra, S.Kom., M.Kom.
Ngurah Agus Sanjaya ER., S.Kom., M.Kom.
Agus Muliantara, S.Kom.,M.Kom.
I Made Widiartha,S.Si., M.Kom.
Made Agung Raharja, S.Si., M.Cs.
I Gusti Ngurah Anom Cahyadi Putra, S.T., M.Cs.
I Gede Santi Astawa, S.T., M.Cs.
Ida Bagus Gede Dwidasmara,S.Kom.,M.Cs.

Dra. Luh Gede Astuti, M.Kom.

Analisis Load Balancing Web Server dengan Web Server Cluster
Menggunakan Linux Virtual Server pada Virtual Mesin
I Putu Hendra Prayoga Dhana ............................................................................

668

Anified Logging Framework For Social Network Menu Analytic At
SINTAKS.COM
Pande Gede Suyoga Adi Gitayana ......................................................................

673

Sistem Pakar untuk Mendiagnosis Penyakit dengan Gejala Batuk pada Anak
Balita dengan Metode Dempster Shafer
Ida Bagus Wira Negara .......................................................................................

676


Pengembangan Plugin untuk MLM dengan Sistem Binary pada Mesin
Wordpress
Christo Edward Werat ........................................................................................

680

Perancangan Sistem Informasi Promosi Kerajinan Tradisional Bali Berbasis
Web
Putu Mega Suryawan ..........................................................................................

687

Perancangan E-commerce pada Usaha Kerajinan Bubut Kayu Jati pada
Gallery Nirmala
I Made Wahyu Wijaya ........................................................................................

694

Perancangan Media Penyimpanan Online Menggunakan Owncloud Berbasis
Client Server dan Dropbox pada Cloud Computing

I Made Ari Widjaja Bukian ................................................................................

699

Sistem Pendukung Keputusan Memilih Perguruan Tinggi Negeri (PTN)
Menggunakan Analytical Hierarchy Process (AHP)
Dewa Putu Rama Prabawa ..................................................................................

705

Klasifikasi Konten Berita Menggunakan Naive Bayes dengan Smoothing
Modified Absolut Discount
I Made Dwi Putra Suarbawa ...............................................................................

711

Static Routing Software Defined Networking pada RYU Controling
Tutde Suputrawan ...............................................................................................

717


Sistem Informasi Promosi Pakaian Adat Bali Berbasis Web
I Nyoman Nila Kusuma Atmaja .........................................................................

725

KLASIFIKASI KONTEN BERITA MENGGUNAKAN NAÏVE
BAYES DENGAN SMOOTHING MODIFIED ABSOLUTE
DISCOUNT
I Made Dwi Putra Suarbawa, I Made Widiartha2

1,2

Jurusan Ilmu Komputer, Fakultas MIPA, Universitas Udayana
Jl. Kampus Bukit Jimbaran Universitas Udayana
Email: suarbawaxyz@gmail.com, madewidiartha@gmail.com2
ABSTRAK

Saat ini, berita menjadi sangat penting dalam memenuhi kebutuhan informasi sehari-hari. Dengan
perkembangan teknologi yang semakin pesat, konsumen dapat mengakses berita dengan cepat dan mudah

secara online. Namun, sebelum berita tersebut online, tentu saja berita tersebut harus di kelompokkan ke dalam
kategori-kategori seperti edukasi, politik, ekonomi, olahraga, kriminal dan lain sebagainya. Tentu saja dalam
proses pengelompokkan berita dalam jumlah yang sangat banyak, akan memakan waktu yang sangat lama jika
editor membacanya satu persatu hanya untuk mengelompokkannya dengan tepat. Oleh karena itu, perlu
dibangun sebuah sistem yang mampu mengelompokkan berita berdasarkan kontennya secara otomatis. Naive
bayes merupakan algoritma klasifikasi yang mengasumsikan antar atribut bersifat independent.
Kesederhanaannya membuat algoritma ini menjadi algoritma yang cepat dan mudah untuk di implementasikan.
Namun algoritma ini juga memiliki kekurangan yaitu probabilitas untuk setiap kondisi tidak boleh nol, untuk
menangani kasus ini akan digunakan metode smoothing yaitu absolute discount. Pada penelitian ini berita yang
akan di kelompokkan terdiri dari kategori Ekonomi, Entertainment, Health, Tekno, Bola, Otomotif. Hasil dari
penelitian ini adalah dengan menggunakan algoritma Naïve Bayes dengan Smoothing di dapat akurasi sebesar
88% . Penggunaan seleksi fitur Information Gain juga terbukti mampu meningkatkan akurasi dari NBC sebesar
2%.
Kata Kunci: naïve bayes, absolute discount, enhanced absolute discount, pruning, stemming, information gain,
klasifikasi teks.
ABSTRACT
Nowadays, the news becomes very important in meeting the needs of day-to-day information. With the
increasingly rapid development of technology, consumers can access the news quickly and easily online.
However, before the news online, of course, the news should be grouped into categories such as education,
politics, economics, sports, crime and others. Of course in the process of grouping the news in a large quantity,

it will take a very long time if the editor read one by one only to classify them appropriately. Therefore, it is
necessary to build a system capable of classifying news based content automatically. Naive Bayes is a
classification algorithm that assumes an independent character attributes. Its simplicity makes this algorithm
into an algorithm that is fast and easy to implement. However, this algorithm also has the disadvantage that the
probability for each condition can not be zero, to deal with this case will be used smoothing method that is
absolute discount. In this study, the news will be grouped consist of categories of Economics, Entertainment,
Health, Tekno, Ball, Automotive. Results of this research is to use the Naïve Bayes algorithm can Smoothing in
an accuracy of 88%. Use of Information Gain feature selection also been proven to improve the accuracy of
NBC by 2%..
Keywords: naïve bayes, absolute discount, enhanced absolute discount, pruning, stemming, information gain,
text classification.

1

kamus besar bahasa Indonesia, yang dimkasud
dengan berita disini adalah cerita atau keterangan
mengenai kejadian atau peristiwa yang hangat.
Sedangkan menurut Budiman, K. (2005), berita
adalah laporan mengenai suatu peristiwa atau
kejadian yang terbaru, laporan mengenai fakta- fakta

yang actual, menarik perhatian, dinilai penting dan
luar biasa.

PENDAHULUAN [TIMES NEW
ROMAN 12, BOLD, UPPERCASE]

Sesuai dengan perkembangan jaman yang
semakin maju yang dapat disebut sebagai zaman era
informasi. Kalau dahulu kita harus berusaha mencari
informasi, kini kita harus berusaha menyeleksi
informasi (yang di sebut dengan berita). Menurut
711

ISSN : 2302 – 450X

Karena hal inilah menjadikan internet
sebagai sarana dalam mendapatkan informasi yang
cepat, tidak bergantung tempat dan waktu. Dengan
kemudahan tersebut, banyak penyedia layanan
informasi mulai beralih ke media digital. Berita yang

di buat oleh jurnalis biasanya tidak tergolong dengan
tepat ke dalam kategori yang di sediakan dikarenakan
setiap jurnlis memiliki sudut pandang yang berbeda
dalam menentukan kategori suatu berita. Maka dari
itu, editor harus membaca ulang berita agar nantinya
dapat di kategorikan dengan benar. Di lain sisi,
proses untuk menggolongkan berita tersebut menjadi
sangat lama karena terbatasnya jumlah tenaga yang
dimiliki sedangkan berita harus segera di
publikasikan sesegera mungkin. Oleh karena itu di
dubutuhkan metode text minning sebagai salah satu
alternative dalam menyelesaikan masalah dalam
proses pengkategorian tersebut. Text minning
merupakan varian dari data mining yang berusaha
untuk mengklasifikasi dan menemukan varian dari
data mining yang berusaha untuk mengekstraksi dan
menemukan sesuatu yang belum diketahui
sebelumnya dan mengandung informasi yang sangat
berguna dari sekumpulan data tekstual yang besar
jumlahnya.

Namun masih diperlukan penelitian dengan
metode lain untuk mencapai hasil klasifikasi yang
lebih baik. Dimana pada penelitian ini penulis lebih
memfokuskan untuk implementasi menggunakan
metode
Naïve
Bayes
Clasifier
dalam
pengklasifikasian berita kejadian berbahasa Indonesia
dan berita di perolah dari www. Kompas.com.

diklasifikasikan ke dalam kelas  jika syarat
(|) > (|) 
  ≠  
1 ≤  ≤ 
terpenuhi[1].
Probabilitas dari dokumen terkategori ke
dalam kelas Ci dihitung dengan teorema bayes.


2

 dapat di abaikan karena tidak mempengaruhi
rasio dari nilai ( | ). Sehingga formula untuk
menghitung ( | ) adalah.

MODEL, ANALISIS, DESAIN, DAN
IMPLEMENTASI

2.1 Naive Bayes Classifier
Naive bayes Classifier banyak digunakan
dalam membangun sistem pengklasifikasian yang
bersifat real-time. NBC memiliki komputasi yang
efisien dan mudah di mengerti. Algoritma ini
mengasumsikan hubungan antar fitur adalah
independent yang mana nilai fitur dari suatu kelas
adalah independen dengan nilai dari fitur lainnya.
Pada penerapannya asumsi ini tidak terlalu
mempengaruhi performa saat proses pemblajaran.
NBC menempuh dua tahap saat dalam
proses klasifikasi teks. Yaitu tahap pemblajaran dan
tahap klasifikasi. Pada tahap pemblajaran dilakukan
proses pemilihan kata yang mungkin dapat muncul
pada dokumen sample yang dapat merepresentasi
dokumen. Pada tahap klasifikasi, nilai probabilitas
suatu dokumen tergolong ke suatu kategori di
tentukan oleh term yang muncul di dalam dokumen
yang di klasifikasikan.
Kita beranggapan bahwa kategori target
klasifikasi di lambangkan dengan C = {C1,C2,...Cm}
dengan m adalah jumlah kelas. Dan suatu dokumen
712

( |) =

( )(| )
()

......................(1)

Karena nilai () bernilai tetap, maka ()
dapat di abaikan dan dokumen di klasifikasikan
dengan formula.
( |) = ( )(| ) .........................(2)
Pada model multinominal, (| ) di hitung
dengan formula seperti berikut.

|| ( | ) 
 !

( |) = (∑  )! ∑

...(3)

Dimana  adalah himpunan term atau
vocabulary, || adalah panjang dari vocab, 
adalah jumlah dari kata  yang muncul di dokumen
d, ( | ) adalah probabilitas dari  dengan
syarat  .
(∑  )! dan  ! dapat di abaikan karena
kedua bagian formula tersebut tidak bergantung pada
kelas[1]. Sehingga formula untuk menghitung
probabilitas  dengan syarat d adalah
||

( |) = ∑ ( | ) ..............(4)

||

( |) = ∑ ( | )

(5)

NBC memerlukan setiap nilai dari
probabilitas agar tidak 0. Hal ini dipengaruhi oleh
nilai ( | ) yang tidak boleh 0. Pada formula (4),
untuk menangani permasalahan ini akan digunakan
metode smoothing pada Naive Bayes Classifier.
2.2 Absolute Discount
Pada dasarnya, absolute discount bekerja
dengan cara menurunkan probabilitas dari kata-kata
yang terlihat sesuai dengan jumlah nilai delta yang
kemudian digunakan untuk meningkatkan hasil
probabilitas yang tidak dapat di hitung pada kata-kata
yang tidak muncul. Smoothing juga digunakan untuk
meningkatkan akurasi NBC.
Pada naive bayes formula (5), ( | ) di
smoothing dan formula untuk menghitungnya
menjadi[1].

I Made Dwi Putra suarbawa, Klasifikasi Konten Berita Menggunakan Naïve Bayes Dengan Smoothing
Modified Absolute Discount

Information Gain(? )
( | )
max("#
( ,  ) − $%
, 0) + $%
∗ (" ) ∗ ( )) = − ∑|| ( )logP(C' ) +

=
∑* ∈ . count(w, C' )
||
(
) ∑ ( |@ )%#A( |@ ) +
...................(6)
||

Dimana delta memiliki range 0 s/d 1. "
adalah jumlah kata unik pada kelas  dan ( )
adalah probabilitas dari  di seluruh vocab. Untuk
menghitung ( ) digunakan formula
( ) =

∑6
789 /2345( , )
∑ ∑7 /2345( , )

..................(7)

Dengan menganggap ( ) sebagai sebuah
fungsi dari kata yang mana memiliki distribusi
uniform yang di kali dengan jumlah kemunculan Wk
pada Vocab, ( ) kemudian di hitung dengan
formula[1].
( ) =  :( ) ∑;