Cleansing merupakan proses membersihkan data yang akan digunakan dari karakter-karakter bahkan kata-kata yang tidak diperlukan. Hal ini bertujuan untuk
mengurangi  noise  yang  dapat  menimbulkan  proses  perhitungan  dalam pengklasifikasian tidak optimal.
2. Case Folding
Case  Folding merupakan  proses  pengubahan  data  menjadi format  yang sesuai. Hal ini bertujuan mengurangi redudansi data  yang akan digunakan dalam
proses  pengklasifikasian  sehingga  proses  perhitungan  pun  menjadi  optimal. Contohnya mengubah format data menjadi lowercase atau uppercase sesuai dengan
kebutuhan yang dibutuhkan dalam proses pengklasifikasiannya. 3.
Tokenizing Tokenizing merupakan proses pemisahan atau memotong data baik berupa
frasa,  klausa,  atau  kalimat  menjadi  kata  perkata  berdasarkan  delimeter  yang digunakan yaitu space.
II.5. Naïve Bayes Classifier NBC
Naïve  Bayes Classifier merupakan  suatu  metode classifier yang  mengacu pada  teorema bayes yaitu  teorema  yang  mengacu  pada  konsep  probabilitas
bersyarat. Pada metode ini diperlukan kombinasi pengetahuan sebelumnya dengan pengetahuan yang baru [9]. Dalam  melakukan  pengklasifikasiannya  diperlukan
training set sebagai data latih. Pada setiap sample dari data latih tersebut memiliki kelas label tersendiri. Berikut merupakan model matematis naïve bayes classifier
yaitu: |  =
|
[2] Di mana:
X = Data dengan kelas yang belum diketahui
H = Hipotesa data X merupakan suatu kelas spesifik
pH|X =  Probabilitas  hipotesis  H  berdasarkan  kondisi  X  posterior
probability pH
= Probabilitas hipotesis H prior probabilty
II.6. Object-Oriented Analysis and Design OOAD
Object-Oriented  Analysis  and  Design OOAD merupakan  suatu  metode analisis dalam pembangunan perangkat lunak yang berorientasi pada objek. Proses
analisis  yang  dilakukan  yaitu  dengan  memeriksa  kebutuhan  berdasarkan  sudut pandang kelas dan objek yang terdapat pada ruang lingkup permasalahan. Proses
analisis dilakukan menggunakan model menurut konsep sekitar dunia nyata yang dalam  konsep  tersebut  ialah  objek  yang  merupakan  gabungan  dari  struktur  data
serta perilaku dalam suatu entitas. Dalam metode OOAD terdapat konsep umum salah  satunya  yaitu  kelas.  Kelas  merupakan  kumpulan  dari  objek-objek  yang
memiliki  karakter  serupa.  Sebuah  kelas  memiliki  atribut,  operasimetode,  relasi, dan  arti. Atribut  dalam  kelas  merupakan  suatu  variable  global  berupa  nilai  atau
elemen data suatu objek. Metode dalam kelas berguna untuk mengoperasikan suatu objek tertentu. Suatu kelas dapat mewarisi sebagian objek atau seluruhnya ke kelas
yang  baru  di  mana  hal  ini  disebut  dengan inheritance pewarisan. Dalam  suatu kelas  terdapat  objek  yaitu suatu  entitas  yang  dapat  menyimpan  informasi  serta
mampu melakukan operasi tertentu. Dalam memodelkan OOAD terdapat tools yang biasa digunakan yaitu UML
Unified  Modeling  Languages.  UML  merupakan  sebuah  bahasa  standar  dalam industri  untuk  proses  visualsasi,  perancangan,  dan  pendokumentasian  perangkat
lunak. Berikut adalah diagram yang umum digunakan dalam analisis dan desain. 1.
Use Case Diagram Use Case Diagram menggambarkan fungsional berdasarkan sistem yang akan
dibangun.  Dalam  sebuah  usecase  terdapat  aktor  yang  menunjukan  interaksi pengguna dengan fungsional dalam suatu sistem. [10]
2. Use Case Scenario
Use case scenario digunakan untuk mendeskripsikan informasi dari interaksi aktor dan sistem secara detail.
3. Activity Diagram