KLASIFIKASI DOKUMEN SKRIPSI TEKNIK INFORMATIKA DENGAN

  

KLASIFIKASI DOKUMEN SKRIPSI TEKNIK INFORMATIKA DENGAN

MENGGUNAKAN ALGORITMA K-MEDOID

 

  

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Komputer

  

Program Studi Teknik Informatika

Oleh :

Taufik

  

NIM : 07 5314 072

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

  

2012

  

CLASSIFICATION OF INFORMATIC ENGINEERING FINAL PROJECT

DOCUMENT USING K-MEDOID ALGORITHM

 

  

A THESIS

Presented as Partial Fulfillment of the Requirements

To Obtain the Sarjana Komputer Degree

  

In Informatics Engineering Department

By:

Taufik

  

NIM : 07 5314 072

DEPARTMENT OF INFORMATIC ENGINEERING

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

   

2012

     

HALAMAN PERSEMBAHAN

  Tuhan tidak pernah terlambat dan tidak pula terlalu cepat. Dia tidak

selalu memberikan apa yang kita minta, tapi yakinlah Dia selalu memberi

apa yang terbaik buat kita. Karena dengan kuasa-Nya, semua akan indah

pada waktunya.

  Untuk menjadi kupu-kupu yang cantik, sebuah telur membutuhkan

usaha dan proses yang panjang, begitu juga dengan sebuah kesuksesan,

dibutuhkan usaha dan proses untuk mencapainya

  Skripsi ini saya persembahakan untuk Keluarga, teman- teman seperjuangan dan sahabat

  Terima kasih

PERNYATAAN KEASLIAN KARYA

  Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini tidak memuat karya/ bagian karya orang lain, kecuali yang telah disebutkan dalam kutipan dan daftar pustaka, sebagaimana layaknya karya ilmiah.

  Yogyakarta , 24 Januari 2012 Penulis Taufik

PERNYATAAN PERSETUJUAN

  Yang bertanda tangan dibawah ini, saya mahasiswa Universitas Sanata Dharma: Nama : Taufik NIM : 075314072 Demi pengembangan ilmu pengetahuan, saya memberikan kepada perpustakaan Universitas Sanata Dharma karya ilmiah saya yang berjudul :

  

KLASIFIKASI DOKUMEN SKRIPSI TEKNIK INFORMATIKA DENGAN

MENGGUNAKAN ALGORITMA K-MEDOID

  Beserta perangkat yang diperlukan ( bila perlu ). Dengan demikian saya memberikan kepada Perpustakaan Universitas Sanata Dharma hak untuk menyimpan , mengalihkan dalam bentuk media lain, mengelolanya dalam bentuk pangkalan data, mendistribusikan secara terbatas, dan mempublikasikannya di internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya maupun memberikan royalty kepada saya selama tetap mencantumkan nama saya sebagai penulis. Demikian pernyataan ini saya buat dengan sebenarnya.

  Dibuat di Yogyakarta, Pada tanggal : 24 Januari 2012 Yang menyatakan Taufik

KLASIFIKASI DOKUMEN SKRIPSI TEKNIK INFORMATIKA DENGAN

  

MENGGUNAKAN ALGORITMA K-MEDOID

Abstraksi

  Skripsi merupakan syarat lulusnya seorang mahasiswa yang mengambil jenjang Strata 1. Oleh karena itu, seiring bertambahnya lulusan , maka bertambah pula dokumen skripsi. Dengan jumlah dokumen yang sangat besar, maka akan lebih mudah mencari suatu dokumen apabila dokumen–dokumen tersebut telah diorganisir dan dikelompokkan atau diklasifikasi sesuai dengan kategorinya. Skripsi ini bertujuan untuk membuat suatu aplikasi yang mampu mengklasifikasikan dokumen skripsi menggunakan system temu balik informasi dan dikombinasikan dengan algoritma clustering K-Medoid.

  Proses clustering dokumen ini diawali dengan proses parsing, stemming , dan indeksing. Algoritma pembobotan yang digunakan adalah algoritma TF-IDF.

  Secara sederhana , algoritma TF-IDF ini berkaitan dengan frekuensi kemunculan kata dalam satu dokumen dan dokumen yang lain. Dari indeks yang dihasilkan dibentuklah matrik yang merupakan representasi dari vector space model yang komponennya berupa dokumen dan term. CosSim merupakan algoritma yang digunakan untuk mengukur jarak kedekatan antar dokumen.

  Untuk melakukan klasifikasi pengelompokan dokumen, digunakan algoritma clustering K- Medoid. Medoid merupakan obyek yang mempunyai nilai total jarak minimal terhadap obyek – obyek lain dalam satu cluster dan menjadi median dari cluster tersebut dan terletak paling tengah.

  Pada penelitian ini dilakukan 2 jenis pengujian yaitu pengujian uji presisi dan pengujian validasi cluster. Jenis pengukuran untuk menguji validitas cluster adalah indeks Dunn. Dalam mengukur validasi cluster, hasil dari indeks dunn ini akan dikombinasikan dengan penghitungan kesamaan keyword atau term dokumen tertinggi medoid di tiap cluster. Dengan data sebanyak 200 ,untuk pengujian uji presisi yang dilakukan oleh 3 orang penguji didapatkan hasil presisi 62%, 36%, dan 44%. Sedangkan hasil dari validasi cluster dengan menggunakan indeks dunn yang dikombinasikan dengan penghitungan keyword, didapat hasil jumlah k yang ideal yaitu 7 dengan jumlah pasang keyword dengan bobot tertinggi antar medoidnya adalah 0 (nol) dan jumlah hasil perhitungan indeks

  dunn

  adalah 0.11044510560478325

  

CLASSIFICATION OF INFORMATIC ENGINEERING FINAL PROJECT

DOCUMENT USING K-MEDOID ALGORITHM

Abstract Thesis is a requirement of graduation of a student who took Strata 1.

  Therefore , the concomitant increase in graduates, it also increased thesis document. With a very large number of documents,it will be easier to find a document if these documents have been organized an grouped or classified according to the category. This thesis aims to create an application that’s able to classify a thesis document using information retrieval and combined with clustering algorithm K-Medoid

  This document clustering process begins with the parsing, stemming and indexing process. Weighting algorithm that used is TF-IDF algorithm. Put simply, this algorithm is related with frequency of occurance of the word in one document and another documents. The result from index processing can be used to built a Matrix representative of a vector space model. The components of this matrix is documents and terms. CosSim is an algorithm that is used to measure the proximity between documents.

  To perform classification of documents, used K-Medoid clustering algorithm. Medoid is an object which has the minimum total distance value to the other objects in one cluster. And become the median from this cluster, and located at the enter of cluster.

  This thesis use 2 type of testing . That is validation testing and precession testing. The type of measurements to test the validity of the cluster is dunn index.

  In the cluster validation measure, the result of dunn index will be combined with the similarity calculation of the highest medoid document keyword or term in each cluster. With as much as 200 documents , for testing precission test performed by 3 examiners, the result is 62% ,36% and 44%. While the result of cluster validation using Dunn’s index that is combined with with the keyword calculation, the result for the ideal k is 7 with the pairs of keyword with the highest weight among the medoid is 0 (zero) and the result for dunn index calculation is 0.11044510560478325

KATA PENGATAR

   

  Puji syukur kepada Tuhan Yang Maha Esa yang telah memberikan karunia kekuatan dan kesempatan sehingga penulis dapat menyelesaikan tugas akhir dengan judul “KLASIFIKASI DOKUMEN SKRIPSI DENGAN MENGGUNAKAN ALGORITMA K- MEDOID”.

  Terima kasih yang sebesar-besarnya kepada semua pihak yang telah memberikan dukungan, semangat , serta bantuan sehingga penulis mampu menyelesaikan skripsi ini :

  1. Bapak Yosef Agung Cahyanta,S.T.,M.T., selaku Dekan Fakultas Sains dan Teknologi Universitas Sanata Dharma Yogyakarta

  2. Ibu Ridhowati Gunawan, S.Kom.,M.T. selaku ketua jurusan Program Studi Teknik Informatika Universitas Sanata Dharma Yogyakarta

  3. Bapak Puspaningtyas Sanjoyo Adi S.T.,M.T., selaku dosen pembimbing atas kesabaran , saran dan waktu yang diberikan

  4. Ibu Sri Hartati Wijono, S.Si.,M.Kom., dan Bapak J.B.Budi Darmawan, S.T.,M.Sc., selaku dosen penguji atas saran dan kritikannya.

  5. Drs. Rubiyanto, M.,M. dan Herry Rochmanto atas dukungan moral kepada penulis

  6. Kedua Orang tua saya , Bapak Kaswadi dan Ibu Khomsatun dan kakak – kakak saya ,Nur Saidah, S.Pd., Suliswati, dan Sundarwati yang telah memberikan seluruh dukungan, baik materiil maupun spiritual selama

  7. Teman –Teman komunitas jimbez ( Leonardus ,S.Kom,Albertus Dio, S.Kom,Robertus Atyantama, Mariano Lucky Z, Amiko B., Markus Herjuno, Andriyudha P.Yohanes Sapto Prabowo) atas dukungan penuh yang diberikan.

  8. Teman-teman TI’07 dan semua pihak yang telah berperan serta baik secara langsung maupun tidak langsung sehingga penulis mampu menyelesaikan skripsi ini. Penulis menyadari bahwa masih banyak kekurangan dalam penyusunan skripsi ini. Saran dan kritik sangat diharapkan untuk perbaikan kedepannya.

  Semoga dapat bermanfaat Yogyakarta, 21 Januari 2012

  Penulis

  

DAFTAR ISI

HALAMAN PERSETUJUAN ............................ Error! Bookmark not defined.

HALAMAN PENGESAHAN .............................. Error! Bookmark not defined.

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

DAFTAR TABEL

Tabel 2.1 kombinasi awalan akhiran yang tidak diijinkan ................................................ 14 Tabel 2.2 cara menentukan tipe awalan untuk kata yang diawalai dengan “te-“ .............. 14 Tabel 2.3 jenis awalan berdasarkan tipe awalannya ......................................................... 15   Tabel 3.1 Hak Akses User ................................................................................................ 40 Tabel 3.2 Use Csse ............................................................................................................ 43 Tabel 3.3 Skenario Login .................................................................................................. 45 Tabel 3.4 Skenario Insert User .......................................................................................... 46 Tabel 3.5 Skenario Delete User ........................................................................................ 47 Tabel 3.6 Skenario Insert stopword .................................................................................. 48 Tabel 3.7 Skenario Update Stopword ............................................................................... 49 Tabel 3.8 Skenario Delete Stopword ................................................................................ 50 Tabel 3.9 Skenario Insert Kata Dasar ............................................................................... 51 Tabel 3.10 Skenario Update Kata Dasar ........................................................................... 52  Tabel 3. 11 Skenario Delete Kata Dasar ........................................................................... 53 Tabel 3.12 Skenario Melakukan Klustering ..................................................................... 54 Tabel 3.13 Skenario Memasukkan Dokumen ................................................................... 55 Tabel 3.14 Skenario Lihat Cluster .................................................................................... 56 Tabel 3.15 Aktifitas Login ................................................................................................ 57 Tabel 3.16 Aktifitas Insert User ........................................................................................ 58  Tabel 3. 17 Aktifitas Delete User ...................................................................................... 59 Tabel 3.18 Aktifitas Insert stopword ................................................................................. 60 Tabel 3.19 Aktifitas Update Stopword ............................................................................. 61 Tabel 3.20 Aktifitas Delete Stopword ............................................................................... 62 Tabel 3.21 Aktifitas Insert Kata Dasar .............................................................................. 63 Tabel 3.22 Aktifitas Update Kata dsara ............................................................................ 64  Tabel 3..23 Aktifitas Delete Kata dasar ............................................................................ 65 Tabel 3.24 Aktifitas Memasukkan Dokumen ................................................................... 66 Tabel 3.25 Aktifitas Klustering ......................................................................................... 67 Tabel 3.26 Aktifitas Lihat Cluster..................................................................................... 68 Tabel 3.27 Kelas Perancangan .......................................................................................... 92  Tabel 3. 30 Diagram Relasional indek ............................................................................ 137 

   

  

  

DAFTAR GAMBAR

 

  

 

 

BAB I PENDAHULUAN

1.1 Latar Belakang

  Skripsi adalah istilah yang digunakan di Indonesia untuk mengilustrasikan suatu membahas suatu permasalahan atau fenomena dalam bidang ilmu tertentu dengan menggunakan kaidah-kaidah penulisan skripsi yang merupakan persyaratan untuk mendapatkan status sarjana (S1) di setiap Perguruan Tinggi Negeri (PTN) maupun Perguruan Tinggi Swasta (PTS) yang ada di Indonesia. Oleh karena itu seiring dengan bertambahnya jumlah lulusan, maka hal ini berbanding lurus terhadap jumlah dokumen skripsi yang dihasilkan.

  Dengan jumlah dokumen yang sangat besar, maka akan lebih mudah mencari suatu dokumen apabila dokumen–dokumen tersebut telah diorganisir dan dikelompokkan sesuai dengan kategorinya. Sebuah dokumen dapat dikelompokkan kedalam kategori tertentu berdasarkan kata-kata ataupun kalimat yang ada di dalam dokumen tersebut. Pengelompokan dokumen mempunyai manfaat yang sangat besar mengingat jumlah dokumen yang terus bertambah banyak.

  Pengklasifikasin dokumen skripsi secara manual akan menjadi sangat digunakan, Oleh karena itu , dibutuhkan suatu metode untuk mengelompokkan dokumen–dokumen tersebut secara otomatis Ada banyak algoritma clustering untuk mengelompokkan dokumen, salah satunya adalah algoritma K Medoid. K Medoid merupakan generalisasi dari K mean dimana algoritma ini menggunakan medoid sebagai pengganti mean. Teknik dasar dari algoritma K medoid ini adalah untuk menemukan k cluster dalam n

  

object dengan cara first arbitrarily finding a representative object (medoid).

  Kelebihan algorima K medoid adalah mampu bekerja dengan semua jenis pengukuran (distance measures) seperti Euclidean distance, Manhattan distance atau Minkowski distance. Disamping itu algoritma ini juga mampu mengatasi masalah outliers.

  Penggunaan algoritma K medoid sebagai algoritma clustering ini diharapkan mampu menghasilkan suatu aplikasi pengelompokkan dokumen yang bermanfaat bagi teknologi informasi

1.2 Rumusan Masalah

  Berdasarkan latar belakang diatas, ada beberapa pokok masalah, diantaranya adalah sebagai berikut:

  1. Kebutuhan akan pengklasifikasian dokumen skripsi untuk memudahkan pengorganisasian dokumen skripsi.

  2. Proses clustering secara otomatis.

  3. Algoritma K-Medoid mempunyai keunggulan dibandingkan dengan

  Dari beberapa pokok masalah tersebut, maka dapat ditarik suatu rumusan masalah yaitu bagaimana membangun suatu aplikasi pengelompokkan dokumen skripsi teknik informatika dengan mengimplementasikan algoritma K Medoid sebagai algoritma clustering.

  1.3 Tujuan Penelitian

  Adapun tujuan penulisan skripsi adalah sebagai berikut:

  1. Membangun sistem klasifikasi dokumen skripsi Teknik Informatika

  2. Untuk melihat bagaimana performa algoritma clustering K Medoid dalam mengelompokkan sutau object yang berbentuk dokumen teks

  1.4 Batasan Masalah

  Adapun batasan dari aplikasi klasifikasi dokumen skripsi Teknik Informatika ini adalah sebagai berikut :

  1. Dokumen yang dapat diproses adalah dokumen berbasis portable

  document file( .pdf)

  2. Data dokumen diambil dari judul, abstraksi skripsi Teknik Informatika Universitas Sanata Dharma dan Universitas Kristen

  3. Jumlah K cluster merupakan masukan dari user

1.5 Metodologi Penelitian

  Metodologi penelitian yang digunakan dalam pembuatan tugas akhir ini adalah sebagai berikut:

  1. Metode pengumpulan data :

  a. Studi literatur Mencari dan mengumpulkan literatur - litaratur yang berkaitan dengan permasalahan yang dikerjakan, yaitu mengenai klasifikasi dokumen dengan menggunakan algoritma K Medoid

  b. Pembagian kuisioner untuk melakukan uji presisi aplikasi

  2. Metode pengembangan sistem Metode pengembangan sistem yang digunakan dalam pengembangan aplikasi ini adalah AUP (Agile Unified Process).

  Model ini merupakan versi sederhana dari RUP( Rational

  Unified Process ). AUP mengadopsi filosofi “serial in the large” dan

  “iterative in the small” untuk membangun sistem berbasis komputer[12]. Dengan model pengembangan sistem AUP ini diharapkan mampu menghasilkan aplikasi pengklasifikasian dokumen

  .

1.6 Sistematika Penulisan

  Bab I Pendahuluan Memberikan gambaran secara umum tentang isi skripsi yang meliputi: latar belakang, rumusan masalah, batasan masalah, tujuan dan manfaat, metode penelitian dan sistematika penulisan.

  Bab II Landasan Teori Berisi konsep dasar sistem temu-kembali informasi (information retrieval system), bagian-bagian dari sistem temu kembali informasi, teknik-teknik temu kembali informasi dan metode klasifikasi K Medoid

  Bab III Analisa dan Perancangan Berisi gambaran umum sistem, usecase diagram, sekenario perancangan, analisa peracangan, perancangan basis data, perancangan tampilan masukan dan keluaran untuk pengguna.

  Bab ini menjelaskan tentang implementasi ke dalam bentuk program berdasarkan desain yang telah dibuat dan pengujian applikasi dalam bentuk olah hasil kuisioner.

  Bab V Kesimpulan dan Saran Bab ini berisi semua simpulan yang didapatkan dari penelitian yang telah dilakukan. Simpulan menjawab rumusan masalah yang dituliskan pada bab pendahuluan secara ringkas dan jelas.

  DAFTAR PUSTAKA LAMPIRAN

BAB II TINJAUAN PUSTAKA

  2.1 Temu Kembali Informasi ( information retrieval) Information Retrieval (IR) adalah suatu bidang ilmu yang mempelajari cara-cara penelusuran atau memanggil (retrieve) kembali atas dokumen-dokumen.

  Menurut Lancaster (1968) dalam Rijsbergen (1979): “Sebuah information

  

retrieval system (Sistem Temu-kembali Informasi) tidak memberitahu (yakni

tidak mengubah pengetahuan) pengguna mengenai masalah yang ditanyakannya.

  Sistem tersebut hanya memberi-tahukan keberadaan (atau ketidakberadaan) dan keterangan dokumen-dokumen yang berhubungan dengan permintaannya”[8].

  2.1 Indexing dalam information retrieval

  Dalam information retrieval ( atau disingkat IR), dikenal adanya proses

  

indexing. Indexing merupakan suatu proses untuk melakukan pengindekkan

  terhadap kumpulan dokumen. Ada beberapa tahap dalam proses pengindekkan, diantaranya adalah sebagai berikut

  1. Parsing dokumen adalah pengambilan kata kata dari suatu dokumen

  2. Stemming merupakan proses untuk menemukan kata dasar dari sebuah kata misalnya menyapa menjadi sapa

  3. Term weight dan inverted index adalah proses pembobotan kata

2.1.1 Parsing Dokumen

  Parsing

  dokumen berkaitan dengan pengenalan dari isi dan struktur dari dokumen teks[6]. Parsing dokumen ini bertujuan untuk mendapatkan

  term

  atau kata dari suatu dokumen. Parsing merujuk pada proses pengenalan token yang terdapat dalam rangkaian teks [4]. Beberapa tahapan dalam parsing dokumen adalah tokening dan stopping.

  1. Tokening Tokening merupakan proses untuk membentuk kata dari

  serangkaian karakter dalam sebuah dokumen [6]. Sebuah dokumen dapat terdiri atas satu atau lebih kalimat, sedangkan kalimat sendiri terbentuk oleh satu atau lebih kata. Untuk mendapatkan sebuah kata dalam suatu dokumen, maka dilakukanlah proses pemenggalan. Proses pemenggalan kalimat untuk mendapatkan kata dinamakan tokening. Untuk lebih jelasnya , dapat kita lihat dalam ilustrasi sebagai berikut

  Token Dokumen   koordinat yang koordinat yang menunjukkan lokasi; menunjukkan dari citra yang mempunyai nilai keabuan; lokasi

    citra yang mempunyai nilai keabuan 2.

   Stopping

  Bahasa manusia terisi dengan kata fungsi: kata yang mempunyai arti lebih sedikit terpisah dari kata lainnya [6]. Dalam bahasa inggris, sering dijumpai function word, sebagai contoh “ the”, “a”,”an”. Dalam

  information retrieval , kata ini mempunyai second name yaitu stopword.

  Dinamakan stopword karena text processing akan berhenti ketika menjumpai kata kata tersebut untuk kemudian dibuang. Contoh stopword dalam bahasa Indonesia adalah kata sambung atau konjugasi seperti “dan”, “dari” ,”sedangkan” dan lain-lain. Pada dasarnya , stopword bisa saja tidak dihilangkan jika space dalam media penyimpanannya memadai, namun tentu saja hal ini akan mengakibatkan turunnya performansi dalam pengeksekusian suatu query. Oleh karena itu, untuk menjaga maximum

  flexibility , stopword dapat dihapus atau dihilangkan. Berikut ini

  merupakan ilustrasi dari proses stopping

  Token hasil stopping Document stopword

    koordinat koordinat yang koordinat yang menunjukkan lokasi; menunjukkan dari menunjukkan

dari citra yang mempunyai nilai keabuan; lokasi

yang   lokasi citra dari mempunyai citra nilai yang keabuan mempunyai nilai keabuan

2.2.2 Stemming

  Stemming merupakan suatu proses untuk menemukan kata

  dasar dari sebuah kata. Dengan menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan (prefixes), sisipan (infixes), akhiran (suffixes) dan confixes (kombinasi dari awalan dan akhiran) pada kata turunan. Stemming digunakan untuk mengganti bentuk dari suatu kata menjadi kata dasar dari kata tersebut yang sesuai dengan struktur morfologi Bahasa Indonesia yang baik dan benar[2].

  Stemming dalam bahasa Indonesia memiliki kompleksitas yang tinggi. Hal ini dikarenakan ada beberapa aturan dalam pemberian imbuhan terhadap suatu kata, misalnya kata “baca”, jika kata tersebut diberi imbuhan “me”, maka kata yang terbentuk adalah “membaca”. Dari hasil yang terbentuk dapat kita lihat bahwa imbuhan “me” berubah menjadi “mem”. Perubahan bentuk awalan tersebut didasarkan pada huruf pertama dari kata yang dikenai awalan “me”. Contoh lain ada pada kata dasar dengan huruf pertama “s” misalnya “sapu”. Jika kata tersebut diberi awalan “me”, maka awalan tersebut akan berubah bentuk menjadi “meny”.

  Ada dua teknik alternatif yang dapat digunakan untuk proses stemming bahasa Indonesia yaitu dengan menggunakan kamus, atau tanpa menggunakan kamus. Algoritma vega merupakan teknik

  stemming bahasa Indonesia tanpa mengunakan kamus, sedangkan

  beberapa algoritma stemming bahasa indonesia dengan menggunakan kamus diantaranya adalah algoritma nazief dan adriani dan algoritma

  porter . Algortima dengan menggunakan kamus dilakukan dengan

  membandingkan kata yang telah dihilangkan imbuhannya dengan kata dasar dalam kamus.

  Perbedaan kedua algoritma ini terletak pada efisiensi waktu dan presisi yaitu

  1. Proses stemming dokumen teks berbahasa Indonesia menggunakan Algoritma Porter membutuhkan waktu yang lebih singkat dibandingkan dengan stemming menggunakan Algoritma Nazief & Adriani.[3]

  2. Proses stemming dokumen teks berBahasa Indonesia menggunakan Algoritma Porter memiliki prosentase keakuratan (presisi) lebih kecil dibandingkan dengan stemming menggunakan Algoritma Nazief & Adriani.[3]

  1. Cari kata yang akan distem dalam kamus. Jika ditemukan , maka diasumsikan bahwa kata tersebut adalah rootword, maka algoritma berhenti

  2. Inflection suffixes (“lah”,”kah”,”ku”,”mu”,”nya”) dibuang. Jika berupa partikel(“lah”,”kah”,”pun”,”tah”), maka langkah ini diulangi lagi untuk menghapus possessive pronouns (“lah”,”kah”,”ku”,”mu”), jika ada.

  3. Hapus derivation suffixes (“I”,”an”,”kan”). Jika kata ditemukan di kamus maka algoritma berhenti, jika tidak maka lanjut ke langkah 3a

  a. Jika “an” telah dihapus dan huruf terakhir dari kata tersebut adalah “k”, maka “k” ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lanjut ke langkah 3b.

  b. Akhiran yang dihapus (“I”,”an”,”kan”) dikembalikan , lanjut ke langkah 4.

  4. Hapus derivation prefix. Jika pda langkah 3 ada suffix yang dihapus, maka pergi ke langkah 4a. Jika tidak , pegi kelangkah 4b.

  a. Periksa table kombinasi awalan akhiran yang tidak diijinkan.

  Jika ditemukan maka algoritma berhenti, jika tidak pergi ke langkah 4b. b. For i=1 to 3,tentukan tipe awalan kemudian hapus awalan, jika root word belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti. Catatan : jika awalan kedua dan awalan pertama sama , maka algoritma berhenti.

5. Melakukan recording

  6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai.

  Tipe awalan ditentukan melalui langkah langkah berikut

  1. Jika awalannya adalah: “di”,”ke”,”se”, maka tipe awalannya secara berturut turut adalah “di”,”ke”,”se”.

  2. Jika awalannya adalah “te”,”me”,”be”,”pe”, maka dibutuhkan sebuah proses tambahan untuk menentukan tipe awalnnya.

  3. Jika dua karakter pertama bukan “di”,”ke”,”se”,”te”,”be”,”me” atau “pe” maka berhenti.

  4. Jika tipe awalan adalah “none” maka berhenti, jika tipe awalan adalah bukan ‘none” maka awalan dapat dilihat pada table 2.2.

  Hapus awalan jika ditemukan.

  Awalan Akhiran yang tidak di ijinkan Be I

  Di An Ke i,kan

  Se i,kan

Tabel 2.1 kombinasi awalan akhiran yang tidak diijinkan

  following character tipe set1 set2 set3 set4 awalan

  • "-r-" "-r" None "-r-" Vowel ter-luluh not (vowel or "-r-

  "-r-" ") "-er_" vowel Ter not (vowel or "-r- not "-r-" ") "-er-" vowel Ter not (vowel or "-r- not "-er- "-r-" ") " Ter not (vowel or "-r-

  ") "-er-" Vowel None not (vowel or "-r- not ") "-er-" vowel Te

Tabel 2.2 cara menentukan tipe awalan untuk kata yang diawalai dengan “te-“

   

  Tipe awalan Awalan yang dihapus di- di- Ke- Ke-

  Se- Se- Te- Te-

  Ter- Ter Ter-luluh Ter

Tabel 2.3 jenis awalan berdasarkan tipe awalannya

2.3 Pembobotan kata

  Index bobot kata menggambarkan kepentingan relatif dari kata dalam dokumen , dan digunakan dalam menghitung skor untuk ranking[6]. Dalam menetukan bobot suatu istilah tidak hanya berdasarkan frekuensi kemunculan istilah di satu dokumen, tetapi juga memperhatikan frekuensi terbesar pada suatu istilah yang dimiliki oleh dokumen bersangkutan[1].

  Teknik yang sering digunakan dalam pemberian bobot adalah teknk TF/IDF(term frequency/inverse document frequency). Term frequency adalah jumlah kemunculan suatu kata dalam sebuah dokumen , sedangkan inverse term

  frequency adalah inverse dari banyaknya dokumen dimana suatu term tersebut muncul.

  Berikut ini adalah rumus pembobotan TF/IDF

  w (t,d) = tf t d * idf t = tf (t d) * log (N/dt)

  w = (t,d ) bobot dari term (kata) dalam document d tf t d = frekuensi kemunculan tern (kata) dalam

  dokumen d

  idf t = inverse document frequency dari kata t N = jumlah seluruh dokumen dt

  = jumlah dokumen yang mengadung term (kata) t

2.4 Model Ruang Vektor/ Vetor Space Model Model ini diperkenalkan oleh salton[7] dan telah dipergunakan secara luas.

  Dalam model ini, dokumen dan query diasumsikan menjadi bagian dari t-

  dimensional vector space

  , dimana t adalah jumlah dari index term( kata, stems, frase , dan lain-lain[6].

  Dalam model ruang vector, koleksi dokumen direpresentasikan dengan matrik term document. Misalkan terdapat sekumpulan kata T sejumlah n , yaitu T=(T

  1 ,T 2 ,…..T n ) dan sekumpulan dokumen D yaitu D=(D 1 ,D 2 ,….D n ), dan w ij

  adalah bobot kata i pada dokumen j, maka representasi matrik term document adalah

  T

  

1 T

2 ........T n

  D

  1 W

  

11 W

12 ......W 1n

  D

  2 W

  

21 W

22 ......W 2n

  : : : : : : : :

  D m W 1m W 2m ....W nm Pada model ini:

  1. Vocabulary merupakan kumpulan semua term berbeda yang tersisa dari dokumen setelah preprocessing dan mengandung t term index.

  Term-term ini membentuk suatu ruang vector

  2. Setiap term i di dalam dokumen atau query j, diberikan suatu bobot (weight) bernilai real wij

  3. Dokumen dan query diekspresikan sebagai vektor t dimensi dj = (w1, w2, ..., wtj) dan terdapat n dokumen di dalam koleksi, yaitu j = 1, 2, ..., n. Contoh dari model ruang vektor tiga dimensi untuk dua dokumen D1 dan

  D2, satu query pengguna Q1, dan tiga term T1, T2 dan T3 diperlihatkan pada

  

Gambar r 2.1Model l ruang vek ktor

  Se emakin deka at dua vecto or dalam mo odel ruang v vector, mak ka semakin mirip pula dua dokumen y yang diwak kili oleh du ua vector t teresebut. K Kemiripan suatu dokumen dapat dihit tung dengan n menggun akan fungs i similarity y measure. Salah

  milarity. C Cosine

  satu ukur ran kemirip pan teks ya ang popula r[5] adalah h cosine sim

similarity menghitun g sudut yan ng terbentuk k antara sua atu query d dengan doku umen.

  Semakin b besar nilai c cosines yan ng dihasilka an, maka se emakin miri ip pula doku umen tersebut t erhadap qu uery. Beriku ut ini meru upakan form mula dari c cosine simi ilarity dengan Q adalah que ry dan D ad dalah dokum men

2.5 Algoritma Klasifikasi K-Medoid

  Algoritma klasifikasi K-Medoid merupakan variant dari algoritma K- Means. Mean value object cluster dari object cluster sebagai reference point dapat digantikan dengan medoid yang mana object dari medoid ini berada lebih central dalam sebuah object cluster.

  Algoritma K-Medoid adalah sebuah classical partitioning technique dari

  

clustering yang mengelompokkan data set dari n objects kedalam k clusters yang

disebut apriori[9].

  Algoritma K-medoid terdiri dari 3 langkah yaitu: Langkah 1 : (memilih initial medoids)

  1-1. Menggunakan Euclidean distance sebagai pengkuran, komputasikan jarak antara setiap pasang dari semua object 1 … . . ; 1 … … . .

  1-2. Hitung P ij untuk m enc ari dugaan awal pusat cluster 1 … , ; 1 … ,

  1-3. Hitung di tiap-tiap object dan urutkan secara ascending . Pilih k object yang mempunyai nilai paling minimum sebagai initial group

  medoids .

  1 … 1-4. Tandai tiap tiap object ke medoid terdekat.

  1-5. Hitung current optimal value, jumlah jarak dari semua object ke medoid masing masing yang mempunyai jarak terpendek Langkah 2 : (menemukan medoid baru)

  Ganti current medoid di tiap tiap cluster dengan object yang meminimalkan jarak total ke object lain dalam cluster tersebut Langkah 3 : (New assignment) 3-1. Masukkan tiap object ke medoid baru yang terdekat.

  3-2. Hitung optimal value yang baru,jumlah jarak dari semua object ke masing masing medoid, jika optimal value sama dengan medoid optimal value sebelumnya , maka berhenti. Jika tidak , maka ulangi langkah 2.

  Keunggulan algoritma K-Medoid dibandingkan dengan algoritma K- Means adalah algoritma K-Medoid lebih kuat dalam menangani nooise dan

  outliers

  [10]. Selain itu, jenis pengukuran yang dapat diterapkan dalam algoritma ini pun tidak hanya Ecludian Distance. Namun , baik K-mean maupun K-Medoid memerlukan user untuk menentukan k, yaitu jumlah cluster[10].

  Berikut ini merupakan contoh pengklusteran dengan menggunakan algoritma K- medoid Obyek ke x y

  1 2 6 2 3 4 3 3 8 4 4 7 5 6 2 6 6 4 7 7 3 8 7 4 9 8 5 10 7 6

  Diketahui soal seperti diatas dana akan dikelompokkan dengan

  Langkah 1.1: hitung jaran antar object dengan menggunakan ecludian

  distance

  Obj ke

  1

  2

  3

  4

  5

  6

  7 1 0 2.236068 2.236068 2.236068 5.656854 4.472136 5.830952 2 2.236068 0 4 3.162278 3.605551 3 4.123106 3 2.236068 4 0 1.414214 6.708204 5 6.403124 4 2.236068 3.162278 1.414214 0 5.385165 3.605551

  5 5 5.656854 3.605551 6.708204 5.385165 2 1.414214 6 4.472136 3 5 3.605551 2 0 1.414214 7 5.830952 4.123106 6.403124 5 1.414214 1.414214 8 5.385165 4 5.656854 4.242641 2.236068 1 1 9 6.082763 5.09902 5.830952 4.472136 3.605551 2.236068 2.236068

  10 5 4.472136 4.472136 3.162278 4.123106 2.236068

  3 Obj ke 8 9 10 1 5.38516 6.082763

  5 2 4 5.09902 4.472136 3 5.65685 5.830952 4.472136 4 4.24264 4.472136 3.162278 5 2.23607 3.605551 4.123106

  6 1 2.236068 2.236068 7 1 2.236068 3 8 0 1.414214 2 9 1.41421 0 1.414214

  710 2 1.414214 0 Kemudian langkah ke 1.2 yaitu hitung P

  Obj ke 1 2 3 4 5 6 7 1 0 0.071072 0.053595 0.068422 0.162859 0.179143 0.191671 2 0.057136 0 0.095874 0.096764 0.103803 0.120173 0.135532 3 0.057136 0.127137 0 0.043274 0.193127 0.200288 0.210479 4 0.057136 0.100511 0.033896 0 0.155037 0.14443 0.164356 5 0.144543 0.1146 0.160785 0.164783 0 0.080115 0.046487 6 0.114271 0.095353 0.119842 0.110328 0.057579 0 0.046487 7 0.148992 0.13105 0.153473 0.152997 0.040715 0.05665 8 0.137601 0.127137 0.135586 0.129822 0.064376 0.040058 0.032871 9 0.155426 0.162069 0.139759 0.136845 0.103803 0.089572 0.073502

  10 0.127759 0.142144 0.10719 0.096764 0.118703 0.089572 0.098614 Obj ke

  8

  9

  10 1 0.199932 0.18779 0.167336

  2 0.148506 0.15742 0.14967 3 0.210019 0.18002 0.14967 4 0.157514 0.13807 0.105833 5 0.083017 0.11131 0.137989 6 0.037126 0.06903 0.074835 7 0.037126 0.06903 0.100402 8 0 0.04366 0.066935 9 0.052505 0.04733

  10 0.074253 0.04366 Langkah ke 1.3 hitung Sigma P

  Pj Pij 1 1.281823

  2 1.064878 3 1.371148 4 1.056781 5 1.043633 6 0.724856 7 0.890438 8 0.778046 9 0.96081

  10 0.898659 Langkah 1.4 Dari tabel diatas didapat 2(k=2) object dengan nilai paling minimal yaitu obyek ke 6 dan 8,lalu masukkan obyek ke pusat (medoid) terdekat sehingga didapat hasil sebagai berikut: anggota 6(cluster 1) 1,2,3,4,5,6 anggota 8( cluster 2) 7,8,9,10

  Langkah 1.5 hitung current optimal value CURRENT PUSAT 6 (cluster1) 18.07769 CURRENT PUSAT 8 (cluster 2) 4.414214

  Langkah 2 Ganti medoid sekarang dengan obyek yang mempunyai total distance paling minimal ke objek lain .

  Cluster 1: cluster 2: 1 16.83719

  2 16.0039

  3 19.35849 4 15.80328 5 23.35577 6 18.07769

  9 5.064495 10 6.414214 Medoid yang baru adalah obyek ke 2 dan 8 Langkah 3.1 masukkan obyek ke medoid baru yang terdekat; anggota 2 (cluster 1) 1,2,3,4 anggota 8 (cluster 2) 5,6,7,8,9,10

  Langkah 3.2 hitung current optimal value baru, jika sama dengan current

  

optimal value sebelumnya maka berheti , jika tidak sama maka ulangi ke langkah

  2 current opt val cluster 1 9.398346 current opt val cluster 2 7.650282 Karena berbeda , maka kembali ke langkah 2 yaitu menemukan medoid baru.

  Cluster 1 : cluster 2: 5 13.37894

  1 6.708204

  6 8.88635 2 9.398346 7 9.064495 3 7.650282

  8 7.650282

  4 6.812559 9 10.90611 10 12.77339

  Dari perhitungan diatas maka didapatkan medoid yang baru yaitu 1 dan 8 Langkah 3.1 , hitung current optimal value : current optimal value cluster 2 7.650282 Karena masih berbeda maka kembali ke langkah 2 yaitu masukkan objek ke medoid terdekat dimana medoid tersebut adalah 1 dan 8. Karena medoid yang didapatkan sama , maka anggota cluster pus sama sehingga current optimal value yang didapatkan sama .Karena current optimal value yang didapatkan sama dengan yang sebelumnya, maka algoritma berhenti disini dengan hasil Cluste1 cluster2 5 13.37894

  1 6.708204

  6 8.88635 2 9.398346 7 9.064495 3 7.650282

  8 7.650282

  4 6.812559 9 10.90611 10 12.77339

2.6 Evaluasi Pengujian Sistem

  Untuk melihat bagaimana kualitas cluster yang terbentuk , maka dilakukan pengujian berdasarkan evaluasi kuantitatif(validasi cluster) dan berdasarkan isi( uji presisi). Berikut ini penjelasan tentang evaluasi pengujian yang akan dilakukan

2.6.1 Validasi Cluster

  Indeks validitas cluster digunakan sebagai metode validasi cluster untuk evaluasi kuantitatif dari hasil clustering . beberapa indeks yang biasa digunakan adalah : Hubert Statistic, Indeks Dunn, Indeks Davies-Bouldin, Root-means- square standard deviation.[15] Indeks yang akan digunakan untuk menguji validitas cluster yang terbentuk nantinya adalah indeks Dunn. Berikut ini merupakan formula dari

  indeks Dunn

  , min min

   ,

  Dengan d(i,j) merupakan jarak antara cluster i dan cluster j, dan d’(k) merupakan jarak maksimal intra cluster dari cluster k.

  Bentuk sederhana dari formula tersebut diatas adalah sebagai berikut : D

  Dimana dmin merupakan jarak paling minimal antar 2 object di cluster yang berbeda sedangkan dmax adalah jarak terbesar antar dua objek dalam satu cluster( kadang disebut dengan diameter).

  Pada dasarnya indeks Dunn bekerja dengan cara mencari jarak terpendek antar cluster dan mencari jarak terjauh antar objek dalam satu clusters, sehingga didapat tingkat kepadatan cluster dan tingkat isolasi satu cluster dengan cluster lain, semakin tinggi indeks yang dihasilkan , maka solusi clustering tersebut

2.6.2 Uji Presisi

  Evaluasi pengujian yang kedua bertujuan untuk melihat presisi dari hasil yang didapat sehingga dapat disimpulkan apakah aplikasi ini merupakan sebuah aplikasi yang mampu menangani pengklasifikasian dokumen atau tidak.

  Hasil presisi didapat dari kesesuaian dokumen hasil aplikasi dengan hasil kuisioner terhadap responden Berikut ini rumus untuk mencari presisi:

BAB IIII A ANALISA A DAN PE ERANCAN NGAN

3.1 Metode Peng gembangan n Perangkat Lunak

3.1.1 A AUP( Agile Unified Prrocess)

  Metode p pengemban ngan sistem m yang dig gunakan da alam pemb buatan aplik kasi ini ad dalah AUP ( Agile Un nified Proc cess ). Deng gan menga adopsi

  classic UP P

  aktiv vitas fase e pada c ( incepti on,elaborati ion,construc ction, tran sition), AU UP mengha asilkan seria al overlay ( (linier seque ence of soft ftware

  

engi ineering a activities ) yang m memungkink kan sebua ah tim u untuk

  mem mvisualisasi ikan aliran n proses keseluruha an untuk sebuah pr royek softw ware[12].

   

   Filosofi AUP 

  AUP mengadopsi filosofi “serial in the large “ dan “iterative in the small ”.

  1. Serial in the large

  Ada 4 tahap dalam serial AUP yaitu