KLASIFIKASI DOKUMEN SKRIPSI TEKNIK INFORMATIKA DENGAN

KLASIFIKASI DOKUMEN SKRIPSI TEKNIK INFORMATIKA DENGAN

MENGGUNAKAN ALGORITMA K-MEDOID

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Komputer

Program Studi Teknik Informatika

Oleh :

Taufik

NIM : 07 5314 072

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2012

CLASSIFICATION OF INFORMATIC ENGINEERING FINAL PROJECT

DOCUMENT USING K-MEDOID ALGORITHM

A THESIS

Presented as Partial Fulfillment of the Requirements

To Obtain the Sarjana Komputer Degree

In Informatics Engineering Department

By:

Taufik

NIM : 07 5314 072

DEPARTMENT OF INFORMATIC ENGINEERING

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2012

HALAMAN PERSEMBAHAN

Tuhan tidak pernah terlambat dan tidak pula terlalu cepat. Dia tidak

selalu memberikan apa yang kita minta, tapi yakinlah Dia selalu memberi

apa yang terbaik buat kita. Karena dengan kuasa-Nya, semua akan indah

pada waktunya.

Untuk menjadi kupu-kupu yang cantik, sebuah telur membutuhkan

usaha dan proses yang panjang, begitu juga dengan sebuah kesuksesan,

dibutuhkan usaha dan proses untuk mencapainya

Skripsi ini saya persembahakan untuk Keluarga, teman- teman seperjuangan dan sahabat

Terima kasih

PERNYATAAN KEASLIAN KARYA

Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini tidak memuat karya/ bagian karya orang lain, kecuali yang telah disebutkan dalam kutipan dan daftar pustaka, sebagaimana layaknya karya ilmiah.

Yogyakarta , 24 Januari 2012 Penulis Taufik

PERNYATAAN PERSETUJUAN

Yang bertanda tangan dibawah ini, saya mahasiswa Universitas Sanata Dharma: Nama : Taufik NIM : 075314072 Demi pengembangan ilmu pengetahuan, saya memberikan kepada perpustakaan Universitas Sanata Dharma karya ilmiah saya yang berjudul :

KLASIFIKASI DOKUMEN SKRIPSI TEKNIK INFORMATIKA DENGAN

MENGGUNAKAN ALGORITMA K-MEDOID

Beserta perangkat yang diperlukan ( bila perlu ). Dengan demikian saya memberikan kepada Perpustakaan Universitas Sanata Dharma hak untuk menyimpan , mengalihkan dalam bentuk media lain, mengelolanya dalam bentuk pangkalan data, mendistribusikan secara terbatas, dan mempublikasikannya di internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya maupun memberikan royalty kepada saya selama tetap mencantumkan nama saya sebagai penulis. Demikian pernyataan ini saya buat dengan sebenarnya.

Dibuat di Yogyakarta, Pada tanggal : 24 Januari 2012 Yang menyatakan Taufik

KLASIFIKASI DOKUMEN SKRIPSI TEKNIK INFORMATIKA DENGAN

MENGGUNAKAN ALGORITMA K-MEDOID

Abstraksi

Skripsi merupakan syarat lulusnya seorang mahasiswa yang mengambil jenjang Strata 1. Oleh karena itu, seiring bertambahnya lulusan , maka bertambah pula dokumen skripsi. Dengan jumlah dokumen yang sangat besar, maka akan lebih mudah mencari suatu dokumen apabila dokumen–dokumen tersebut telah diorganisir dan dikelompokkan atau diklasifikasi sesuai dengan kategorinya. Skripsi ini bertujuan untuk membuat suatu aplikasi yang mampu mengklasifikasikan dokumen skripsi menggunakan system temu balik informasi dan dikombinasikan dengan algoritma clustering K-Medoid.

Proses clustering dokumen ini diawali dengan proses parsing, stemming , dan indeksing. Algoritma pembobotan yang digunakan adalah algoritma TF-IDF.

Secara sederhana , algoritma TF-IDF ini berkaitan dengan frekuensi kemunculan kata dalam satu dokumen dan dokumen yang lain. Dari indeks yang dihasilkan dibentuklah matrik yang merupakan representasi dari vector space model yang komponennya berupa dokumen dan term. CosSim merupakan algoritma yang digunakan untuk mengukur jarak kedekatan antar dokumen.

Untuk melakukan klasifikasi pengelompokan dokumen, digunakan algoritma clustering K- Medoid. Medoid merupakan obyek yang mempunyai nilai total jarak minimal terhadap obyek – obyek lain dalam satu cluster dan menjadi median dari cluster tersebut dan terletak paling tengah.

Pada penelitian ini dilakukan 2 jenis pengujian yaitu pengujian uji presisi dan pengujian validasi cluster. Jenis pengukuran untuk menguji validitas cluster adalah indeks Dunn. Dalam mengukur validasi cluster, hasil dari indeks dunn ini akan dikombinasikan dengan penghitungan kesamaan keyword atau term dokumen tertinggi medoid di tiap cluster. Dengan data sebanyak 200 ,untuk pengujian uji presisi yang dilakukan oleh 3 orang penguji didapatkan hasil presisi 62%, 36%, dan 44%. Sedangkan hasil dari validasi cluster dengan menggunakan indeks dunn yang dikombinasikan dengan penghitungan keyword, didapat hasil jumlah k yang ideal yaitu 7 dengan jumlah pasang keyword dengan bobot tertinggi antar medoidnya adalah 0 (nol) dan jumlah hasil perhitungan indeks

dunn

adalah 0.11044510560478325

CLASSIFICATION OF INFORMATIC ENGINEERING FINAL PROJECT

DOCUMENT USING K-MEDOID ALGORITHM

Abstract Thesis is a requirement of graduation of a student who took Strata 1.

Therefore , the concomitant increase in graduates, it also increased thesis document. With a very large number of documents,it will be easier to find a document if these documents have been organized an grouped or classified according to the category. This thesis aims to create an application that’s able to classify a thesis document using information retrieval and combined with clustering algorithm K-Medoid

This document clustering process begins with the parsing, stemming and indexing process. Weighting algorithm that used is TF-IDF algorithm. Put simply, this algorithm is related with frequency of occurance of the word in one document and another documents. The result from index processing can be used to built a Matrix representative of a vector space model. The components of this matrix is documents and terms. CosSim is an algorithm that is used to measure the proximity between documents.

To perform classification of documents, used K-Medoid clustering algorithm. Medoid is an object which has the minimum total distance value to the other objects in one cluster. And become the median from this cluster, and located at the enter of cluster.

This thesis use 2 type of testing . That is validation testing and precession testing. The type of measurements to test the validity of the cluster is dunn index.

In the cluster validation measure, the result of dunn index will be combined with the similarity calculation of the highest medoid document keyword or term in each cluster. With as much as 200 documents , for testing precission test performed by 3 examiners, the result is 62% ,36% and 44%. While the result of cluster validation using Dunn’s index that is combined with with the keyword calculation, the result for the ideal k is 7 with the pairs of keyword with the highest weight among the medoid is 0 (zero) and the result for dunn index calculation is 0.11044510560478325

KATA PENGATAR

Puji syukur kepada Tuhan Yang Maha Esa yang telah memberikan karunia kekuatan dan kesempatan sehingga penulis dapat menyelesaikan tugas akhir dengan judul “KLASIFIKASI DOKUMEN SKRIPSI DENGAN MENGGUNAKAN ALGORITMA K- MEDOID”.

Terima kasih yang sebesar-besarnya kepada semua pihak yang telah memberikan dukungan, semangat , serta bantuan sehingga penulis mampu menyelesaikan skripsi ini :

1. Bapak Yosef Agung Cahyanta,S.T.,M.T., selaku Dekan Fakultas Sains dan Teknologi Universitas Sanata Dharma Yogyakarta

2. Ibu Ridhowati Gunawan, S.Kom.,M.T. selaku ketua jurusan Program Studi Teknik Informatika Universitas Sanata Dharma Yogyakarta

3. Bapak Puspaningtyas Sanjoyo Adi S.T.,M.T., selaku dosen pembimbing atas kesabaran , saran dan waktu yang diberikan

4. Ibu Sri Hartati Wijono, S.Si.,M.Kom., dan Bapak J.B.Budi Darmawan, S.T.,M.Sc., selaku dosen penguji atas saran dan kritikannya.

5. Drs. Rubiyanto, M.,M. dan Herry Rochmanto atas dukungan moral kepada penulis

6. Kedua Orang tua saya , Bapak Kaswadi dan Ibu Khomsatun dan kakak – kakak saya ,Nur Saidah, S.Pd., Suliswati, dan Sundarwati yang telah memberikan seluruh dukungan, baik materiil maupun spiritual selama

7. Teman –Teman komunitas jimbez ( Leonardus ,S.Kom,Albertus Dio, S.Kom,Robertus Atyantama, Mariano Lucky Z, Amiko B., Markus Herjuno, Andriyudha P.Yohanes Sapto Prabowo) atas dukungan penuh yang diberikan.

8. Teman-teman TI’07 dan semua pihak yang telah berperan serta baik secara langsung maupun tidak langsung sehingga penulis mampu menyelesaikan skripsi ini. Penulis menyadari bahwa masih banyak kekurangan dalam penyusunan skripsi ini. Saran dan kritik sangat diharapkan untuk perbaikan kedepannya.

Semoga dapat bermanfaat Yogyakarta, 21 Januari 2012

Penulis

DAFTAR ISI

HALAMAN PERSETUJUAN ............................ Error! Bookmark not defined.

HALAMAN PENGESAHAN .............................. Error! Bookmark not defined.

DAFTAR TABEL

Tabel 2.1 kombinasi awalan akhiran yang tidak diijinkan ................................................ 14 Tabel 2.2 cara menentukan tipe awalan untuk kata yang diawalai dengan “te-“ .............. 14 Tabel 2.3 jenis awalan berdasarkan tipe awalannya ......................................................... 15 Tabel 3.1 Hak Akses User ................................................................................................ 40 Tabel 3.2 Use Csse ............................................................................................................ 43 Tabel 3.3 Skenario Login .................................................................................................. 45 Tabel 3.4 Skenario Insert User .......................................................................................... 46 Tabel 3.5 Skenario Delete User ........................................................................................ 47 Tabel 3.6 Skenario Insert stopword .................................................................................. 48 Tabel 3.7 Skenario Update Stopword ............................................................................... 49 Tabel 3.8 Skenario Delete Stopword ................................................................................ 50 Tabel 3.9 Skenario Insert Kata Dasar ............................................................................... 51 Tabel 3.10 Skenario Update Kata Dasar ........................................................................... 52 Tabel 3. 11 Skenario Delete Kata Dasar ........................................................................... 53 Tabel 3.12 Skenario Melakukan Klustering ..................................................................... 54 Tabel 3.13 Skenario Memasukkan Dokumen ................................................................... 55 Tabel 3.14 Skenario Lihat Cluster .................................................................................... 56 Tabel 3.15 Aktifitas Login ................................................................................................ 57 Tabel 3.16 Aktifitas Insert User ........................................................................................ 58 Tabel 3. 17 Aktifitas Delete User ...................................................................................... 59 Tabel 3.18 Aktifitas Insert stopword ................................................................................. 60 Tabel 3.19 Aktifitas Update Stopword ............................................................................. 61 Tabel 3.20 Aktifitas Delete Stopword ............................................................................... 62 Tabel 3.21 Aktifitas Insert Kata Dasar .............................................................................. 63 Tabel 3.22 Aktifitas Update Kata dsara ............................................................................ 64 Tabel 3..23 Aktifitas Delete Kata dasar ............................................................................ 65 Tabel 3.24 Aktifitas Memasukkan Dokumen ................................................................... 66 Tabel 3.25 Aktifitas Klustering ......................................................................................... 67 Tabel 3.26 Aktifitas Lihat Cluster..................................................................................... 68 Tabel 3.27 Kelas Perancangan .......................................................................................... 92 Tabel 3. 30 Diagram Relasional indek ............................................................................ 137

DAFTAR GAMBAR

BAB I PENDAHULUAN

1.1 Latar Belakang

Skripsi adalah istilah yang digunakan di Indonesia untuk mengilustrasikan suatu membahas suatu permasalahan atau fenomena dalam bidang ilmu tertentu dengan menggunakan kaidah-kaidah penulisan skripsi yang merupakan persyaratan untuk mendapatkan status sarjana (S1) di setiap Perguruan Tinggi Negeri (PTN) maupun Perguruan Tinggi Swasta (PTS) yang ada di Indonesia. Oleh karena itu seiring dengan bertambahnya jumlah lulusan, maka hal ini berbanding lurus terhadap jumlah dokumen skripsi yang dihasilkan.

Dengan jumlah dokumen yang sangat besar, maka akan lebih mudah mencari suatu dokumen apabila dokumen–dokumen tersebut telah diorganisir dan dikelompokkan sesuai dengan kategorinya. Sebuah dokumen dapat dikelompokkan kedalam kategori tertentu berdasarkan kata-kata ataupun kalimat yang ada di dalam dokumen tersebut. Pengelompokan dokumen mempunyai manfaat yang sangat besar mengingat jumlah dokumen yang terus bertambah banyak.

Pengklasifikasin dokumen skripsi secara manual akan menjadi sangat digunakan, Oleh karena itu , dibutuhkan suatu metode untuk mengelompokkan dokumen–dokumen tersebut secara otomatis Ada banyak algoritma clustering untuk mengelompokkan dokumen, salah satunya adalah algoritma K Medoid. K Medoid merupakan generalisasi dari K mean dimana algoritma ini menggunakan medoid sebagai pengganti mean. Teknik dasar dari algoritma K medoid ini adalah untuk menemukan k cluster dalam n

object dengan cara first arbitrarily finding a representative object (medoid).

Kelebihan algorima K medoid adalah mampu bekerja dengan semua jenis pengukuran (distance measures) seperti Euclidean distance, Manhattan distance atau Minkowski distance. Disamping itu algoritma ini juga mampu mengatasi masalah outliers.

Penggunaan algoritma K medoid sebagai algoritma clustering ini diharapkan mampu menghasilkan suatu aplikasi pengelompokkan dokumen yang bermanfaat bagi teknologi informasi

1.2 Rumusan Masalah

Berdasarkan latar belakang diatas, ada beberapa pokok masalah, diantaranya adalah sebagai berikut:

1. Kebutuhan akan pengklasifikasian dokumen skripsi untuk memudahkan pengorganisasian dokumen skripsi.

2. Proses clustering secara otomatis.

3. Algoritma K-Medoid mempunyai keunggulan dibandingkan dengan

Dari beberapa pokok masalah tersebut, maka dapat ditarik suatu rumusan masalah yaitu bagaimana membangun suatu aplikasi pengelompokkan dokumen skripsi teknik informatika dengan mengimplementasikan algoritma K Medoid sebagai algoritma clustering.

1.3 Tujuan Penelitian

Adapun tujuan penulisan skripsi adalah sebagai berikut:

1. Membangun sistem klasifikasi dokumen skripsi Teknik Informatika

2. Untuk melihat bagaimana performa algoritma clustering K Medoid dalam mengelompokkan sutau object yang berbentuk dokumen teks

1.4 Batasan Masalah

Adapun batasan dari aplikasi klasifikasi dokumen skripsi Teknik Informatika ini adalah sebagai berikut :

1. Dokumen yang dapat diproses adalah dokumen berbasis portable

document file( .pdf)

2. Data dokumen diambil dari judul, abstraksi skripsi Teknik Informatika Universitas Sanata Dharma dan Universitas Kristen

3. Jumlah K cluster merupakan masukan dari user

1.5 Metodologi Penelitian

Metodologi penelitian yang digunakan dalam pembuatan tugas akhir ini adalah sebagai berikut:

1. Metode pengumpulan data :

a. Studi literatur Mencari dan mengumpulkan literatur - litaratur yang berkaitan dengan permasalahan yang dikerjakan, yaitu mengenai klasifikasi dokumen dengan menggunakan algoritma K Medoid

b. Pembagian kuisioner untuk melakukan uji presisi aplikasi

2. Metode pengembangan sistem Metode pengembangan sistem yang digunakan dalam pengembangan aplikasi ini adalah AUP (Agile Unified Process).

Model ini merupakan versi sederhana dari RUP( Rational

Unified Process ). AUP mengadopsi filosofi “serial in the large” dan

“iterative in the small” untuk membangun sistem berbasis komputer[12]. Dengan model pengembangan sistem AUP ini diharapkan mampu menghasilkan aplikasi pengklasifikasian dokumen

1.6 Sistematika Penulisan

Bab I Pendahuluan Memberikan gambaran secara umum tentang isi skripsi yang meliputi: latar belakang, rumusan masalah, batasan masalah, tujuan dan manfaat, metode penelitian dan sistematika penulisan.

Bab II Landasan Teori Berisi konsep dasar sistem temu-kembali informasi (information retrieval system), bagian-bagian dari sistem temu kembali informasi, teknik-teknik temu kembali informasi dan metode klasifikasi K Medoid

Bab III Analisa dan Perancangan Berisi gambaran umum sistem, usecase diagram, sekenario perancangan, analisa peracangan, perancangan basis data, perancangan tampilan masukan dan keluaran untuk pengguna.

Bab ini menjelaskan tentang implementasi ke dalam bentuk program berdasarkan desain yang telah dibuat dan pengujian applikasi dalam bentuk olah hasil kuisioner.

Bab V Kesimpulan dan Saran Bab ini berisi semua simpulan yang didapatkan dari penelitian yang telah dilakukan. Simpulan menjawab rumusan masalah yang dituliskan pada bab pendahuluan secara ringkas dan jelas.

DAFTAR PUSTAKA LAMPIRAN

BAB II TINJAUAN PUSTAKA

2.1 Temu Kembali Informasi ( information retrieval) Information Retrieval (IR) adalah suatu bidang ilmu yang mempelajari cara-cara penelusuran atau memanggil (retrieve) kembali atas dokumen-dokumen.

Menurut Lancaster (1968) dalam Rijsbergen (1979): “Sebuah information

retrieval system (Sistem Temu-kembali Informasi) tidak memberitahu (yakni

tidak mengubah pengetahuan) pengguna mengenai masalah yang ditanyakannya.

Sistem tersebut hanya memberi-tahukan keberadaan (atau ketidakberadaan) dan keterangan dokumen-dokumen yang berhubungan dengan permintaannya”[8].

2.1 Indexing dalam information retrieval

Dalam information retrieval ( atau disingkat IR), dikenal adanya proses

indexing. Indexing merupakan suatu proses untuk melakukan pengindekkan

terhadap kumpulan dokumen. Ada beberapa tahap dalam proses pengindekkan, diantaranya adalah sebagai berikut

1. Parsing dokumen adalah pengambilan kata kata dari suatu dokumen

2. Stemming merupakan proses untuk menemukan kata dasar dari sebuah kata misalnya menyapa menjadi sapa

3. Term weight dan inverted index adalah proses pembobotan kata

2.1.1 Parsing Dokumen

Parsing

dokumen berkaitan dengan pengenalan dari isi dan struktur dari dokumen teks[6]. Parsing dokumen ini bertujuan untuk mendapatkan

term

atau kata dari suatu dokumen. Parsing merujuk pada proses pengenalan token yang terdapat dalam rangkaian teks [4]. Beberapa tahapan dalam parsing dokumen adalah tokening dan stopping.

1. Tokening Tokening merupakan proses untuk membentuk kata dari

serangkaian karakter dalam sebuah dokumen [6]. Sebuah dokumen dapat terdiri atas satu atau lebih kalimat, sedangkan kalimat sendiri terbentuk oleh satu atau lebih kata. Untuk mendapatkan sebuah kata dalam suatu dokumen, maka dilakukanlah proses pemenggalan. Proses pemenggalan kalimat untuk mendapatkan kata dinamakan tokening. Untuk lebih jelasnya , dapat kita lihat dalam ilustrasi sebagai berikut

Token Dokumen koordinat yang koordinat yang menunjukkan lokasi; menunjukkan dari citra yang mempunyai nilai keabuan; lokasi

citra yang mempunyai nilai keabuan 2.

Stopping

Bahasa manusia terisi dengan kata fungsi: kata yang mempunyai arti lebih sedikit terpisah dari kata lainnya [6]. Dalam bahasa inggris, sering dijumpai function word, sebagai contoh “ the”, “a”,”an”. Dalam

information retrieval , kata ini mempunyai second name yaitu stopword.

Dinamakan stopword karena text processing akan berhenti ketika menjumpai kata kata tersebut untuk kemudian dibuang. Contoh stopword dalam bahasa Indonesia adalah kata sambung atau konjugasi seperti “dan”, “dari” ,”sedangkan” dan lain-lain. Pada dasarnya , stopword bisa saja tidak dihilangkan jika space dalam media penyimpanannya memadai, namun tentu saja hal ini akan mengakibatkan turunnya performansi dalam pengeksekusian suatu query. Oleh karena itu, untuk menjaga maximum

flexibility , stopword dapat dihapus atau dihilangkan. Berikut ini

merupakan ilustrasi dari proses stopping

Token hasil stopping Document stopword

koordinat koordinat yang koordinat yang menunjukkan lokasi; menunjukkan dari menunjukkan

dari citra yang mempunyai nilai keabuan; lokasi

yang lokasi citra dari mempunyai citra nilai yang keabuan mempunyai nilai keabuan

2.2.2 Stemming

Stemming merupakan suatu proses untuk menemukan kata

dasar dari sebuah kata. Dengan menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan (prefixes), sisipan (infixes), akhiran (suffixes) dan confixes (kombinasi dari awalan dan akhiran) pada kata turunan. Stemming digunakan untuk mengganti bentuk dari suatu kata menjadi kata dasar dari kata tersebut yang sesuai dengan struktur morfologi Bahasa Indonesia yang baik dan benar[2].

Stemming dalam bahasa Indonesia memiliki kompleksitas yang tinggi. Hal ini dikarenakan ada beberapa aturan dalam pemberian imbuhan terhadap suatu kata, misalnya kata “baca”, jika kata tersebut diberi imbuhan “me”, maka kata yang terbentuk adalah “membaca”. Dari hasil yang terbentuk dapat kita lihat bahwa imbuhan “me” berubah menjadi “mem”. Perubahan bentuk awalan tersebut didasarkan pada huruf pertama dari kata yang dikenai awalan “me”. Contoh lain ada pada kata dasar dengan huruf pertama “s” misalnya “sapu”. Jika kata tersebut diberi awalan “me”, maka awalan tersebut akan berubah bentuk menjadi “meny”.

Ada dua teknik alternatif yang dapat digunakan untuk proses stemming bahasa Indonesia yaitu dengan menggunakan kamus, atau tanpa menggunakan kamus. Algoritma vega merupakan teknik

stemming bahasa Indonesia tanpa mengunakan kamus, sedangkan

beberapa algoritma stemming bahasa indonesia dengan menggunakan kamus diantaranya adalah algoritma nazief dan adriani dan algoritma

porter . Algortima dengan menggunakan kamus dilakukan dengan

membandingkan kata yang telah dihilangkan imbuhannya dengan kata dasar dalam kamus.

Perbedaan kedua algoritma ini terletak pada efisiensi waktu dan presisi yaitu

1. Proses stemming dokumen teks berbahasa Indonesia menggunakan Algoritma Porter membutuhkan waktu yang lebih singkat dibandingkan dengan stemming menggunakan Algoritma Nazief & Adriani.[3]

2. Proses stemming dokumen teks berBahasa Indonesia menggunakan Algoritma Porter memiliki prosentase keakuratan (presisi) lebih kecil dibandingkan dengan stemming menggunakan Algoritma Nazief & Adriani.[3]

1. Cari kata yang akan distem dalam kamus. Jika ditemukan , maka diasumsikan bahwa kata tersebut adalah rootword, maka algoritma berhenti

2. Inflection suffixes (“lah”,”kah”,”ku”,”mu”,”nya”) dibuang. Jika berupa partikel(“lah”,”kah”,”pun”,”tah”), maka langkah ini diulangi lagi untuk menghapus possessive pronouns (“lah”,”kah”,”ku”,”mu”), jika ada.

3. Hapus derivation suffixes (“I”,”an”,”kan”). Jika kata ditemukan di kamus maka algoritma berhenti, jika tidak maka lanjut ke langkah 3a

a. Jika “an” telah dihapus dan huruf terakhir dari kata tersebut adalah “k”, maka “k” ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lanjut ke langkah 3b.

b. Akhiran yang dihapus (“I”,”an”,”kan”) dikembalikan , lanjut ke langkah 4.

4. Hapus derivation prefix. Jika pda langkah 3 ada suffix yang dihapus, maka pergi ke langkah 4a. Jika tidak , pegi kelangkah 4b.

a. Periksa table kombinasi awalan akhiran yang tidak diijinkan.

Jika ditemukan maka algoritma berhenti, jika tidak pergi ke langkah 4b. b. For i=1 to 3,tentukan tipe awalan kemudian hapus awalan, jika root word belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti. Catatan : jika awalan kedua dan awalan pertama sama , maka algoritma berhenti.

5. Melakukan recording

6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai.

Tipe awalan ditentukan melalui langkah langkah berikut

1. Jika awalannya adalah: “di”,”ke”,”se”, maka tipe awalannya secara berturut turut adalah “di”,”ke”,”se”.

2. Jika awalannya adalah “te”,”me”,”be”,”pe”, maka dibutuhkan sebuah proses tambahan untuk menentukan tipe awalnnya.

3. Jika dua karakter pertama bukan “di”,”ke”,”se”,”te”,”be”,”me” atau “pe” maka berhenti.

4. Jika tipe awalan adalah “none” maka berhenti, jika tipe awalan adalah bukan ‘none” maka awalan dapat dilihat pada table 2.2.

Hapus awalan jika ditemukan.

Awalan Akhiran yang tidak di ijinkan Be I

Di An Ke i,kan

Se i,kan

Tabel 2.1 kombinasi awalan akhiran yang tidak diijinkan

following character tipe set1 set2 set3 set4 awalan

"-r-" "-r" None "-r-" Vowel ter-luluh not (vowel or "-r-

"-r-" ") "-er_" vowel Ter not (vowel or "-r- not "-r-" ") "-er-" vowel Ter not (vowel or "-r- not "-er- "-r-" ") " Ter not (vowel or "-r-

") "-er-" Vowel None not (vowel or "-r- not ") "-er-" vowel Te

Tabel 2.2 cara menentukan tipe awalan untuk kata yang diawalai dengan “te-“

Tipe awalan Awalan yang dihapus di- di- Ke- Ke-

Se- Se- Te- Te-

Ter- Ter Ter-luluh Ter

Tabel 2.3 jenis awalan berdasarkan tipe awalannya

2.3 Pembobotan kata

Index bobot kata menggambarkan kepentingan relatif dari kata dalam dokumen , dan digunakan dalam menghitung skor untuk ranking[6]. Dalam menetukan bobot suatu istilah tidak hanya berdasarkan frekuensi kemunculan istilah di satu dokumen, tetapi juga memperhatikan frekuensi terbesar pada suatu istilah yang dimiliki oleh dokumen bersangkutan[1].

Teknik yang sering digunakan dalam pemberian bobot adalah teknk TF/IDF(term frequency/inverse document frequency). Term frequency adalah jumlah kemunculan suatu kata dalam sebuah dokumen , sedangkan inverse term

frequency adalah inverse dari banyaknya dokumen dimana suatu term tersebut muncul.

Berikut ini adalah rumus pembobotan TF/IDF

w (t,d) = tf t d * idf t = tf (t d) * log (N/dt)

w = _{(t,d ) bobot dari term (kata) dalam document d} tf t d = frekuensi kemunculan tern (kata) dalam

dokumen d

idf _{t = inverse document frequency dari kata t} N = jumlah seluruh dokumen dt

= jumlah dokumen yang mengadung term (kata) t

2.4 Model Ruang Vektor/ Vetor Space Model Model ini diperkenalkan oleh salton[7] dan telah dipergunakan secara luas.

Dalam model ini, dokumen dan query diasumsikan menjadi bagian dari t-

dimensional vector space

, dimana t adalah jumlah dari index term( kata, stems, frase , dan lain-lain[6].

Dalam model ruang vector, koleksi dokumen direpresentasikan dengan matrik term document. Misalkan terdapat sekumpulan kata T sejumlah n , yaitu T=(T

1 ,T 2 ,…..T n ) dan sekumpulan dokumen D yaitu D=(D 1 ,D 2 ,….D n ), dan w ij

adalah bobot kata i pada dokumen j, maka representasi matrik term document adalah

1 T

2 ........T n

1 W

11 W

12 ......W 1n

2 W

21 W

22 ......W 2n

: : : : : : : :

D m W 1m W 2m ....W nm Pada model ini:

1. Vocabulary merupakan kumpulan semua term berbeda yang tersisa dari dokumen setelah preprocessing dan mengandung t term index.

Term-term ini membentuk suatu ruang vector

2. Setiap term i di dalam dokumen atau query j, diberikan suatu bobot (weight) bernilai real wij

3. Dokumen dan query diekspresikan sebagai vektor t dimensi dj = (w1, w2, ..., wtj) dan terdapat n dokumen di dalam koleksi, yaitu j = 1, 2, ..., n. Contoh dari model ruang vektor tiga dimensi untuk dua dokumen D1 dan

D2, satu query pengguna Q1, dan tiga term T1, T2 dan T3 diperlihatkan pada

Gambar r 2.1Model l ruang vek ktor

Se emakin deka at dua vecto or dalam mo odel ruang v vector, mak ka semakin mirip pula dua dokumen y yang diwak kili oleh du ua vector t teresebut. K Kemiripan suatu dokumen dapat dihit tung dengan n menggun akan fungs i similarity y measure. Salah

milarity. C Cosine

satu ukur ran kemirip pan teks ya ang popula r[5] adalah h cosine sim

similarity menghitun g sudut yan ng terbentuk k antara sua atu query d dengan doku umen.

Semakin b besar nilai c cosines yan ng dihasilka an, maka se emakin miri ip pula doku umen tersebut t erhadap qu uery. Beriku ut ini meru upakan form mula dari c cosine simi ilarity dengan Q adalah que ry dan D ad dalah dokum men

2.5 Algoritma Klasifikasi K-Medoid

Algoritma klasifikasi K-Medoid merupakan variant dari algoritma K- Means. Mean value object cluster dari object cluster sebagai reference point dapat digantikan dengan medoid yang mana object dari medoid ini berada lebih central dalam sebuah object cluster.

Algoritma K-Medoid adalah sebuah classical partitioning technique dari

clustering yang mengelompokkan data set dari n objects kedalam k clusters yang

disebut apriori[9].

Algoritma K-medoid terdiri dari 3 langkah yaitu: Langkah 1 : (memilih initial medoids)

1-1. Menggunakan Euclidean distance sebagai pengkuran, komputasikan jarak antara setiap pasang dari semua object 1 … . . ; 1 … … . .

1-2. Hitung P ij untuk m enc ari dugaan awal pusat cluster 1 … , ; 1 … , ∑

1-3. Hitung di tiap-tiap object dan urutkan secara ascending . Pilih k object yang mempunyai nilai paling minimum sebagai initial group

medoids .

1 … 1-4. Tandai tiap tiap object ke medoid terdekat.

1-5. Hitung current optimal value, jumlah jarak dari semua object ke medoid masing masing yang mempunyai jarak terpendek Langkah 2 : (menemukan medoid baru)

Ganti current medoid di tiap tiap cluster dengan object yang meminimalkan jarak total ke object lain dalam cluster tersebut Langkah 3 : (New assignment) 3-1. Masukkan tiap object ke medoid baru yang terdekat.

3-2. Hitung optimal value yang baru,jumlah jarak dari semua object ke masing masing medoid, jika optimal value sama dengan medoid optimal value sebelumnya , maka berhenti. Jika tidak , maka ulangi langkah 2.

Keunggulan algoritma K-Medoid dibandingkan dengan algoritma K- Means adalah algoritma K-Medoid lebih kuat dalam menangani nooise dan

outliers

[10]. Selain itu, jenis pengukuran yang dapat diterapkan dalam algoritma ini pun tidak hanya Ecludian Distance. Namun , baik K-mean maupun K-Medoid memerlukan user untuk menentukan k, yaitu jumlah cluster[10].

Berikut ini merupakan contoh pengklusteran dengan menggunakan algoritma K- medoid Obyek ke x y

1 2 6 2 3 4 3 3 8 4 4 7 5 6 2 6 6 4 7 7 3 8 7 4 9 8 5 10 7 6

Diketahui soal seperti diatas dana akan dikelompokkan dengan

Langkah 1.1: hitung jaran antar object dengan menggunakan ecludian

distance

Obj ke

7 1 0 2.236068 2.236068 2.236068 5.656854 4.472136 5.830952 2 2.236068 0 4 3.162278 3.605551 3 4.123106 3 2.236068 4 0 1.414214 6.708204 5 6.403124 4 2.236068 3.162278 1.414214 0 5.385165 3.605551

5 5 5.656854 3.605551 6.708204 5.385165 2 1.414214 6 4.472136 3 5 3.605551 2 0 1.414214 7 5.830952 4.123106 6.403124 5 1.414214 1.414214 8 5.385165 4 5.656854 4.242641 2.236068 1 1 9 6.082763 5.09902 5.830952 4.472136 3.605551 2.236068 2.236068

10 5 4.472136 4.472136 3.162278 4.123106 2.236068

3 Obj ke 8 9 10 1 5.38516 6.082763

5 2 4 5.09902 4.472136 3 5.65685 5.830952 4.472136 4 4.24264 4.472136 3.162278 5 2.23607 3.605551 4.123106

6 1 2.236068 2.236068 7 1 2.236068 3 8 0 1.414214 2 9 1.41421 0 1.414214

710 2 1.414214 0 Kemudian langkah ke 1.2 yaitu hitung P

Obj ke 1 2 3 4 5 6 7 1 0 0.071072 0.053595 0.068422 0.162859 0.179143 0.191671 2 0.057136 0 0.095874 0.096764 0.103803 0.120173 0.135532 3 0.057136 0.127137 0 0.043274 0.193127 0.200288 0.210479 4 0.057136 0.100511 0.033896 0 0.155037 0.14443 0.164356 5 0.144543 0.1146 0.160785 0.164783 0 0.080115 0.046487 6 0.114271 0.095353 0.119842 0.110328 0.057579 0 0.046487 7 0.148992 0.13105 0.153473 0.152997 0.040715 0.05665 8 0.137601 0.127137 0.135586 0.129822 0.064376 0.040058 0.032871 9 0.155426 0.162069 0.139759 0.136845 0.103803 0.089572 0.073502

10 0.127759 0.142144 0.10719 0.096764 0.118703 0.089572 0.098614 Obj ke

10 1 0.199932 0.18779 0.167336

2 0.148506 0.15742 0.14967 3 0.210019 0.18002 0.14967 4 0.157514 0.13807 0.105833 5 0.083017 0.11131 0.137989 6 0.037126 0.06903 0.074835 7 0.037126 0.06903 0.100402 8 0 0.04366 0.066935 9 0.052505 0.04733

10 0.074253 0.04366 Langkah ke 1.3 hitung Sigma P

Pj Pij 1 1.281823

2 1.064878 3 1.371148 4 1.056781 5 1.043633 6 0.724856 7 0.890438 8 0.778046 9 0.96081

10 0.898659 Langkah 1.4 Dari tabel diatas didapat 2(k=2) object dengan nilai paling minimal yaitu obyek ke 6 dan 8,lalu masukkan obyek ke pusat (medoid) terdekat sehingga didapat hasil sebagai berikut: anggota 6(cluster 1) 1,2,3,4,5,6 anggota 8( cluster 2) 7,8,9,10

Langkah 1.5 hitung current optimal value CURRENT PUSAT 6 (cluster1) 18.07769 CURRENT PUSAT 8 (cluster 2) 4.414214

Langkah 2 Ganti medoid sekarang dengan obyek yang mempunyai total distance paling minimal ke objek lain .

Cluster 1: cluster 2: 1 16.83719

2 16.0039

3 19.35849 4 15.80328 5 23.35577 6 18.07769

9 5.064495 10 6.414214 Medoid yang baru adalah obyek ke 2 dan 8 Langkah 3.1 masukkan obyek ke medoid baru yang terdekat; anggota 2 (cluster 1) 1,2,3,4 anggota 8 (cluster 2) 5,6,7,8,9,10

Langkah 3.2 hitung current optimal value baru, jika sama dengan current

optimal value sebelumnya maka berheti , jika tidak sama maka ulangi ke langkah

2 current opt val cluster 1 9.398346 current opt val cluster 2 7.650282 Karena berbeda , maka kembali ke langkah 2 yaitu menemukan medoid baru.

Cluster 1 : cluster 2: 5 13.37894

1 6.708204

6 8.88635 2 9.398346 7 9.064495 3 7.650282

8 7.650282

4 6.812559 9 10.90611 10 12.77339

Dari perhitungan diatas maka didapatkan medoid yang baru yaitu 1 dan 8 Langkah 3.1 , hitung current optimal value : current optimal value cluster 2 7.650282 Karena masih berbeda maka kembali ke langkah 2 yaitu masukkan objek ke medoid terdekat dimana medoid tersebut adalah 1 dan 8. Karena medoid yang didapatkan sama , maka anggota cluster pus sama sehingga current optimal value yang didapatkan sama .Karena current optimal value yang didapatkan sama dengan yang sebelumnya, maka algoritma berhenti disini dengan hasil Cluste1 cluster2 5 13.37894

1 6.708204

6 8.88635 2 9.398346 7 9.064495 3 7.650282

8 7.650282

4 6.812559 9 10.90611 10 12.77339

2.6 Evaluasi Pengujian Sistem

Untuk melihat bagaimana kualitas cluster yang terbentuk , maka dilakukan pengujian berdasarkan evaluasi kuantitatif(validasi cluster) dan berdasarkan isi( uji presisi). Berikut ini penjelasan tentang evaluasi pengujian yang akan dilakukan

2.6.1 Validasi Cluster

Indeks validitas cluster digunakan sebagai metode validasi cluster untuk evaluasi kuantitatif dari hasil clustering . beberapa indeks yang biasa digunakan adalah : Hubert Statistic, Indeks Dunn, Indeks Davies-Bouldin, Root-means- square standard deviation.[15] Indeks yang akan digunakan untuk menguji validitas cluster yang terbentuk nantinya adalah indeks Dunn. Berikut ini merupakan formula dari

indeks Dunn

, min min

′ ,

Dengan d(i,j) merupakan jarak antara cluster i dan cluster j, dan d’(k) merupakan jarak maksimal intra cluster dari cluster k.

Bentuk sederhana dari formula tersebut diatas adalah sebagai berikut : D

Dimana dmin merupakan jarak paling minimal antar 2 object di cluster yang berbeda sedangkan dmax adalah jarak terbesar antar dua objek dalam satu cluster( kadang disebut dengan diameter).

Pada dasarnya indeks Dunn bekerja dengan cara mencari jarak terpendek antar cluster dan mencari jarak terjauh antar objek dalam satu clusters, sehingga didapat tingkat kepadatan cluster dan tingkat isolasi satu cluster dengan cluster lain, semakin tinggi indeks yang dihasilkan , maka solusi clustering tersebut

2.6.2 Uji Presisi

Evaluasi pengujian yang kedua bertujuan untuk melihat presisi dari hasil yang didapat sehingga dapat disimpulkan apakah aplikasi ini merupakan sebuah aplikasi yang mampu menangani pengklasifikasian dokumen atau tidak.

Hasil presisi didapat dari kesesuaian dokumen hasil aplikasi dengan hasil kuisioner terhadap responden Berikut ini rumus untuk mencari presisi:

BAB IIII A ANALISA A DAN PE ERANCAN NGAN

3.1 Metode Peng gembangan n Perangkat Lunak

3.1.1 A AUP( Agile Unified Prrocess)

Metode p pengemban ngan sistem m yang dig gunakan da alam pemb buatan aplik kasi ini ad dalah AUP ( Agile Un nified Proc cess ). Deng gan menga adopsi

classic UP P

aktiv vitas fase e pada c ( incepti on,elaborati ion,construc ction, tran sition), AU UP mengha asilkan seria al overlay ( (linier seque ence of soft ftware

engi ineering a activities ) yang m memungkink kan sebua ah tim u untuk

mem mvisualisasi ikan aliran n proses keseluruha an untuk sebuah pr royek softw ware[12].

Filosofi AUP

AUP mengadopsi filosofi “serial in the large “ dan “iterative in the small ”.

1. Serial in the large

Ada 4 tahap dalam serial AUP yaitu

KLASIFIKASI DOKUMEN SKRIPSI TEKNIK INFORMATIKA DENGAN

HALAMAN PERSEMBAHAN

PERNYATAAN KEASLIAN KARYA

PERNYATAAN PERSETUJUAN

KLASIFIKASI DOKUMEN SKRIPSI TEKNIK INFORMATIKA DENGAN

KATA PENGATAR

BAB I PENDAHULUAN

1.1 Latar Belakang

1.2 Rumusan Masalah

1.5 Metodologi Penelitian

1.6 Sistematika Penulisan

BAB II TINJAUAN PUSTAKA

5. Melakukan recording

2.3 Pembobotan kata

2.4 Model Ruang Vektor/ Vetor Space Model Model ini diperkenalkan oleh salton[7] dan telah dipergunakan secara luas.

2.5 Algoritma Klasifikasi K-Medoid

2.6 Evaluasi Pengujian Sistem

BAB IIII A ANALISA A DAN PE ERANCAN NGAN

3.1 Metode Peng gembangan n Perangkat Lunak

Dokumen yang terkait

PENGEMBANGAN SISTEM ALUR KERJA (WORKFLOW) DOKUMEN PROSEDUR PENGAJUAN PROPOSAL SKRIPSI DENGAN ALFRESCO ENTERPRISE CONTENT MANAGEMENT (ECM), STUDI KASUS : PROGRAM STUDI TEKNIK INFORMATIKA UIN JAKARTA.

RINCIAN KLASIFIKASI DOKUMEN

JADWAL SIDANG SKRIPSI TEKNIK INFORMATIKA PRIODE GELOMBANG 1 JADWAL SIDANG SKRIPSI TEKNIK INFORMATIKA PRIODE GELOMBANG 1 | STMIK IKMI Cirebon Jadwal Sidang Gel 1

KATALOG SKRIPSI ONLINE PADA PROGRAM STUDI TEKNIK INFORMATIKA

07miu122nely KAJIAN SISTEM MONITORING DOKUMEN AKREDITASI TEKNIK INFORMATIKA UNIKOM Majalah Ilmiah Unikom

SKRIPSI TEKNIK INFORMATIKA ( 1)

SKRIPSI TEKNIK INFORMATIKA IM PLEMENTASI

SKRIPSI TEKNIK INFORMATIKA TAMPILAN KRIP

PANDUAN SKRIPSI PROGRAM STUDI TEKNIK INFORMATIKA

KLASIFIKASI DOKUMEN SKRIPSI TEKNIK INFORMATIKA MENGGUNAKAN METODE ROCCHIO SKRIPSI

Dukungan

Links

KLASIFIKASI DOKUMEN SKRIPSI TEKNIK INFORMATIKA DENGAN

HALAMAN PERSEMBAHAN

PERNYATAAN KEASLIAN KARYA

PERNYATAAN PERSETUJUAN

KLASIFIKASI DOKUMEN SKRIPSI TEKNIK INFORMATIKA DENGAN

KATA PENGATAR

BAB I PENDAHULUAN

1.1 Latar Belakang

1.2 Rumusan Masalah

1.5 Metodologi Penelitian

1.6 Sistematika Penulisan

BAB II TINJAUAN PUSTAKA

5. Melakukan recording

2.3 Pembobotan kata

2.4 Model Ruang Vektor/ Vetor Space Model Model ini diperkenalkan oleh salton[7] dan telah dipergunakan secara luas.

2.5 Algoritma Klasifikasi K-Medoid

2.6 Evaluasi Pengujian Sistem

BAB IIII A ANALISA A DAN PE ERANCAN NGAN

3.1 Metode Peng gembangan n Perangkat Lunak

Dokumen yang terkait

PENGEMBANGAN SISTEM ALUR KERJA (WORKFLOW) DOKUMEN PROSEDUR PENGAJUAN PROPOSAL SKRIPSI DENGAN ALFRESCO ENTERPRISE CONTENT MANAGEMENT (ECM), STUDI KASUS : PROGRAM STUDI TEKNIK INFORMATIKA UIN JAKARTA.

RINCIAN KLASIFIKASI DOKUMEN

JADWAL SIDANG SKRIPSI TEKNIK INFORMATIKA PRIODE GELOMBANG 1 JADWAL SIDANG SKRIPSI TEKNIK INFORMATIKA PRIODE GELOMBANG 1 | STMIK IKMI Cirebon Jadwal Sidang Gel 1

KATALOG SKRIPSI ONLINE PADA PROGRAM STUDI TEKNIK INFORMATIKA

07miu122nely KAJIAN SISTEM MONITORING DOKUMEN AKREDITASI TEKNIK INFORMATIKA UNIKOM Majalah Ilmiah Unikom

SKRIPSI TEKNIK INFORMATIKA ( 1)

SKRIPSI TEKNIK INFORMATIKA IM PLEMENTASI

SKRIPSI TEKNIK INFORMATIKA TAMPILAN KRIP

PANDUAN SKRIPSI PROGRAM STUDI TEKNIK INFORMATIKA

KLASIFIKASI DOKUMEN SKRIPSI TEKNIK INFORMATIKA MENGGUNAKAN METODE ROCCHIO SKRIPSI

Dokumen yang Anda mencari sudah siap untuk unduhkan