KLASIFIKASI DOKUMEN SKRIPSI TEKNIK INFORMATIKA MENGGUNAKAN METODE ROCCHIO SKRIPSI

  

KLASIFIKASI DOKUMEN SKRIPSI

TEKNIK INFORMATIKA

MENGGUNAKAN METODE ROCCHIO

SKRIPSI

Diajukan untuk memenuhi salah satu syarat

Memperoleh Gelar Sarjana Teknik

  

Program Studi Teknik Informatika

Disusun oleh:

Andreas Hemawan Tri Nurdianto

  

NIM : 055314017

JURUSAN TEKNIK INFORMATIKA

FAKULTAS SAINS dan TEKNOLOGI

UNIVERSITAS SANATA DHARMA

  

CLASSIFICATION OF INFORMATIC ENGINEERING

FINAL PROJECT DOCUMENT

USING ROCCHIO METHOD

A THESIS

Presented as Partial Fulfillment of the Requirements

To Obtain the Sarjana Teknik Degree

  

In Informatics Engineering Department

By :

Andreas Hemawan Tri Nurdianto

  

NIM : 055314017

DEPARTMENT OF INFORMATICS ENGINEERING

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

HALAMAN MOTTO

  

“ Jika permainan telah dimulai janganlah mundur walaupun sering gagal

dalam melewati tiap level dalam permainan, tetaplah mencoba dan jangan

menyerah karena semua pasti akan ada jalan menuju ke kebahagiaan “

  

Bocah bagus anakku lanang,

Aja wedi , goleko pepadhange dalan, ora kendhat anggonku ngengudhang,

Duh bocah bagus anakku lanang,

Wong tua dudu raja, sing dak wariske dudu bandha donya,

  

Sangumu mung isi pitutur , muga dadi titah kang luhur.

  

Anak lanang bagusing ati,

Aja lali anggonmu memuji, Marang Gusti kang murbeng dumadi,

Mugo dadi padhange ati.

Urip ing ndonya iku sadhelo,

Urip ing kono koyo samudro,

  

Mula ngger, ojo wegah podho tetanen, ing kono mbesuk bakal panen.

  

Bocah bagus anakku lanang,

Aja nganti ninggal piwulang, mumpung jembar goleko pepadhang,

Ojo jirih ing pepalang.

Sejatine ora ono opo – opo,

  

Sejatine jagad awujud suwung, ora warno lan ora rupo,

Sing ana mung awing

  • – uwung.

  

Akehing bandha dudu ukuran,

Drajat lan pangkat dudu takeran,

Lan pepujane rasa dudu anak, pagering jiwo dudu sanak.

Wong tuwamu dudu dewo, ora wenang nulis garise manungso,

PERNYATAAN KEASLIAN KARYA

  

Saya menyatakan sesungguhnya bahwa skripsi yang saya tulis ini tidak

memuat karya orang lain kecuali telah disebutkan dalam kutipan atau daftar

pustaka, sebagaimana layaknya karya ilmiah. Yogyakarta, September 2010 Penulis,

  Andreas Hemawan T. N

PERNYATAAN PERSETUJUAN

  Yang bertanda tangan di bawah ini, saya mahasiswa Universitas Sanata Dharma : Nama : Andreas Hemawan Tri Nurdianto NIM : 055314107 Demi pengembangan ilmu pengetahuan,saya memberikan kepada perpustakaan

  Universitas Sanata Dharma karya ilmiah saya yang berjudul :

KLASIFIKASI DOKUMEN SKRIPSI

TEKNIK INFORMATIKA MENGGUNAKAN METODE ROCCHIO

  Beserta perangkat yang diperlukan (bila ada). Dengan demikian saya memberikan kepada Perpustakaan Universitas Sanata Dharma hak untuk menyimpan, mengalihkan dalam bentuk media lain, mengelolanya dalam bentuk pangkalan data, mendistribusikannya secara terbatas dan mempublikasikannya di internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya maupun memberikan royalty kepada saya selama tetap mencantumkan nama saya sebagai penulis. Demikian pernyataan ini yang saya buat dengan sebenarnya.

  Dibuat di Yogyakarta, Pada tanggal : September 2010

  

ABSTRAK

  Skripsi merupakan tugas akhir mahasiswa sebagai syarat kelulusan. Setiap tahun skripsi akan terus bertambah banyak seiring dengan kelulusan mahasiswa. Sebagai akibatnya jumlah informasi yang didapat dari skripsi akan terus bertambah banyak. Skripsi ini bertujuan membuat suatu aplikasi yang dapat mengklasifikasikan skripsi berdasarkan dokumen

  • – dokumen abstrak yang telah ada. Menggunakan teknik sistem temu kembali informasi .

  Sistem temu kembali informasi (information retrieval system) digunakan untuk menemukan kembali (retrieve) informasi - informasi yang relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi secara otomatis. Dengan sistem informasi temu kembali, terdapat dua proses penting yaitu proses indexing dan pencarian dokumen. Proses indexing adalah proses pemberian bobot kata berdasarkan frekuensi kemunculan kata pada satu dokumen dan menyimpannya kedalam koleksi dalam database yang disebut index. Index yang terbentuk dapat digunakan untuk pencarian dokumen yang sesuai dengan query user, dimana hasil pencarian disusun berdasarkan tingkat kemiripan dokumen. Proses pencarian kemiripan inilah yang digunakan untuk melakukan klasifikasi dokumen atau teks.

  Untuk melakukan klasifikasi digunakan vector space model dengan term (kata) sebagai pembentuk ruang vektor. Setiap vektor term mengandung bobot yang digunakan untuk menghitung tingkat kemiripan dokumen. Tingkat kemiripan dokumen dihitung menggunkan cosinus similarty. Untuk klasifikasi dokumen menggunakan algoritma rocchio. Dalam algoritma rocchio terdapat 2 proses penting yaitu training dan testing. Proses training dilakukan secara manual, betujuan untuk membetuk model dokumen yang merupakan centroid dari sebuah kategori dokumen. Kategori dokumen yang digunakan adalah basisdata, jaringan dan komputasi. Proses testing adalah proses pengujian dimana dokumen akan secara otomatis diklasifikasikan oleh sistem.

  Skripsi ini menggunakan 60 dokumen abstrak skripsi sebagai model

  training

  dan 10 dokumen abstrak skripsi untuk pengujian. Untuk menghitung

  

ABSTRACT

  Thesis is the final project, students as a condition of graduation. Each year the paper will continue to grow much in line with the graduation of students. As a result of information obtained from theses will continue to increase. This thesis aims to create an application that can classify the thesis based on the document - the document has no abstract. The methodology used is the information retrieval system.

  Information retrieval system (information retrieval system) used to find the back (retrieve) information - information that is relevant to the needs of users from a collection of information automatically. With information retrieval systems, there are two important processes: process indexing and searching documents. Indexing process is the process of weighting by frequency of occurrence of words in a word document and save it into a collection in a database called the index. Index that is formed can be used to search according to user queries, where search results have been prepared based on the similarity of the relevant documents to irrelevant documents based on similarities in the training documents with user queries. Similarity search process is used to perform the classification of documents or texts.

  This thesis documents menggunkan 60 abstract theses as a model training and 10 thesis abstracts documents for testing. Precision is done by comparing the

KATA PENGANTAR

  Puji syukur kepada Tuhan Yang Maha Esa karena atas segala berkat dan rahmat- Nya penulis dapat menyelesaikan skripsi dengan judul “Klasifikasi

  Dokumen Skripsi Teknik Informatika Menggunakan Metode Rocchio ”.

  Penulisan skripsi ini diajukan untuk memenuhi salah satu syarat memperoleh gelar Sarjana Teknik Program Studi Teknik Informatika Universitas Sanata Dharma Yogyakarta.

  Dengan terselesaikannya penulisan skripsi ini, penulis mengucapkan terima kasih kepada pihak-pihak yang telah membantu memberikan dukungan baik berupa masukan ataupun berupa saran. Ucapan terima kasih ditujukan kepada :

  1. Bapak dan Ibu yang telah memberi dukungan kepada penulis baik moral, spiritual maupun material selama masa studi.

  2. Bapak Puspaningtyas Sanjaya Adi, S.T., M.T. selaku Ketua Jurusan Teknik Informatika Fakultas Sains dan Teknologi Universitas Sanata Dharma Yogyakarta dan dosen pembimbing yang telah memberikan dukungan, bantuan dan dorongan kepada penulis selama mengikuti proses perkuliahan sampai dengan penyelesaian skripsi ini.

  3. Bapak Yosef Agung Cahyanta,.S.T,M.T. selaku Dekan Fakultas Sains dan Teknologi Universitas Sanata Dharma Yogyakarta.

  4. Kakak dan Adik tersayang atas doa dan dukungannya.

  5. Y.Yeni Setiawan, Hendri Cahyana, Ig. Dimas Sukma Sadewa, Cahyo Herdian, Nikolas Niko, Charli Saragih, Y.F Dyna Sulistiyowati, Y. Santo Dwi, Agung Pratnyawan, Andrianto, Adi Susila, semua teman-teman Teknik Informatika angkatan 2005 dan 2006 yang telah menemani dan memberi semangat yang sangat berarti sehingga akhirnya skripsi ini dapat

  Dalam penulisan skripsi ini, pastilah masih banyak kekurangan dan hal yang perlu diperbaiki. Oleh karena itu saran dan kritik dari pembaca yang sekiranya dapat membangun sangat penulis harapkan.

  Akhir kata, semoga penulisan skripsi ini berguna untuk menambah wawasan ataupun menjadi referensi bagi para pembaca sekalian khususnya pada mahasiswa Teknik Informatika.

  Yogyakarta, 17 September 2010 Penulis

  

DAFTAR ISI

  HALAMAN JUDUL INDONESIA ........................................................................ .i HALAMAN JUDUL ENGLISH............................................................................ .ii HALAMAN PERSETUJUAN .............................................................................. .iii HALAMAN PENGESAHAN ................................................................................ iv

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

   Lampiran 1

  ……………….……………………………………………...…….....60 Lampiran 2 ……………….……………………………………………...……......73 Lampiran 3 ……………….……………………………………………...……......92 Lampiran 4 ……………….……………………………………………...……......93 Lampiran 5 ……………….……………………………………………...……....125 Lampiran 6 ……………….……………………………………………...……....133 Lampiran 7 ……………….……………………………………………...……....143 Lampiran 8 ……………….……………………………………………...……....148

  

DAFTAR TABEL

Tabel 2.1. Kombinasi Awalan Akhiran yang Tidak Diijinkan ............................. 10Tabel 2.2. Cara Menentukan Tipe Awalan Untuk Kata yang Diawali dengan “te-”

  

Tabel 2.3. Jenis Awalan Berdasarkan Tipe Awalannya ........................................ 11Tabel 2.4. Pembobotan (TF/IDF) Dokumen ......................................................... 13Tabel 2.5 Pencarian centroid kategori .................................................................. 18Tabel 2.6 Contoh dokumen query ......................................................................... 20Tabel 2.7 Dasar perhitungan Similarity ................................................................ 20Tabel 3.8 Tabel aktor yang terlibat ....................................................................... 30Tabel 3.9 Tabel Use Case...................................................................................... 31Tabel 3.10 Tabel Skenario Use Case .................................................................... 33Tabel 3.11 Tabel Realisasi Use Case .................................................................... 34Tabel 3.12 Tabel Kelas Perancangan .................................................................... 36Tabel 3.13 Tabel Prototype Antarmuka ................................................................ 41Tabel 4.14 Implemantasi antarmuka ..................................................................... 46Tabel 4.15 Implemantasi Kontrol ......................................................................... 48Tabel 4.16 Implementasi Model ........................................................................... 48Tabel 4.17 Implementasi Entity / Tabel ................................................................ 51Tabel 4.18 Hasil perhitungan similarity sistem..................................................... 52Tabel 4.19 Hasil kuisioner responden ................................................................... 52Tabel 4.20 Hasil Precision .................................................................................... 53Tabel 4.21 Daftar term yang masuk dalam 3 kategori .......................................... 53Tabel 4.22 Daftar term yang masuk dalam 3 kategori

  …………………...…….. Tabel 5.23

  Atribut dan Metode…………………………………………...……

Tabel 5.24 Daftar Call Procedur

  ………………………………………………...146

  

DAFTAR GAMBAR

Gambar 2.1 Proses parsing kata .............................................................................. 7Gambar 2.2 Proses stoplist ...................................................................................... 8Gambar 2.3 Ilustrasi Algoritma TF-IDF ............................................................... 13Gambar 2.4 Ilustrasi perhitungan centroid ............................................................ 18Gambar 3.5 Gambar proses klasifikasi keseluruhan ............................................. 25Gambar 3.6 Gambar Proses indexing(a), pembuatan model(b) ............................ 26Gambar 3.7 Gambar Proses Klasifikasi ................................................................ 27Gambar 3.8 Gambar model proses indexing ......................................................... 27Gambar 3.9 Gambar model klasifikasi dokumen .................................................. 28Gambar 3.10 Gambar Proses Pencarian Dokumen ............................................... 29Gambar 3.11 Diagram Use Case ........................................................................... 31Gambar 3.12 Class diagram ................................................................................. 42Gambar 3.13 Rancangan database ........................................................................ 43

BAB I PENDAHULUAN

1.1 Latar Belakang

  Skripsi merupakan tugas akhir mahasiswa sebagai syarat kelulusan. Setiap tahun skripsi akan terus bertambah banyak seiring dengan kelulusan mahasiswa.

  Sebagai akibatnya jumlah informasi yang didapat dari skripsi akan terus bertambah banyak.

  Banyaknya informasi seharusnya memberikan manfaat bagi user. Namun terkadang tidak mudah untuk mengetahui informasi yang berkaitan. Kerterbatasan waktu atau mungkin perangkat bisa menjadi penyebabnya. Oleh karena itu, dibutuhkan suatu metode pengelompokkan dokumen skripsi untuk mempermudah dalam pengambilan informasi sesuai kebutuhan user. Klasifikasi merupakan salah satu metode yang dapat digunakan untuk menemukan keterkaitan antar dokumen.

  Tujuan klasifikasi adalah untuk memisahkan sekumpulan dokumen ke dalam beberapa kelompok atau kelas dengan menilai kemiripan antar dokumen dari segi konten. Pengelompokan skripsi - skripsi yang saling berkait ini, akan membantu user untuk menemukan informasi yang dibutuhkan.

  Ada banyak metode klasifikasi dokumen. Disini penulis menggunakan metode klasifikasi berbasis vector space yang merepresentasikan dokumen tersebut. Kesamaan antar dokumen dihitung menggunakan perhitungan yang berbasis fitur vector seperti cosine measure.

  Pada skripsi ini basis vector space yang digunakan untuk melakukan klasifikasi adalah Rocchio Clasification yang menghitung term dalam suatu dokumen, centroid dari tiap term dalam suatu kategori / kelompok dan juga menghitung tingkat kemiripan dokumen.

  Penggunaan algoritma Rocchio sebagai algoritma klasifikasi, diharapkan menghasilkan aplikasi yang dapat bermanfaat dalam teknologi informasi, misalnya aplikasi klasifikasi dokumen skripsi teknik informatika yang dapat mempermudah pencarian informasi mengenai suatu kategori tertentu.

  1.2 Rumusan Masalah

  Bagaimana membangun applikasi klasifikasi dokumen skripsi di Teknik Informatika?

  1.3 Batasan Masalah

  Adapun batasan aplikasi klasifikasi dokumen skripsi Teknik Informatika adalah sebagai berikut :

  1. Dokumen yang dapat diproses adalah dokumen teks (*.txt).

  2. Data dokumen diambil dari judul, abstrak skripsi dari Fakultas Teknik

  3. Jenis pengklasifikasian skripsi untuk pengujian dibagi menjadi 3 kategori yaitu basisdata, komputasi dan jaringan.

  1.4 Tujuan Penelitian

  Adapun tujuan penulisan skripsi adalah sebagai berikut: 1. Membangun sistem klasifikasi dokumen skripsi Teknik Informatika.

  2. Membangun sistem yang dapat membantu mahasiswa dalam pencarian dokumen skripsi.

   Metodologi Penelitian

  1.5 Dalam penyusunan skripsi dan pembuatan aplikasi klasifikasi dokumen skripsi

  Teknik Informatika, dipakai beberapa metode untuk mencari informasi yang diperlukan, yaitu:

  1. Metode pengumpulan data :

  a. Studi literatur Mencari dan mengumpulkan literatur - litaratur yang berkaitan dengan permasalahan yang dikerjakan, yaitu mengenai klasifikasi dokumen dengan menggunakan algoritma Rocchio.

  b. Pembagian kuisioner untuk melakukan uji presisi aplikasi 2. Metode pengembangan sistem

  a. Inception

  Mempelajari masalah-masalah yang timbul dan menentukan kebutuhan-kebutuhan bagi pemakai sistem untuk mengidentifikasi pemecahan yang beralasan.

  b.

   Elaboration

  Menggambarkan bagaimana suatu sistem dibentuk termasuk menyangkut konfigurasi dari komponen-komponen perangkat lunak dari suatu sistem.

  c. Construction

  Merupakan tahapan pembangunan sistem sesuai dengan model analisis dan perancangan pada fase-fase berikutnya.

  d. Transistion Membuat apa yang sudah dimodelkan menjadi suatu produk jadi.

   Sistematika Penulisan

1.6 Bab I Pendahuluan

  Memberikan gambaran secara umum tentang isi skripsi yang meliputi: latar belakang, rumusan masalah, batasan masalah, tujuan dan manfaat, metode penelitian dan sistematika penulisan.

Bab II Landasan Teori

  Bab III Analisa dan Perancangan Berisi gambaran umum sistem, metode pengumpulan data, usecase

  diagram, sekenario perancangan, analisa peracangan, perancangan basis data, perancangan tampilan masukan dan keluaran untuk pengguna.

  Bab IV Implementasi dan Pengujian Bab ini menjelaskan tentang implementasi ke dalam bentuk program

  berdasarkan desain yang telah dibuat dan pengujian applikasi dalam bentuk olah hasil kuisioner.

  Bab V Kesimpulan dan Saran Bab ini berisi semua kesimpulan yang didapatkan dari penelitian yang

  telah dilakukan. Kesimpulan menjawab rumusan masalah yang dituliskan pada bab pendahuluan secara ringkas dan jelas.

DAFTAR PUSTAKA LAMPIRAN

BAB II LANDASAN TEORI

2.1 Pengertian Sistem Temu-kembali Informasi

  Sistem temu-kembali informasi adalah suatu proses untuk mengidentifikasi, kemudian memanggil (retrieve) suatu dokumen dari suatu simpanan (file), sebagai jawaban atas pemintaan informasi. Menurut Lancaster (1968) dalam Rijsbergen (1979): “Sebuah information retrieval system (Sistem Temu-kembali Informasi) tidak memberitahu (yakni tidak mengubah pengetahuan) pengguna mengenai masalah yang ditanyakannya. Sistem tersebut hanya memberi-tahukan keberadaan (atau ketidakberadaan) dan keterangan dokumen-dokumen yang berhubungan dengan permintaannya”.

  

2.2 Pengindeksan (Indexing) Dalam Sistem Temu-Kembali

Informasi Indexing merupakan sebuah proses untuk melakukan pengindeksan terhadap kumpulan dokumen yang akan disediakan sebagai informasi kepada pemakai.

  Proses pengindeksan bisa secara manual ataupun secara otomatis. Dewasa ini, sistem pengindeksan secara manual mulai digantikan oleh sistem pengindeksan otomatis. Adapun tahapan dari pengindeksan adalah sebagai berikut :

   Parsing Dokumen yaitu proses pengambilan kata-kata dari kumpulan

   Stemming yaitu proses penghilangan/ pemotongan dari suatu kata menjadi bentuk dasar.

  Kata “diadaptasikan” atau “beradaptasi” mejadi kata “adaptasi” sebagai istilah.

   Term Weighting dan Inverted File yaitu proses pemberian bobot pada istilah.

  Berikut ini adalah penjelasan tiap tahap pengindeksan dokumen :

  Parsing

  Untuk pemrosesan, dokumen dipilah menjadi unit-unit yang lebih kecil misalnya berupa kata. Unit pemrosesan tersebut disebut sebagai token. Parsing merujuk pada proses pengenalan token yang terdapat dalam rangkaian teks (Grossman, 2002). Dalam proses parsing memerlukan suatu pengetahuan bahasa untuk menangani karakter-karakter khusus, serta menentukan batasan satuan unit dalam dokumen.

  Gambaran proses parsing adalah sebagai berikut :

  Dokumen Kalkulus Mahasiswa mengerti dan menguasai: konsep pendiferensialan dan pengintegralan; penerapan konsep itu dalam berbagai kegiatan teknik.

  Fungsi, limit dan kontinuitas Operasi pendiferensialan dan penerapannya;

  Token

  Kalkulus Mahasiswa Mengerti Dan Menguasai … Fungsi Limit membedakan dokumen atau kueri misalnya kata-kata tugas seperti yang, dan,

  hingga , dan dengan. Berikut ini adalah gambaran proses stoplist : Dokumen Token Hasil dari

  Mahasiswa dapat membuat stopword

  Mahasiswa

  program komputer dengan

  Dapat Mahasiswa

  menggunakan pendekatan

  Membuat Membuat

  terstruktur menggunakan

  Program Program

  konsep fungsi dan library

  komputer komputer Dengan Menggunakan Menggunakan Stopword

   Dengan

   Dan Dapat

  Yang

   Gambar 2.2

  Proses stoplist

  Stemming Stemming yaitu proses penghilangan/ pemotongan dari suatu kata menjadi

  bentuk dasar. Kata “diadaptasikan” atau “beradaptasi” mejadi kata “adaptasi” sebagai istilah. Stemming dilakukan dengan membandingkan kata yang telah dihilangkan imbuhannya dengan kata dasar dalam kamus. Stemming yang digunkan adalah stemming

  Nazief and Adriani’s. Algoritma skema yang berasal Adriani dan Nazief digambarkan dalam laporan teknis yang tidak dipublikasikan dari Universitas Indonesia (1996).

  Berikut adalaherikut adalah algortima stemming Nazief and Adriani’s :

  a) Cari kata yang akan distem dalam kamus. Jika ditemukan maka

b) Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang.

  Jika berupa particles (“-lah”, “-kah”, “-tah” atau “-pun”) maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns

  (“-ku”, “-mu”, atau “- nya”), jika ada.

  c) Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”). Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a

  I. J ika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah “-k”, maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b.

II. Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan, lanjut ke langkah 4.

  d) Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b.

  I. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan. Jika ditemukan maka algoritma berhenti, jika tidak pergi ke langkah 4b.

  II. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika root word belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti. Catatan: jika awalan kedua sama dengan f) Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai.

  Tipe awalan ditentukan melalui langkah-langkah berikut: 1.

  Jika awalannya adalah: “di-”, “ke-”, atau “se-” maka tipe awalannya secara berturut- turut adalah “di-”, “ke-”, atau “se-”.

  2. Jika awalannya adalah “te-”, “me-”, “be-”, atau “pe-” maka dibutuhkan sebuah proses tambahan untuk menentukan tipe awalannya.

  3. Jika dua karakter pertama bukan “di-”, “ke-”, “se-”, “te-”, “be-”, “me-”, atau “pe-” maka berhenti.

  4. Jika tipe awalan adalah “none” maka berhenti. Jika tipe awalan adalah bukan “none” maka awalan dapat dilihat pada Tabel 2.2. Hapus awalan jika ditemukan.

Tabel 2.1. Kombinasi Awalan Akhiran yang Tidak Diijinkan Awalan Akhiran yang tidak diijinkan

  

be- -i

di- -an

ke- -i, -kan

me- -an

se- -i, -kan

Tabel 2.2. Cara Menentukan Tipe Awalan Untuk Kata yang Diawali d

  engan “te-”

  Following Characters Tipe Awalan Set 1 Set 2 Set 3 Set 4 “-r-“ “-r-“ - - None “-r-“ Vowel ter-luluh “-r-“ not (vowel or “-r-”)

  

“-er-“

vowel Ter “-r-“ not (vowel or “-r-”)

  

“-er-“

not vowel ter- “-r-“ not (vowel or “-r-”)

not “-er-“

  • - Ter not (vowel or “-r-”) “-er-“ vowel - None not (vowel or “-r-”) “-er-“ not vowel - Te Tabel 2.3.

  Jenis Awalan Berdasarkan Tipe Awalannya

  Tipe Awalan Awalan yang harus dihapus

di- di-

ke- ke-

se- se-

te- te-

  

Ter ter ter-luluh ter Pembobotan kata menentukan posisi relatif bobot dari istilah dibanding dengan istilah-istilah lain di dokumen yang sama. Didalam memberikan bobot pada sebuah istilah teknik yang paling sering digunakan adalah TF/IDF (term frequency (tf), dan inverse dokumen

  

frequency (idf) ). Term Frequency (tf) adalah jumlah kemunculan suatu kata

  dalam sebuah dokumen dan Inverse document frequency (idf) adalah inverse document frequency dari suatu kata.

  Adapun rumus pembobotan Salton (1989) adalah sebagai berikut:

  w(t,d) = t,d * idf t = tf(t,d )* log2(N/nt)

  tf ……….. (2.1) Dimana :  w(t,d) = bobot dari term(kata) t dalam dokumen d.

   tf( t,d ) = frekuensi kemunculan term(kata) t dalam dokumen d.Idf Inverse document frequency d = dari kata tN = jumlah seluruh dokumen  nt = jumlah dari dokumen yang ditraining yang mengandung nilai t.

  Algoritma TF-IDF dalam sistem temu kembali dapat diilustrasikan pada gambar berikut :

  

D = 5

  D4 …………...

  Kategori Dokumen Term Tf df Idf W

Tabel 2.4. Pembobotan (TF/IDF) Dokumen

  Berikut contoh pembobotan dokumen yang telah diindekskan :

  Fungsi metode ini adalah untuk mencari representasi nilai dari tiap-tiap dokumen dari suatu kumpulan data training (training set).

Gambar 2.3 Ilustrasi Algoritma TF-IDF

  D5

  ..basisdata.. …………..

  …………... …………... ………….. ………….

  tf (t) = 4 tf (t) = 3 tf (t) = 0 tf (t) = 0 tf (t) = 1 df(t) = 3

  D3 …………...

  …………... .. ………..... ………….. …………..

  ...basisdata D2 ……….....

  ..basisdata.. …………..

  ..basisdata.. …………...

  ..basisdata.. ..basisdata.. ………….. ...basisdata D1

  W(D1) = (4 * 1.3219 ) = 5.2877 W(D2) = (3 * 1.3219 ) = 3.9658 W(D3) = (0 * 1.3219 ) = 0 W(D4) = (0 * 1.3219 ) = 0 W(D5) = (1 * 1.3219 ) = 1.3219 ..basisdata..

  IDF(t) = log2(D/df(t)) = log2(5/3) = 1.3219 W t,d = (tf t,d * IDF t )

  C1 D1 basisdata 3 2 1.584963 4.754888 D1 DBMS 2 2 1.584963 3.169925 D1 relational 1 2 1.584963 1.584963 D1 constraint 1 2 1.584963 1.584963 D1 view 1 1 2.584963 2.584963 D1 algebra 1 2 1.584963 1.584963 D1 data 2 1 2.584963 5.169925 D1 Normalization 1 1 2.584963 2.584963 D2 aman 1 1 2.584963 2.584963

  D2 model 1 1 2.584963 2.584963 D2 Kontrol 1 1 2.584963 2.584963

  Kategori Dokumen Term Tf Df Idf W

  C2 D3 jaringan 4 2 1.584963 6.33985 D3 yaitu 1 1 2.584963 2.584963 D3 Ethernet 2 1 2.584963 5.169925 D3 Kabling 1 1 2.584963 2.584963 D3

  IP 2 2 1.584963 3.169925 D3 Layer 2 1 2.584963 5.169925 D3 Protocol 2 2 1.584963 3.169925 D3 Routing 1 1 2.584963 2.584963 D3 Port 1 2 1.584963 1.584963 D4 jaringan 2 2 1.584963 3.169925 D4

  IP 2 2 1.584963 3.169925 D4 Protocol 1 2 1.584963 1.584963 D4 Port 2 2 1.584963 3.169925 D4 DHCP 1 1 2.584963 2.584963 D4 UDP

  1 1 2.584963 2.584963

  Kategori Dokumen Term Tf Df Idf W

  C3 D5 limit 2 1 2.584963 5.169925 D5 Baris 1 1 2.584963 2.584963 D5 deret 1 1 2.584963 2.584963 D5 Differential 2 2 1.584963 3.169925 D5 konsep 1 2 1.584963 1.584963 D5 integral 2 2 1.584963 3.169925 D5 konvergensi 1 1 2.584963 2.584963 D6 Bilangan 1 1 2.584963 2.584963 D6 Linear 1 1 2.584963 2.584963 D6 Matriks 1 1 2.584963 2.584963 D6 Differential 2 2 1.584963 3.169925 D6 Integral 2 2 1.584963 3.169925 D6 komputasi 2 1 2.584963 5.169925 D6 Determinan 2 1 2.584963 5.169925 D6 konsep 1 2 1.584963 1.584963

  Keterangan : C1 = basisdata C2 = jaringan C3 = komputasi kata i dalam dokumen j. Misalkan terdapat sekumpulan kata T sejumlah n, yaitu T = (T 1 , T 2 n ) dan sekumpulan dokumen D sejumlah m, yaitu D = (D 1 , D 2

  , … , T , …

  , D m ) serta w ij adalah bobot kata i pada dokumen j. Maka representasi matriks kata-dokumen adalah :

  T T 1 2 n …. T

D w w w

1 11 21 … n1

D w w w

2 12 22 … n2

: : : :

: : : :

  

D w w … w

m 1m 2m nm

  Penentuan relevansi dokumen dengan query dipandang sebagai pengukuran kesamaan (similarity measure) antara vektor dokumen dengan vektor query.

  Semakin “sama” suatu vektor dokumen dengan vektor query maka dokumen dapat dipandang semakin relevan dengan query. Salah satu pengukuran kesesuaian yang baik adalah dengan memperhatikan perbedaan arah (direction difference ) dari kedua vektor tersebut.

  t 3 q 1 D

  1 Q q 2 t 1 t 2 D

  2 Jika Q adalah vektor query dan D adalah vektor dokumen, yang

   Q DQ D cos θ

  Q  D adalah hasil perkalian dalam (inner product) kedua vektor, sedangkan

  n n

  2

  2  D  dan QQi

   Di i

  1

   i

  

1

Rumus yang digunakan untuk memgukur jarak kedekatan antar vektor adalah

  sebagai berikut :

  

n

Q D

  1

   Sim Q DQ D  ( , ) cos( , )  Qi Di

  Q D Q D

  

  

i

  1 Kedekatan query dan dokumen diindikasikan dengan sudut yang dibentuk. Nilai cosinus yang cenderung besar mengindikasikan bahwa dokumen cenderung sesuai

  query . Nilai cosinus sama dengan 1 mengindikasikan bahwa dokumen sesuai dengan dengan query.

2.4 Algoritma Rocchio Clasification

  Rocchio classifiers merupakan salah satu metode pembelajaran supervised

dokumen classification . Metode klasifikasi rocchio membandingkan kesamaan isi

  antara data training dan data test dengan merepresentasikan semua data ke dalam vektor. Setiap bobot kata merupakan dimensi dalam ruang vektor. Kedekatan kesamaan isi dihitung dari kedekatan sudut yang terbentuk antara bobot data

  

training dan bobot data test menggunakan aturan cosine. Untuk menghitung bobot klasifikasi rocchio adalah skema pembobotan TFIDF, metode pembelajaran rocchio disebut juga dengan TF/IDF Classifiers [Joachims Thorsten].

  Dalam membandingkan kesamaan isi antara data training dan data test,

  

TF/IDF classifiers menggunakan prototipe vektor untuk merepresentasikan

  kategori yang terbentuk dari data training, dengan kata lain prototipe vektor merupakan vektor yang mewakili seluruh vektor data training dalam setiap kategori. Tiga hal utama yang dipakai dalam klasifikasi TF/IDF yaitu: 1. Pembobotan TF/IDF untuk merepresentasikan dokumen ke dalam vektor.

  2. Merepresentasikan prototipe setiap kategori dengan menjumlahkan vektor- vektor dalam satu kategori dari data training

  3. Membandingkan kedekatan sudut antara vektor data test dengan semua prototipe vektor.

  Untuk mengklasifikasikan dokumen menggunakan algoritma rocchio harus

  • – mengetahui centroids dari tiap kelas. Centroids kelas adalah jumlah dari rata rata vektor dokumen keseluruhan dalam suatu kelas (massa pusat dari kelas).

  

Centroids inilah yang digunakan untuk mengukur kedekatan suatu dokumen uji

  dengan kelas (kategori) dalam klasifikasi. Adapun rumus yang digunakan untuk menghitung centroid suatu kelas adalah sebagai berikut :  

  1

  c d

    

      

  Dc dDc ….…………………. (2.2) Ilustrasi perhitungan centroid kata dalam suatu kategori adalah sebagai berikut :

      

   W(d1,t1,C1) = 4.754888 , Dc=2 W(d1,t2,C1) =

  

Kategori Dokumen Term df Idf W centroid

  Pencarian centroid kategori

  Tabel 2.5

  Berikut ini adalah contoh pencarian nilai centroid suatu kategori :

Gambar 2.4 Ilustrasi perhitungan centroid

  5.169925 , Dc=1 Basisdata DBMS basisdata query C1

  3.169925 , Dc=1 W(d2,t3,C1) = 2.584963 , Dc=2 W(d2,t4,C1) =

   

   Dc d d Dcc

   

   

  5.169925 = 5.169925 

  3.169925

(t3,C1) = ½ * ( 2.584963+4.754888 ) = 3.669925

(t4,C1) = (1/1) *

  

3.169925

=

  1

(t1,C1) = ½ * ( 4.754888+2.584963 ) = 3.669925

(t2,C1) = (1/1) *

   

  C1 D1 basisdata 2 1.584963 4.754888 3.962406 D1 DBMS 2 1.584963 3.169925 2.377444 D1 relational 2 1.584963 1.584963 2.377444 D1 constraint 2 1.584963 1.584963 2.377444 D1 view 1 2.584963 2.584963 2.584963 D1 algebra 2 1.584963 1.584963 1.584963 D1 data 1 2.584963 5.169925 5.169925 D1 Normalization 1 2.584963 2.584963 2.584963 D2 aman 1 2.584963 2.584963 2.584963 D2 basisdata 2 1.584963 3.169925 3.962406 D2 Query 1 2.584963 5.169925 5.169925 D2 constraint 2 1.584963 3.169925 2.377444 D2 relational 2 1.584963 3.169925 2.377444 D2 DBMS 2 1.584963 1.584963 2.377444 D2 algebra 2 1.584963 1.584963 1.584963 D2 model 1 2.584963 2.584963 2.584963 D2 Kontrol 1 2.584963 2.584963 2.584963

  D3 Protocol 2 1.584963 3.169925 2.377444 D3 Routing 1 2.584963 2.584963 2.584963 D3 Port 2 1.584963 1.584963 2.377444 D4 jaringan 2 1.584963 3.169925 4.754888 D4

  ) , ( j C d sim

  = vector centroid kelas C j

  

  

  C

  d = dokumen C j = kelas j ) ( j

  = tingkat kemiripan dokumen uji dengan kelas j

  ……………….(2.3) Dimana :

  IP 2 1.584963 3.169925 3.169925 D4 Protocol 2 1.584963 1.584963 2.377444 D4 Port 2 1.584963 3.169925 2.377444 D4 DHCP 1 2.584963 2.584963 2.584963 D4 UDP 1 2.584963 2.584963 2.584963

  

 

   

  )) ( ), ( cos( max arg ) , ( C d C d sim j j

  Untuk mencari kedekatan dokumen digunakan cosine similarity, dengan rumus sebagai berikut :

  C3 D5 limit 1 2.584963 5.169925 5.169925 D5 Baris 1 2.584963 2.584963 2.584963 D5 deret 1 2.584963 2.584963 2.584963 D5 Differential 2 1.584963 3.169925 3.169925 D5 konsep 2 1.584963 1.584963 1.584963 D5 integral 2 1.584963 3.169925 3.169925 D5 konvergensi 1 2.584963 2.584963 2.584963 D6 Bilangan 1 2.584963 2.584963 2.584963 D6 Linear 1 2.584963 2.584963 2.584963 D6 Matriks 1 2.584963 2.584963 2.584963 D6 Differential 2 1.584963 3.169925 3.169925 D6 Integral 2 1.584963 3.169925 3.169923 D6 komputasi 1 2.584963 5.169925 5.169925 D6 Determinan 1 2.584963 5.169925 5.169925 D6 konsep 2 1.584963 1.584963 1.584963

  

Kategori Dokumen Term Df Idf W centroid

   keamanan jaringan , DHCP, IP ”.Contoh query pencarian cosines similarity dapat dirangkum seperti pada tabel 2.6 berikut ini :

Tabel 2.6 Contoh dokumen query

  

Query tf

  IP

  2 routing 1 jaringan 2 komputer

  1 DHCP

  1 aman

  1 Pada tabel 2.7 berikut ini adalah contoh Perhitungan Similarity :

Tabel 2.7 Dasar perhitungan Similarity

  C1 term centroid centroid 2

  algebra 1.58496 2.512098 aman 2.58496 6.682018 basisdata 3.9624 15.70061 constraint 2.37744 5.652221 data 5.16992 26.72807 dbms 2.37744 5.652221 kontrol 2.58496 6.682018 model 2.58496 6.682018 normalization 2.58496 6.682018 query 5.16992 26.72807 relational 2.37744 5.652221 view 2.58496 6.682018

  C2 term centroid centroid 2