MESIN PENCARI LAGU BERDASARKAN LIRIK LAGU MENGGUNAKAN METODE MODEL RUANG VEKTOR

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  MESIN PENCARI LAGU BERDASARKAN LIRIK LAGU MENGGUNAKAN METODE MODEL RUANG VEKTOR SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika Oleh: L. DIMAS ARYO BIMO YP. 06 5314 103 JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS dan TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA

2012

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

SONG SEARCH ENGINE BASED ON SONG LYRIC USING

  

VECTOR SPACE MODEL METHOD

A THESIS

Present as Partial Fulfillment of the Requirements

To Obtain the Bachelor of Computer

  

In Informatics Engineering Department

By :

L. DIMAS ARYO BIMO YP.

06 5314 103

  

DEPARTMENT OF INFORMATICS ENGINEERING

FACULTY OF SCINECE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2012

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  

SKRIPSI

MESIN PENCARI LAGU

BERDASARKAN LIRIK LAGU MENGGUNAKAN METODE

MODEL RUANG VEKTOR

Oleh :

L. Dimas Aryo Bimo YP.

  

NIM : 06 5314 103

Telah Disetujui Oleh :

Dosen Pembimbing Tugas Akhir

  Alb. Agung Hadhiatma, S.T., M.T. Tanggal : ……………………

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  

SKRIPSI

MESIN PENCARI LAGU

BERDASARKAN LIRIK LAGU MENGGUNAKAN METODE

MODEL RUANG VEKTOR

Dipersiapkan dan ditulis Oleh :

L. Dimas Aryo Bimo YP.

  

NIM : 06 5314 103

Telah dipertahankan di depan Panitia Penguji

Pada tanggal 14 Desember 2010

dan dinyatakan memenuhi syarat

  

Susunan Panitia Penguji

Nama Lengkap Tanda Tangan

  Ketua Sri Hartati Wijono, S.Si., M.Kom.

  ………………...

  Sekretaris Puspaningtyas Sanjoyo Adi, S.T., M.T.

  ………………...

  Anggota Alb. Agung Hadhiatma, S.T., M.T.

  ………………... Yogyakarta, …………………... Fakultas Sains dan Teknologi Universitas Sanata Dharma Dekan Yosef Agung Cahyanta, S.T., M.T.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  Saya menyatakan sesungguhnya bahwa skripsi yang saya tulis ini tidak memuat karya orang lain kecuali telah disebutkan dalam kutipan atau daftar pustaka, sebagaimana layaknya karya ilmiah.

  Yogyakarta, Januari 2012 Penulis , L. Dimas Aryo Bimo YP.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  

PERNYATAAN PERSETUJUAN

PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS

  Yang bertandatangan di bawah ini, saya mahasiswa Universitas Sanata Dharma : Nama : L. Dimas Aryo Bimo YP. NIM : 06 5314 103 Demi pengembangan ilmu pengetahuan, saya memberikan kepada perpustakaan Universitas Sanata Dharma karya ilmiah saya yang berjudul:

  

MESIN PENCARI LAGU

BERDASARKAN LIRIK LAGU MENGGUNAKAN METODE MODEL

RUANG VEKTOR

  Beserta perangkat yang diperlukan (bila ada). Dengan demikian saya memberikan kepada perpustakaan Universitas Sanata Dharma hak untuk menyimpan, mengalihkan dalam bentuk media lain, mengelolanya dalam bentuk pangkalan data, mendistribusikannya secara terbatas dan mepublikasikannya di internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya maupun memberikan royalty kepada saya selama tetap mencantumkan nama saya sebagai penulis. Demikian pernyataan ini, yang saya buat dengan sebenarnya.

  Dibuat di Yogyakarta, Pada tanggal : Januari 2012 Yang menyatakan (Leonardus Dimas Aryo Bimo Yudhi Putro)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

HALAMAN PERSEMBAHAN

  Skripsi ini saya persembahkan untuk : Bapak dan Ibu E. Yudhiatmoko, H. Mas Dinda YP., dan B. Susilowati PP. atas semangat, kasih, sarana dan prasarana, sehingga skripsi ini dapat terselesaikan dengan baik.

  Untuk sahabat dan teman- temanku, terimakasih atas segala bentuk motivasi dan pembelajaran yang kalian berikan.

  Teman – teman TI, terimakasih atas kesempatan untuk belajar bersama kalian.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  

HALAMAN MOTO

“ If you do not believe you would not succeed

and

If you do not apply you would not achieve

  

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  Penulis menghaturkan puji syukur kepada Tuhan YME atas berkat dan bimbingan- Nya sehingga penulis dapat menyelsaikan skripsi dengan baik. Skripsi adalah studi akhir yang merupakan salah satu tugas akhir yang diwajibkan pada mahasiswa Program Studi Teknik Informatika Fakultas Sains dan Teknologi Universitas Sanata Dharma Yogyakarta setelah lulus mata kuliah teori, praktikum, dan kerja praktek.

  Tujuan dari pembuatan skripsi ini adalah sebagai salah satu syarat untuk mencapai derajat sarjana computer dari Program Studi Teknik Informatika Fakultas Sains dan Teknologi Universitas Sanata Dharma Yogyakarta.

  Penulis menyadari bahwa dalam pembuatan skripsi ini tidak terlepas dari bantuan berbagai pihak yang telah menyumangakn pikiran, tenaga, dan bimbingan kepada penulis baik secara langsug maupun tidak langsung. Oleh sebab itu. Penulis mengucapkan terimakasih kepada:

  1. Bapak Yosef Agung Cahyanta, S.T., M.T. selaku Dekan Fakultas Sains dan Teknologi Universitas Sanata Dharma Yogyakarta.

  2. Ibu Ridowati Gunawan S. Kom., M.T. selaku Ketua Jurusan Fakultas Sains dan Teknologi Universitas Sanata Dharma Yogyakarta.

  3. Bapak Alb. Agung Hadhitama S.T., M.T. selaku Dosen pembimbing yang telah memberikan bimbingan dan masukan yang sangat berarti kepada penulis.

  4. Ibu Sri Hartati Wijono, S.Si., M.Kom. dan Bapak Puspaningtyas Sanjoyo Adi, S.T., M.T. selaku Dosen penguji.

  5. Semua pihak yang tidak dapat penulis sebutkan satu persatu, yang telah membantu dalam penyelesaian skripsi ini.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  Demikian laporan skripsi ini dibuat dengan usaha terbaik dari penulis. Tetapi jika masih ada kekurangan yang disebabkan keterbatasan waktu dan pengetahuan yang dimiliki penulis, maka kritik dan saran yang bersifat membangun sangat diharapkan demi kesempurnaan laporan ini. Akhir kata semoga laporan ini dapat berguna bagi semua pihak yang membutuhkan.

  Yogyakarta, Januari 2012 Penulis

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  

ABSTRAKSI

  Untuk mencari lagu- lagu di dalam koleksi datasbe, pengguna perlu mengingat judul lagu tersebut. Akan tetapi, masalah akan muncul ketika pengguna tidak bias mengingat judul atau lirik lagu, tetapi hanya mengingat bagian dari lirik lagu. Dalam skripsi ini dilakukan penelitian untuk memfasilitasi pengguna dalam mencari lagu dengan bagian dari lirik lagu yang diingat oleh pengguna berdasarkan teori system temu kembali informasi menggunakan metode ruang vector dengan tingkat kemiripan tertinggi dan uji performansi system yang tinggi.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  

ABSTRACT

To searh a song in database collection, users need to remember the title of that song.

  

However, the problem emerges when the users do not remember the title of the songs

or the lyrics, but just remembering part of lyrics. This thesis conduct a research to

facilitate user to find song with part of lyrics which users remember based on

Information Retrieval System theory using vector space model with the higher

similarity data lyric and high performance test result.

  PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

DAFTAR ISI

  

  

   BAB I Error! Bookmark not defined.

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  

  

  

  

  

  

  

  

Gambar 3.20 Class Diagram Searching .................................................................... 63

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB I PENDAHULUAN

1.1 Latar Belakang

  Banyaknya lagu yang beredar di Indonesia pada saat ini, tidak memungkinkan masyarakat untuk dapat menghafal semua lirik lagu yang ada. Dalam hal ini, lirik lagu berbahasa Indonesia. Sebagai contoh, ketika seorang pelanggan berkunjung ke tempat karaoke, di dalam ruangan karaoke hanya disediakan aplikasi pencarian berdasarkan judul lagu dan jenis bahasa dari lagu sebagai fasilitas pemilihan lagu dari koleksi lagu yang ada. Masalah yang sering dialami pelanggan adalah lupa atau ketidaktahuan pelanggan terhadap judul lagu yang akan dimainkan, sedangkan pelanggan hanya dapat mengingat sepotong lirik dari lagu yang dimaksud. Hal ini tentu saja akan mengurangi kenyamanan pelanggan saat berkaraoke. Untuk mengatasi permasalahan tersebut, maka dibutuhkan suatu sistem atau aplikasi pencari lirik lagu yang dapat memberikan informasi berupa lirik sekaligus judul lagu berdasarkan potongan lirik lagu sebagai kata kunci pencarian, dengan tingkat kesesuaian yang paling maksimal. Salah satu cara yang digunakan untuk membangun sistem pencari lirik lagu adalah dengan menggunakan sistem temu kembali informasi.

  Sistem temu kembali informasi (information retrieval system) digunakan untuk menemukan kembali (retrieve) informasi- informasi yang relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi secara otomatis. Sistem temu kembali informasi terbagi dalam 2 proses, yaitu proses indexing dan pencarian

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  dokumen yang relevan dengan query dari user. Teknik untuk melakukan proses indexing adalah dengan memberikan bobot terhadap tiap kata berdasarkan frekuensi kemunculan kata pada suatu dokumen lirik dan menyimpannya ke dalam koleksi database. Dari proses indexing ini, teknik yang dapat digunakan untuk mencari dokumen yang relevan dengan query dari pengguna adalah berdasarkan jumlah frekuensi kemunculan kata paling banyak, dengan teknik ini akan ditemukan urutan dokumen yang berhasil ditemukan berdasarkan jumlah frekuensi kemunculan kata.

  1.2 Rumusan Masalah

  Bagaimana cara mengimplementasikan program mesin pencari untuk mempermudah pencarian data lirik dan berdasarkan potongan lirik tertentu dengan tingkat kesesuaian tertinggi?

  1.3 Tujuan

  Membuat program mesin pencari untuk mempermudah pencarian lagu dari koleksi lagu berdasarkan lirik tertentu dengan tingkat kesesuaian tinggi.

  1.4 Batasan Masalah

  Dalam aplikasi mesin pencari data lagu dilakukan beberapa batasan sebagai berikut :

  1. Data yang dapat diproses adalah data teks (*.txt) untuk data lirik dan (*.mp3) untuk data lagu.

  2. Koleksi lagu- lagu berbahasa Indonesia dari group band Dewa dan Dewa

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  19 berbahasa Indonesia.

  3. Pencarian data berdasarkan jumlah frekuensi kemunculan kata dalam lirik.

1.5 Metodologi Penelitian

  Dalam penyusunan tugas akhir dan pembuatan program bantu pencarian data lirik lagu, digunakan beberapa metode untuk mencari informasi yang diperlukan, yaitu:

  1. Metode studi literatur Mencari dan mengumpulkan literatur- literatur yang berkaitan dengan permasalahan yang dikerjakan, yaitu mengenai sistem temu kembali informasi (Information retrieval system) menggunakan metode model ruang vektor (vector space model), data lirik lagu melalui internet dan media informasi lainnya.

  2. Metode pengembangan sistem Metode pengembangan sistem yang dipakai dalam pembuatan program bantu pencarian data lagu menggunakan metode Linear Sequential Model/

  Waterfall Model. Model ini adalah model klasik yang bersifat sistematis,

  berurutan dalam membangun perangkat lunak. Berikut ini adalah gambaran dari waterfall model.

  Fase-fase dalam Waterfall Model menurut referensi Pressman:

  1. Analisa: Membuat bagan alir program, diagram arus data (DFD) dan ER- Diagram.

  2. Desain: Membuat desain database dan desain antarmuka (interfaces)..

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  3. Implementasi: Menerapkan hasil analisa dan desain pada tahap sebelumnya.

  4. Testing: Menguji dan menganalisa hasil program.

Gambar 1.1 Fase-fase dalam Waterfall Model menurut referensi Pressman

1.6 Sistematika Penulisan

  BAB I PENDAHULUAN Memberikan gambaran secara umum tentang isi skripsi yang meliputi: Latar belakang, rumusan masalah, batasan masalah, tujuan dan manfaat, metode penelitian dan sistematika penulisan. BAB II LANDASAN TEORI Berisi konsep dasar sistem temu kembali informasi (information retrieval

  system ), bagian- bagian dari sistem temu kembali informasi, teknik-

  teknik temu- kembali informasi, dan evaluasi sistem temu kembali informasi.

  BAB III ANALISIS DAN PERANCANGAN SISTEM Berisi analisis kebutuhan, metode pengumpulan data, diagram arus data,

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  kamus data, E-R diagram sistem, perancangan proses, perancangan basis data, perancangan modul, perancangan tampilan masukan dan keluaran untuk pengguna, dan perancangan teknologi.

  BAB IV IMPLEMENTASI Berisi penjelasan dan fungsi program bantu pencarian sebagai alat bantu pencarian data lirik dan lagu. BAB V ANALISIS HASIL Berisi evaluasi program sistem temu- kembali informasi, kelebihan dan kekurangan program. BAB VI KESIMPULAN DAN SARAN Berisi kesimpulan dan saran dari pembuatan program bantu pencarian data lirik dan lagu DAFTAR PUSTAKA LAMPIRAN

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

BAB II LANDASAN TEORI

2.1 Pengertian Sistem Temu Kembali Informasi

  Sistem temu kembali informasi (information retrieval system), adalah suatu proses untuk mengidentifikasi, kemudian memanggil (retrieve) suatu data dari suatu simpanan file, sebagai jawaban atas permintaan informasi. Menurut Lancaster (1968) dalam Rijsbergen (1979):” Sebuah information retrieval system (Sistem temu kembali informasi) tidak memberitahu (yakni tidak mengubah pengetahuan) pengguna mengenai masalah yang ditanyakannya. Sistem tersebut hanya memberi-tahukan keberadaan (atau ketidakberadaan) dan keterangan dokumen- dokumen yang berhubungan dengan permintaannya.”

  Sistem temu kembali informasi pada prinsipnya adalah suatu sistem yang sederhana. Misalkan ada sebuah kumpulan dokumen dan seorang user yang memformulasikan sebuah pertanyaan (request atau query). Jawaban dari pertanyaan tersebut adalah sekumpulan dokumen yang relevan dan membuang dokumen yang tidak relevan. Secara matematis hal tersebut dapat dituliskan sebagai berikut : n

  

2

   

  Q D Dimana:

   Q = pertanyaan (query)  D = dokumen  n = jumlah dokumen

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  n

   2 = jumlah kemungkinan himpunan bagian dari dokumen yang ditemukan.

  Sistem temu-kembali akan mengambil salah satu dari kemungkinan tersebut.

  Sistem temu-kembali informasi pada dasarnya dibagi dalam dua komponen utama yaitu sistem pengindeksan (indexing) yang menghasilkan basis data sistem dan temu-kembali yang merupakan gabungan dari user interface dan look-up-table .

  Sistem temu kembali informasi (information retrieval system) digunakan untuk menemukan kembali (retrieve) informasi-informasi yang relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi secara otomatis.

  Sistem Koleksi

  Query Dokumen

  Temu Kembali Informasi

  1. Dok1

  2. Dok2 Hasil

  3. Dok3 Hasil Pencarian Pencarian

Gambar 2.1 Ilustrasi Sistem Temu Kembali Informasi menurut referensi Rila

  Mandala dan Hendra Setiawan

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  Salah satu aplikasi umum dari sistem temu kembali informasi adalah

search engine atau mesin pencarian yang terdapat pada jaringan internet.

  Pengguna dapat mencari halaman-halaman web yang dibutuhkannya melalui search engine .

  Sistem temu kembali informasi terutama berhubungan dengan pencarian informasi yang isinya tidak memiliki struktur. Demikian pula ekspresi kebutuhan pengguna yang disebut query, juga tidak memiliki struktur. Hal ini yang membedakan sistem temu kembali informasi dengan sistem basis data. Dokumen adalah contoh informasi yang tidak terstruktur. Isi dari suatu dokumen sangat tergantung pada pembuat dokumen tersebut.

  Sebagai suatu sistem, sistem temu kembali informasi memiliki beberapa bagian yang membangun sistem secara keseluruhan. Gambaran bagian-bagian yang terdapat pada suatu sistem temu kembali informasi digambarkan pada Gambar 2.2.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  Ranked Documents

  Document Collection

  Query

  Text Operations Text Operations

  1. Dok1

  2. Dok2

  3. Dok3 .

  Query formulation Indexing .

  Terms Ranking

  Collection Index

  Index

Gambar 2.2 Bagian-bagian Sistem Temu Kembali Informasi menurut referensi

  Rila Mandala dan Hendra Setiawan

Gambar 2.2 memperlihatkan bahwa terdapat dua buah alur operasi pada sistem temu kembali informasi. Alur pertama dimulai dari koleksi dokumen dan

  alur kedua dimulai dari query pengguna. Alur pertama yaitu pemrosesan terhadap koleksi dokumen menjadi basis data indeks tidak tergantung pada alur kedua.

  Sedangkan alur kedua tergantung dari keberadaan basis data indeks yang dihasilkan pada alur pertama.

  Bagian-bagian dari sistem temu kembali informasi menurut gambar 2.2 meliputi :

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  1. Text Operations (operasi terhadap teks) yang meliputi pemilihan kata-kata dalam query maupun dokumen (term selection) dalam transformasi dokumen atau query menjadi terms index (indeks dari kata-kata).

  2. Query formulation (formulasi terhadap query) yaitu memberi bobot pada indeks kata-kata query.

  3. Ranking (pengurutan), mencari dokumen-dokumen yang relevan terhadap

  query dan mengurutkan dokumen tersebut berdasarkan kesesuaiannya dengan query.

  4. Indexing (pengindeksan), membangun basis data indeks dari koleksi dokumen. Dilakukan terlebih dahulu sebelum pencarian dokumen dilakukan. Sistem temu kembali informasi menerima query dari pengguna, kemudian melakukan perangkingan terhadap dokumen pada koleksi berdasarkan kesesuaiannya dengan query. Hasil pengurutan yang diberikan kepada pengguna merupakan dokumen yang menurut sistem relevan dengan query. Namun relevansi dokumen terhadap suatu query merupakan penilaian pengguna yang subjektif dan dipengaruhi banyak faktor seperti topik, pewaktuan, sumber informasi maupun tujuan pengguna.

  Model sistem temu kembali informasi menentukan detail sistem temu kembali informasi yaitu meliputi representasi dokumen maupun query, fungsi pencarian (retrieval function) dan notasi kesesuaian (relevance notation) dokumen terhadap query.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

2.2 Pengindeksan (indexing ) dalam Sistem Temu Kembali

  Indexing merupakan sebuah proses untuk melakukan pengindeksan terhadap kumpulan dokumen yang akan disediakan sebagai informasi kepada pemakai.

  Proses pengindeksan bisa secara manual ataupun secara otomatis. Dewasa ini, sistem pengindeksan secara manual mulai digantikan oleh sistem pengindeksan otomatis. Adapun tahapan dari pengindeksan adalah sebagai berikut :

   Parsing dokumen yaitu proses pengambilan kata-kata dari kumpulan dokumen.

   Stoplist yaitu proses pembuangan kata tidak penting seperti: tetapi, yaitu, sedangkan, dan sebagainya.

   Stemming yaitu proses penghilangan/ pemotongan dari suatu kata menjadi bentuk dasar. Kata “diadaptasikan” atau “beradaptasi” men jadi kata “adaptasi” sebagai istilah.  Term Weighting dan Inverted File yaitu proses pemberian bobot pada istilah.

2.2.2 Parsing

  Untuk pemrosesan, dokumen dipilah menjadi unit-unit yang lebih kecil misalnya berupa kata, frasa atau kalimat. Unit pemrosesan tersebut disebut sebagai token. Parsing merujuk pada proses pengenalan token yang terdapat dalam rangkaian teks (Grossman, 2002). Dalam proses parsing memerlukan suatu pengetahuan bahasa untuk menangani karakter-karakter khusus, serta menentukan batasan satuan unit dalam dokumen. Proses parsing juga mengunakan daftar kata buang (stoplist) yakni daftar kata-kata yang tidak digunakan (dibuang) karena

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  tidak signifikan dalam membedakan dokumen atau query misalnya kata-kata tugas seperti yang, hingga, dan dengan.

2.2.3 Stemming

  Stemming adalah proses penghilangan prefiks dan sufiks dari query dan

  istilah - istilah dokumen (Grossman, 2002). Stemming dilakukan atas dasar asumsi bahwa kata-kata yang memiliki stem yang sama memiliki makna yang serupa sehingga pengguna tidak keberatan untuk memperoleh dokumen-dokumen yang di dalamnya terdapat kata-kata dengan stem yang sama dengan kuerinya. Teknik- teknik stemming dapat dikategorikan menjadi:

  • Berdasarkan aturan sesuai bahasa tertentu
  • Berdasarkan kamus

  Proses ini memiliki dua tujuan. Dalam hal efisiensi, stemming mengurangi jumlah kata-kata unik dalam indeks sehingga mengurangi kebutuhan ruang penyimpanan untuk indeks dan mempercepat proses pencarian. Dalam efektifitas,

  

stemming meningkatkan recall dengan mengurangi bentuk-bentuk kata ke bentuk

  dasarnya atau stem-nya. Sehingga dokumen-dokumen yang menyertakan suatu kata dalam berbagai bentuknya memiliki kecenderungan yang sama untuk ditemukembalikan. Hal tersebut tidak akan diperoleh jika tiap bentuk suatu kata disimpan secara terpisah dalam indeks. Akan tetapi, stemming dapat menurunkan tingkat precision jika setiap bentuk suatu stem diperoleh, sedangkan yang relevan hanyalah bentuk yang sama dengan yang digunakan dalam kueri. Parsing dan

  

stemming dalam suatu IRS tergantung pada bahasa yang digunakan dalam

  dokumen yang akan dicari. IRS untuk Bahasa Inggris kurang optimal untuk

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  menangani dokumen dalam Bahasa Indonesia. Bahasa Indonesia memiliki daftar kata buang (stoplist) serta sistem pembentukan kata yang sangat berbeda dengan bahasa Inggris, sehingga diperlukan IRS yang khusus untuk Bahasa Indonesia.

2.2.4 Porter Stemmer for Bahasa Indonesia

  Porter Stemmer for Bahasa Indonesia dikembangkan oleh Fadillah Z. Tala

  pada tahun 2003. Implementasi Porter Stemmer for Bahasa Indonesia berdasarkan English Porter Stemmer yang dikembangkan oleh W.B. Frakes pada tahun 1992. Karena bahasa Inggris datang dari kelas yang berbeda, beberapa modifikasi telah dilakukan untuk membuat Algoritma Porter dapat digunakan sesuai dengan bahasa Indonesia. Desain dari Porter Stemmer for Bahasa

  Indonesia dapat dilihat pada gambar 2.3 di bawah ini:

Gambar 2.3 Algoritma Porter Stemmer for Bahasa Indonesiamenurut referensi

  Fadilah Z.Tala

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  Tabel 2.1: Kelompok rule pertama : inflectional particles

  2 K*er bekerja → kerja per NULL

  2 NULL berlari → lari bel NULL 2 ajar belajar → ajar be NUUL

  Prefix Replacement Measure Condition Additional Condition Example ber NULL

  Tabel 2.4: Kelompok rule keempat: second order of derivational prefixes

  2 NULL kekasih → kasih

  2 NULL tersapu → sapu ke NULL

  2 NULL diukur → ukur ter NULL

  2 NULL pembaca → baca di NULL

  2 V… pemilah → pilah pem NULL

  2 NULL penduga → duga pem P

  2 V… penyapu → sapu pen NULL

  2 NULL pengukur → ukur peny S

  2 NULL merusak → rusak peng NULL

  Pada gambar 2.3 terlihat beberapa langkah 'removal' menurut aturan yang ada pada tabel 2.1 sampai dengan tabel 2.5.

2 NULL bukupun → buku

  2 V… memila → pilah mem NULL

  Suffix Replacement Measure Condition Additional Condition Example ku NULL

  Suffix Replacement Measure Condition Additional Condition Example kah NULL

  2 NULL bukukah → buku lah NULL

  2 NULL adalah → ada pun NUUL

  Tabel 2.2: Kelompok rule kedua :inflectional possesive pronouns

  2 NULL bukuku → buku mu NULL

  2 NULL menduga → duga mem P

  2 NULL Bukumu → buku nya NUUL

  2 NULL bukiunya → buku

  Tabel 2.3: Kelompok rule ketiga: first order of derivational prefixes

  Prefix Replacement Measure Condition Additional Condition Example meng NULL

  2 NULL mengukur → ukur meny S

  2 V…* menyapu → sapu men NUUL

  2 NULL membaca → baca me NULL

2 NULL perjelas → jelas

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

2 NULL pekerja → kerja

i NUUL

2.3 Pembobotan kata

   

     

     

  n df n k log log

  Max tf tf

  pel NULL 2 ajar pelajar → ajar pe NULL

  2. Teknik pembobotan berdasarkan rumus Savoy(1993) yaitu: W ik = ntf ik * nidf k , dimana ntf ik = dan nidf k = Dimana :

  1. Teknik pembobotan berdasarkan frekuensi kemunculan istilah pada satu dokumen. Teknik pembobotan ini cukup sederhana dimana bobot suatu istilah pada sebuah dokumen berdasarkan jumlah kemunculannya pada dokumen tersebut.

  Didalam memberikan bobot pada sebuah istilah, terdapat berbagai macam teknik antara lain yaitu :

  2 V|K… c1c1 , c1 ≠ s, c2 ≠ i and prefix Є{ber, ke,

peng}

tandai → tanda (men)dapati → dapat

  2 prefix Є{ke,peng} tarikan → tarik (meng)ambilkan → ambil an NULL 2 prefix Є{di, meng, ter} makanan → makan (per)janjian → janji

  Suffix Replacement Measure Condition Additional Condition Example kan NULL

  Tabel 2.5: Kelompok rule kelima: derivational suffixes

  • W ik adalah bobot istilah k pada dokumen i.
  • ij j ik

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

    • tf ik merupakan frekuensi dari istilah k dalam dokumen i.
    • n adalah jumlah dokumen dalam kumpulan dokumen.
    • df adalah jumlah dokumen yang mengandung istilah k.

      k

    • Max

      j tf ij adalah frekuensi istilah terbesar pada satu dokumen.

      Pada teknik pembobotan ini, bobot istilah telah dinormalisasi. Dalam menentukan bobot suatu istilah tidak hanya berdasarkan frekuensi kemunculan istilah di satu dokumen, tetapi juga memperhatikan frekuensi terbesar pada suatu istilah yang dimiliki oleh dokumen bersangkutan. Hal ini untuk menentukan posisi relatif bobot dari istilah dibanding dengan istilah-istilah lain di dokumen yang sama. Selain itu teknik ini juga memperhitungkan jumlah dokumen yang mengandung istilah yang bersangkutan dan jumlah keseluruhan dokumen. Hal ini berguna untuk mengetahui posisi relatif bobot istilah bersangkutan pada suatu dokumen dibandingkan dengan dokumen-dokumen lain yang memiliki istilah yang sama. Sehingga jika sebuah istilah mempunyai frekuensi kemunculan yang sama pada dua dokumen belum tentu mempunyai bobot yang sama.

      Dalam menentukan bobot suatu istilah tidak hanya berdasarkan frekuensi kemunculan istilah di satu dokumen, tetapi juga memperhatikan frekuensi terbesar pada suatu istilah yang dimiliki oleh dokumen bersangkutan. Hal ini untuk menentukan posisi relatif bobot dari istilah dibanding dengan istilah-istilah lain di dokumen yang sama. Didalam memberikan bobot pada sebuah istilah teknik yang paling sering digunakan adalah TF/IDF (term frequency (tf), dan inverse

      document frequency (idf) ). Adapun rumus umumnya adalah : w(t,d) = tf(t,d)*log(N/nt)

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

      Dimana :  w(t,d) adalah bobot dari term t dalam dokumen d.

       tf(t,d) adalah frekuensi term dalam dokumen(tf).  N merupakan ukuran data training yang digunakan untuk penghitungan IDF.

       nt adalah jumlah dari dokumen yang ditraining yang mengandung nilai t.

      Fungsi metode ini adalah untuk mencari representasi nilai dari tiap-tiap dokumen dari suatu kumpulan data training (training set).

    2.3.1 Metode TF/IDF

      Metode TF/IDF (Robertson, 2005) merupakan suatu cara untuk memberikan bobot hubungan suatu kata (term) terhadap dokumen. Metode ini menggabungkan dua konsep untuk perhitungan bobot yaitu, frekuensi kemunculan sebuah kata didalam sebuah dokumen tertentu dan inverse frekuensi dokumen yang mengandung kata tersebut. Frekuensi kemunculan kata didalam dokumen yang diberikan menunjukan seberapa penting kata tersebut didalam dokumen.

      Frekuensi dokumen yang mengandung kata tersebut menunjukkan seberapa umum kata tersebut muncul. Sehingga bobot hubungan antara sebuah kata dan sebuah dokumen akan tinggi apabila frekuensi kata tersebut tinggi, didalam dokumen dan frekuensi keseluruhan dokumen yang mengandung kata tersebut rendah pada kumpulan dokumen (database). Rumus umum untuk Tf-Idf :

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

      tf

      W ij = tf ij * IDF W

    • Log(N/n) Dimana:

      ij

      W ij = bobot kata (term) t j terhadap dokumen d i tf ij = jumlah kemunculan kata/ term t j dalam d i N = jumlah semua dokumen yang ada dalam database n = banyaknya dokumen yang mengandung kata (term)

      Berdasarkan rumus diatas, berapapun besarnya tf

      ij

      , apabila N = n maka akan didapatkan hasil 0 (nol) untuk perhitungan IDF. Untuk itu dapat ditambahkan nilai 1 (satu) pada sisi IDF, sehingga perhitungan bobotnya menjadi seperti berikut:

      ij =

      W

      ij

      = bobot kata (term) t

      j

      terhadap dokumen d

      i

      tf ij = jumlah kemunculan kata/ term t j dalam d i tf ik = jumlah kemunculan kata/ term t j dalam semua dokumen N = jumlah semua dokumen yang ada dalam database n = banyaknya dokumen yang mengandung kata (term)

      Metode Tf-Idf dalam sistem temu-kembali informasi dapat diilustrasikan seperti

      W ij = tf ij *( Log(N/n) +1) Untuk menstandarisasi nilai bobot kedalam interval 0 sampai dengan 1, maka rumus Tf-Idf yang menggunakan normalisasi menjadi seperti berikut: Dimana:

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

      pada gambar berikut.

      

    D = 5

    D1 D2 D3 D4 D5 Buku Buku …………… …………… ……………

      ..Buku.. ..Buku.. …………..

      ………….. ………….. ………… ………… buku …………. ………….

      Buku ………. ………….

      ……………. ……………. Buku… Buku… …………….

    tf = 4 tf = 3 tf = 0 tf = 1 tf = 0

    df = 3

      IDF = Log10(D/df)+1

    Gambar 2.4 Ilustrasi Algoritma TF/IDF

      Perhitungan hubungan Term t

      1 dalam dokumen D 2 :

      w = 3*(Log(5/3)+1)

      13

      w

      13 = 3* 1.221849

      w

      13 = 3.665546

      Keterangan: D1,D2,D3,D4,D5 = dokumen tf = banyaknya kata yang dicari pada sebuah dokumen D = total dokumen df = banyaknya dokumen yang megandung kata yang dicari.

      W = bobot dokumen terhadap kata yang dicari Query = Buku

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

    2.3.2 Ilustrasi TF/IDF

      3

      Misalkan terdapat sejumlah n kata yang berbeda sebagai kamus kata (vocabulary) atau indeks kata (terms index). Kata-kata ini akan membentuk ruang vektor yang memiliki dimensi sebesar n. Setiap kata i dalam dokumen atau query diberikan bobot sebesar wi. Baik dokumen maupun query direpresentasikan

      Salah satu teknik temu- kembali informasi yang sudah dikembangkan yaitu teknik vector space model (model ruang vektor). Untuk lebih jelasnya mengenai teknik model ruang vektor ini dapat dilihat pada penjelasan berikut.

      2 1.5 1.1761 0 0.70711 0.70711

      1

      1

      2 1.5 1.1761 0.7071 0.7071 0.70711 t6 roti

      1

      1

      2 1.5 1.1761 0 0.44721 0.89443 t5 bungkus 1

      2

      1

    Tabel 2.6 Perhitungan TF/IDF

      Query / Kata kunci(kk) = joni susi bungkus Dokumen 1 (D1) = joni adu bungkus Dokumen 2 (D2) = susi adu lari bungkus roti Dokumen 3 (D3) = susi susi adu lari lari roti Jumlah dokumen (D) = 3

    WEIGHTS NORMALIZATION

      1

      1

      tf token q D1 D2 D3 df D/Df

      IDF query D1 D2 D3 t1 joni

      1

      1

      1 3 1.4771

      1

      1 t2 susi

      1

      1

      2

      2 1.5 1.1761 0.4472 0 0.44721 0.89443 t3 adu

      1

      1 1 0 0.5774 0.57735 0.57735 t4 lari

    2.4 Teknik- teknik temu kembali informasi

    2.4.1 Model Ruang Vektor (Vector Space Model)

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

      sebagai vektor berdimensi n. Sebagai contoh terdapat 3 buah kata (T1, T2 dan T3), 2 buah dokumen (D1 dan D2) serta sebuah query Q. Masing-masing bernilai :

      D1 = 2T1+3T2+5T3 D2 = 3T1+7T2+0T3 Q = 0T1+0T2+2T3

    Gambar 2.5 Representasi dokumen dan vektor pada ruang vektor

      Koleksi dokumen direpresentasikan dalam ruang vektor sebagai matriks kata-dokumen (terms-documents matrix). Nilai dari elemen matriks w ij adalah bobot kata i dalam dokumen j. Misalkan terdapat sekumpulan kata T sejumlah n, yaitu T = (T

      1 , T 2 n ) dan sekumpulan dokumen D sejumlah m, yaitu D =

      , … , T (D ) serta w adalah bobot kata i pada dokumen j. Maka representasi

      1 , D 2 m ij

      , … , D matriks kata-dokumen adalah :

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

      T T 1 2 …. T n D w w … w 1 11 21 n1 D w w … w 2 12 22 n2 : : : : : : : :

      D w w … w

    m 1m 2m nm

      Penentuan relevansi dokumen dengan query dipandang sebagai pengukuran kesamaan (similarity measure) antara vektor dokumen dengan vektor

      query

      . Semakin “sama” suatu vektor dokumen dengan vektor query maka dokumen dapat dipandang semakin relevan dengan query. Salah satu pengukuran kesesuaian yang baik adalah dengan memperhatikan perbedaan arah (direction

      

    difference ) dari kedua vektor tersebut. Perbedaan arah kedua vektor dalam

      geometri dapat dianggap sebagai sudut yang terbentuk oleh kedua vektor. Gambar 2.5 mengilustrasikan kesamaan antara dokumen D

      1 , dan D 2 dengan query Q.

      Sudut

      1 menggambarkan kesamaan dokumen D 1 dengan query sedangkan sudut Ө

      2 menggambarkan kesamaan dokumen D 2 dengan query.

      Ө

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

    Gambar 2.6 Representasi grafis sudut vector dokumen dan query

      Jika Q adalah vektor query dan D adalah vektor dokumen, yang merupakan dua buah vektor dalam ruang berdimensi-n, dan

      Ө adalah sudut yang

      dibentuk oleh kedua vektor tersebut. Maka :

      

    Q D Q D

     cos θ

      Q

    • D adalah hasil perkalian dalam (inner product) kedua vektor, sehingga jika

      t 0t 2t

      Q = (0 1, 2, 3 ) D = (2 t 1, 3t 2, 5t 3 )

      t 1 2t 1+ 0t 2 3t 2+ 2t 3 5t 3 )

      maka Q

    • D = (0 sedangkan
    • n n

        2

        2 

         dan QQi Di 1 Di

         i

        

      1

      Rumus yang digunakan untuk mengukur jarak kedekatan antar vektor adalah

        sebagai berikut :

      PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

        0.29

        0.5

        

      0.5

        0.25

        0.25 t6 roti

        

      0.5

        0.5 SQRT SUM q SQRT SUM Di SUM q * Di 1.3038405 1.35401 1.3166 1.55991

        1.25

        0.16 Sqrt Sum(q) =

        D Q D Q

        (

        =

        ) dimana j = kata didalam database maka untuk perhitungan Sqrt Sum(q) =

        (

        =

        ) = 1 + 0.2 + 0 + 0 + 0.5 + 0 =

        1.7 = 1.3038405

        0.5

          ) , cos( ) , ( D Q D Q Sim

      2.4.2 Ilustrasi perhitungan Model Ruang Vektor (Vector Space Model)

        

      0.2

      Tabel 2.7 Perhitungan Vector Space Model

        

         

        

      n

      i Di Qi D Q

        

      1

        1 Kedekatan query dan dokumen diindikasikan dengan sudut yang dibentuk.

        Nilai cosinus yang cenderung besar mengindikasikan bahwa dokumen cenderung sesuai query. Nilai cosinus sama dengan 1 mengindikasikan bahwa dokumen sesuai dengan dengan query.

        WEIGHT ^ 2