53
Penyimpanan dokumen secara digital meningkat dengan pesat seiring meningkatnya
penggunaan komputer. Masalah yang timbul dari hal itu adalah sulitnya mengakses
informasi yang dibutuhkan secara cepat dan akurat.
Dari masalah tersebut muncul kebutuhan untuk ekstraksi informasi secara
otomatis dari kumpulan data tekstual yang besar agar mendapatkan sekumpulan informasi
yang sesuai dengan kebutuhan. Solusi dari permasalahan tersebut dapat diatasi dengan
pencarian informasi menggunakan metode text mining.
Text mining merupakan proses menggali, mengolah, mengatur informasi
dengan cara menganalisa pola, hubungan, juga aturan-aturan yang ada dalam data tekstual
semi terstruktur atau tidak terstruktur. Selain klasifikasi, text mining juga digunakan untuk
menangani masalah clustering, information extraction, dan information retrival
[1]
Salah satu metode yang sering digunakan dalam bidang text mining adalah
metode clustering. Dalam bidang Text Mining, metode clustering telah diterapkan pada
berbagai sisi, misalnya dalam mempartisi corpus
[2]
, mengekstrak konsep
[3]
, atau meningkatkan kinerja clustering dengan
membangun Sistem temu Kembali berbasis konsep
[4]
Sementara pada penelitian ini, akan dikembangkan suatu system pencarian
dokumen menggunakan Partitioning Around Medoids PAM. Park dan Jun menawarkan
algoritma K-Medoids PAM dimana menurut penelitiannya algoritma ini menghasilkan
kinerja yang baik dibandingkan K-Means dan dengan waktu yang lebih cepat.
2. TINJAUAN PUSTAKA 2.1 Text Mining
Secara umum text mining adalah proses ekstraksi informasi dari dokumen-
dokumen teks tak terstruktur. Text mining dapat didefinisikan sebagai penemuan
informasi baru dan tidak diketahui sebelumnya oleh komputer, dengan secara otomatis
mengekstrak informasi dari sumber-sumber teks tak terstruktur yang berbeda. Kunci dari
proses ini adalah menggabungkan informasi yang berhasil diekstraksi dari berbagai sumber
[1]
. Tujuan yang paling utama dari proses
ini adalah mendukung proses knowledge discovery pada koleksi dokumen yang besar.
Selain itu, tujuan text mining juga untuk mendapatkan informasi yang berguna dari
sekumpulan dokumen. Jadi, sumber data yang digunakan pada text mining adalah kumpulan
teks yang memiliki format yang tidak terstruktur atau minimal semi terstruktur
[1]
Dalam memberikan solusi, text mining mengadopsi dan mengembangkan banyak
teknik dari bidang lain, seperti Data mining, Information Retrieval, Statistik, Matematika,
Machine Learning, Linguistic, Natural Languange Processing, dan Visualization.
[1]
Seperti halnya data mining, text mining juga menghadapi masalah yang sama,
termasuk jumlah data yang besar, dimensi yang tinggi, data dan struktur yang terus
berubah, dan data “noise.” Berbeda dengan data mining yang utamanya memproses data
terstruktur, data yang digunakan text mining pada umumnya dalam bentuk unstruktur, atau
minimal semistruktur text.
[6]
2.2. Text Preprocessing
Teks yang akan dilakukan proses text mining, pada umumnya memiliki beberapa
karakteristik diantaranya adalah memiliki dimensi yang tinggi, terdapat noise pada data,
dan terdapat struktur teks yang tidak baik. Cara yang digunakan dalam mempelajari suatu
data teks adalah dengan terlebih dahulu menentukan fitur-fitur yang mewakili setiap
kata untuk setiap fitur yang ada pada dokumen. Sebelum menentukan fitur – fitur
tersebut, diperlukan tahap preprocessing yang dilakukan dalam text mining pada dokumen
[5]
2.3 Feature Selection
Pada clustering teks terdapat suatu permasalahan yaitu adanya fitur – fitur yang
berdimensi tinggi. Kerja dari Clustering tidak akan optimal apabila di dalamnya terdapat
fitur yang tidak relevan dan redundan. Oleh karena itu diperlukan metode untuk
mengurangi dimensi fitur ini. Dalam hal ini ada 2 metode yang sering digunakan, yaitu
feature extraction dan feature selection.
[6]
Feature extraction adalah proses mengekstrak fitur baru dari fitur asli melalui
pemetaan fungsional. Sedangkan feature selection adalah sebuah proses pemilihan
54
subset fitur dari fitur asli. Kelebihan feature selection dibandingkan dengan Feature
extraction adalah pada seleksi fitur memberikan pemahaman yang lebih baik
mengenai data sedangkan Feature extraction tidak demikian.
[6]
2.2.1 Document Frequency
Document Frequency adalah jumlah dokumen yang mengandung suatu term
tertentu. Tiap term akan dihitung nilai Document Frequency-nya DF. Lalu term
tersebut diseleksi berdasarkan jumlah nilai DF. Jika nilai DF berada di bawah threshold yang
telah ditentukan, maka term tersebut akan dibuang.
[6]
Document Frequency merupakan metode future selection yang paling sederhana
dengan waktu komputasi yang rendah
[6]
2.2.2 Term Frequency
Term Frequency merupakan salah satu metode untuk menghitung bobot tiap term
dalam dokumen. Dalam metode ini, tiap term diasumsikan memiliki nilai kepentingan yang
sebanding dengan jumlah kemunculan term tersebut pada dokumen.
[1]
2.2.3 Inverse Document Frequency
Jika Term Frequency fokus pada kemunculan term dalam sebuah dokumen,
Inverse Document Frequency IDF fokus pada kemunculan term pada keseluruhan
koleksi dokumen. Pada IDF, term yang jarang muncul pada keseluruhan koleksi term dinilai
lebih berharga. Nilai kepentingan tiap term diasumsikan berbanding terbalik dengan
jumlah dokumen yang mengandung term tersebut.
[1]
2.3 Clustering
Clustering adalah suatu metode pengelompokan berdasarkan ukuran kedekatan
kemiripan. Clustering berbeda dengan group. Jika group diartikan kelompok yang sama
kondisinya, sedangkan cluster tidak harus sama akan tetapi pengelompokan berdasarkan
pada kedekatan dari suatu karakteristik sampel yang ada
[2]
2.3.1 Partitioning Around Medoid
Seperti halnya dengan K-Means, algoritma PAM mengelompokkan data ke
dalam sejumlah K cluster. Berbeda dengan K- means, representasi cluster pada PAM adalah
salah satu titik yang dipilih menjadi perwakilan cluster yang disebut dengan
medoids. Cluster dibangun dengan menghitung kedekatan yang dimiliki antara
medoid dengan objek non-medoid. 3. IMPLEMENTASI
3.1 Context Diagram
Berdasarkan spesifikasi kebutuhan sistem maka dibuat gambaran umum sistem
yang akan dibangun dalam penelitian ini. Gambaran umum, sistem pada penelitian ini
ditunjukkan pada context diagram berikut:
Gambar 3.1 Context Diagram Context diagram pada gambar 3.1 menjelaskan
tentang gambaran sistem pencarian dokumen berita yang akan dibangun. Dari context
diagram terlihat bahwa sistem yang akan dibangun. Berikut penjelasan mengenai
workflow pada gambar 3.2 :
Interaksi pengguna sistem dibedakan menjadi dua diantaranya :
- Administrator dapat melakukan penambahan dokumen berita ke dalam
database. Namun diperlukan proses login terlebih dahulu.
- User hanya dapat melakukan proses pencarian dengan memasukan key word.
Gambar 3.2 DFD Level 0 Gambar DFD Level 0 di atas menggambarkan
3 proses utama yang terjadi pada system pencarian dokumen berita ini, yaitu :
1. Proses Login
Proses untuk masuk ke sistem agar admin dapat menambahkan koleksi berita pada
database berita. 2. Proses Upload File Berita