Pattern Mining

3.Pattern Mining

Pattern mining pada dasarnya merupakan sebuah Gambar 1. Sistem IF.(Rilla, 2006)

metode atau kumpulan metode, untuk menemukan pola dalam bidang arsitektur, bidang teknik

Objektif dari konsep yang dikaji adalah untuk komputer, dan bidang lainnya. Pattern miningsangat mengotomasi proses pemeriksaan dokumen dengan

bermanfaat dalam penelitian di data mining untuk melakukan komputasi perbandingan antara berbagai aplikasi. Salah satunya adalah menemukan representasi kebutuhan (profil) dengan representasi

informasi yang tersembunyi dari data Web. Tujuan dokumen. Proses yang diotomasi ini disebut berhasil

menemukan pola adalah untuk memperoleh informasi apabila memberikan hasil yang mirip dengan hasil

tentang perilaku navigasi pengguna. Hal ini dapat perbandingan secara manual oleh manusia. Model

digunakan untuk tujuan periklanan, untuk membuat sistem Information Filtering dapat digambarkan

profil pengguna yang dinamis.

seperti pada gambar 2. Pattern mining telah dipelajari secara ekstensif dalam lingkungan data mining selama bertahun- tahun. Berbagai algoritma yang efisien seperti algoritma Apriori (Agrawal et al, 1994), PrefixSpan (Yan et al, 2003) dan lain-lain telah diusulkan.

Di bidang text mining, teknik pattern mining dapat digunakan untuk menemukan berbagai pola teks. Dalam teknik data mining telah digunakan untuk menganalisis teks dengan mengekstraksi frase deskriptif dari koleksi dokumen. Namun, efektivitas sistem text mining menggunakan frase sebagai representasi teks tidak menunjukkan hasil yang signifikan.

Pattern mining diusulkan untuk mengurangi kompleksitas waktu, di mana itemset (atau pola) adalah maksimal jika tidak ada superset.

Ide yang sama pada maximal association rule juga digunakan untuk text mining di mana pengguna disediakan kategori untuk menemukan aturan

Gambar 2. Model Sistem IF.(Rilla, 2006) maksimal yang mereka inginkan. Namun, metode ini mengabaikan pola-pola kecil. Padahal beberapa pola

Ada dua pendekatan yang sangat umum kecil bisa sangat berguna. digunakan dalam IF saat ini (Roni, 2006) yaitu:

ISBN: 979-458-766-4 KeTIK 2014 Konferensi Nasional Pengembangan Teknologi Informasi dan Komunikasi

Biasanya, text mining membahas hubungan antara istilah pada tingkat spektrum yang luas, sedikit mengindahkan istilah-istilah yang duplikasi, dan melabeli informasi dalam training set. Ada teknik data mining yang mengembali pola dalam jumlah yang banyak dari training set. Tidak mengherankan, di antara pola-pola ini, ada banyak pola berlebihan (Yi et al, 2007). Namun yang menjadi permasalah adalah bagaimana menemukan cara yang efektif untuk menangani besarnya jumlah pola yang ditemukan.

Sequential closed patterns digunakan dalam lingkungan data mining telah menjadi alternatif yang menjanjikan untuk frase (Jindal et al, 2006). Untuk mempertimbangkan hubungan semantik sangat penting antara istilah, pattern taxonomy model pola taksonomi (PTM) telah diusulkan untuk IF (Wu et al, 2006). Pola taksonomi adalah hirarchy tree yang yang menggantikan hubungan sub-sekuensial dengan pola sekuensial yang ditemukan. Pendekatan pola berbasis ini telah menunjukkan perbaikan pada efektivitas, tetapi mengorbankan efisiensi komputasi. Dalam kaitan dengan masalah redundansi dan noise, PTM mengadopsi konsep closed pattern. Namun, ini adalah masalah yang masih menantang bagi PTM untuk menangani frekuensi pola yang masih rendah karena langkah-langkah yang digunakan dalam data mining untuk mempelajari profil berubah menjadi

tidak cocok dalam tahap penyaringan. Gambar 3. Classification Operations.

Tahapan-tahapan yang dapat dilakukan dalam ning pattern mining merujuk pada gambar 3 Sebuah sistem IF membantu pengguna dengan

4. Information Filtering Berbasis Pattern Min-

adalah(Vasudeva et al, 2012):

menyaring sumber data dan memberikan informasi

1. Preprocessing

yang relevan kepada pengguna. Ketika informasi Pada tahap ini, semua istilah-istilah yang disampaikan datang dalam bentuk saran sistem

dieliminasi disini. Proses ini juga disebut IF disebut sistem rekomendasi. Karena setiap

dengan proses tokenization. Ada dua langkah pengguna memiliki kepentingan yang berbeda maka

yang dilakukan yaitu stop list removal dan sistem IF harus dipersonalisasi untuk mengakomodasi

stem word removal.

kepentingan setiap individu pengguna tersebut. Hal

- Stop list removal

ini memerlukan pengumpulan umpan balik dari Proses ini sangat berguna untuk menghemat pengguna sebagai preferensi dari profil

sumber daya sistem. Akan ada terdapat pengguna.(Vasudeva et al, 2012).

sejumlah kata yang termasuk dalam daftar Merujuk kepada duamodel IF diawal maka

stop list removal yang akan dianggap tidak diusulkan sebuah review model lebih lanjut dalam

relevan dan kemudian dihapus.Sebuah makalah ini. Percobaan yang luas telah dilakukan

dokumen teks dibagi menjadi aliran kata- untuk memverifikasi metode pengaturan threshold

kata dengan menghapus semua tanda baca pada tahap pertama. Makalah ini akan menunjukkan

dan dengan mengganti tab dan karakter non- bahwa mengeksploitasi penalaran set-base dan

teks lain dengan spasi tunggal. Representasi pendekatan pattern mining untuk mengembangkan

tokenized ini kemudian digunakan untuk sistemIF dapat mencapai kinerja yang lebih baik.

diproses lebih lanjut. Himpunan kata-kata Pattern Mining merupakan penelitian yang sangat

yang berbeda diperoleh dengan penting dalam data mining dan knowledge

menggabungkan semua dokumen teks discovery.Pattern mining dapat digunakan untuk

koleksi disebut kamus koleksi dokumen. pendekatan content based filtering dan collaborative

Algoritma yang dapat digunakan adalah filtering dalam sistem IF(Vasudeva et al, 2012).

dengan mendefinisikan beberapa term dan variable yang mungkin akan sering muncul dalam sebuah dokumen. Misal, D merupakan

variable untuk beberapa

KeTIK 2014 ISBN: 979-458-766-4 Konferensi Nasional Pengembangan Teknologi Informasi dan Komunikasi

dokumen dan T untuk teks sehingga T = f(t1, t2, t3,…tm).

- Stem word removal Stemming adalah proses pemetaan dan penguraian berbagai bentuk (variants) dari suatu kata menjadi bentuk kata dasarnya. Proses stemming sangat penting dalam sistem IF untuk meningkatkan kualitas informasi yang akan disaring.

2. Finding Model Ada beberapa model yang dapat digunakan untuk melakukan penyaringan informasi dengan menggunakan pattern mining di antaranya:

- Pattern Deploying Model Model memanfaatkan pola yang ditemukan dengan menggunakan fungsi pembobotan untuk menetapkan nilai untuk setiap pola sesuai dengan frekuensinya.

- Mining Negative Feedback Secara umum, konsep relevansi adalah subjektif; dan biasanya orang dapat menggambarkan relevansi topik (atau dokumen) dalam dua dimensi: kekhususan dan exhaustivity, di mana "kekhususan" menggambarkan sejauh mana topik berfokus pada apa yang pengguna inginkan, dan "exhaustivity" menggambarkan sejauh mana topik membahas apa yang pengguna inginkan. Sangat mudah bagi manusia untuk melakukannya(Li et al, 2011)..

- Pattern Based Information Filtering Model Ada dua pendekatan yang dapat digunakan pada model ini yaitu: 1)content-based filtering, dan 2) collaborative filtering system.