PERANCANGAN DATA WAREHOUSE DAN PENERAPAN ALGORITMA NEAREST NEIGHBOUR UNTUK PREDIKSI PENGUNDURAN DIRI JEMAAH HAJI DI KEMENTRIAN AGAMA KANTOR WILAYAH SUMATERA SELATAN

  

PERANCANGAN DATA WAREHOUSE DAN PENERAPAN

ALGORITMA NEAREST NEIGHBOUR UNTUK PREDIKSI

PENGUNDURAN DIRI JEMAAH HAJI DI KEMENTRIAN AGAMA

KANTOR WILAYAH SUMATERA SELATAN

M. Fhariz Utama Putra

  

Mardiani

Jurusan Teknik Informatika

STMIK MDP

  

Abstrak : Kementrian Agama Kantor Wilayah Sumatera Selatan merupakan Badan Usaha Milik Negara

(BUMN) yang ditugaskan untuk mengurus segala sesuatu yang berhubungan dengan agama. Salah satu

tugasnya adalah untuk mengurus jemaah haji. Mengingat dari tahun ke tahun peminat jemaah haji tidak

pernah surut hal ini menciptakan kondisi data yang berlimpah tapi minim informasi. Perancangan data

warehouse dan data mining adalah salah satu cara yang dapat digunakan untuk mendapatkan informasi

dari data yang banyak tersebut. Salah satu informasinya adalah untuk memprediksi potensi calon jemaah

haji yang batal berangkat. Prediksi dapat dilakukan dengan menggunakan algoritma nearest neighbour.

  

Dengan prediksi tersebut dapat dilihat faktor yang paling berpengaruh yang menyebabkan calon jemaah

haji batal berangkat adalah alasan keluarga.

  Kata kunci : data mining , data warehouse, informasi, kementrian agama, nearest neighbour,

Abstract : Ministry of South Sumatra Region Office Religion is government-owned corporations (GOC)

assigned to manage all thing relating to religion. One of religion ministry the duty is to manage of

pilgrim. Remembers from year to year enthusiast of pilgrim have never withdrawn this thing to create

condition of copious data but a little information. Scheme of data warehouse and data mining is one of

way which applicable to get information from data. One of data mining the information is to predict of

pilgrim candidate for potency hajj is canceled. Prediction can be done by using nearest neighbor

algorithm. With the visible prediction of factor that is very influential causing pilgrim candidate hajj

cancelation leaves is reason of family.

  Keyword : data mining, data warehouse, information, religion ministry, nearest neighbour,

1 Pendahuluan

  Saat ini setiap tahunnya semakin banyak dapat menghasilkan berbagai macam orang-orang yang melaksanakan ibadah haji informasi. Data warehouse merupakan khususnya di wilayah Sumatera Selatan. metode dalam perancangan database, yang Mengingat minat masyarakat terus meningkat menunjang DSS (Decission Support System) sehingga penyimpanan data jemaah hajipun dan EIS (Executive Information System). semakin bertambah dari tahun ketahun, yang dalam pengambilan keputusan dan dapat dapat menimbulkan penumpukan data. Data memberi informasi data dari berbagai dimensi yang tersimpan dalam jumlah yang besar akan data. tidak berguna, jika tidak digali informasi yang Setelah dilakukan perancangan data tersedia didalamnya. warehouse langkah selanjutnya adalah

  Perancangan data warehouse merupakan menerapkan data mining. Data mining salah satu solusi yang dapat digunakan agar merupakan proses untuk menggali (mining) data yang tersimpan dalam jumlah yang besar pengetahuan dan informasi baru dari data yang berjumlah banyak pada data warehouse, dengan menggunakan kecerdasan buatan (Artificial Intelegence ), statistik dan matematika. Data mining merupakan teknologi yang diharapkan dapat menjembatani komunikasi antara data dan pemakainya.

  Berdasarkan uraian diatas, penulis tertarik untuk mengambil skripsi dengan judul

  dari proses pengumpulan data (ETL) di lanjutkan dengan penyajian data kemudian interpretasi dari data tersebut yang berupa hasil analisa, tentunya semua itu harus di dukung dengan data yang benar , waktu yang tepat dan format benar. bi merupakan business tool yang efektif untuk mendukung keputusan bisnis, baik berupa keputusan strategi, tactical ataupun operational (Wirama K et all, 2009.h38).

  biasa disingkat dengan SSIS adalah sebuah tools yang digunakan untuk melakukan proses extract, transform, and

  load (ETL) dan diklasifikasikan sebagai fitur business intelligence (BI).

  b.

  SSQL Server 2008 Analysis Services

  (SSAS)

  Business intelligence (BI) di mulai

  c. SQL Server 2008 Reporting Services

  (SSIS) Menurut Wirawa et all (2009, h.1)

  (SSRS) Menurut Wirama et all (2009, h.194)

  sql server reporting services

  (SSRS) adalah platform laporan berbasis server yang menyediakan fungsionalitas pembuatan laporan untuk berbagai sumber data.

  2.3 Data Mining

  Menurut Larose (2005, hal. 4), data

  mining merupakan analisis dari peninjauan

  kumpulan data untuk menemukan hubungan yang tidak diduga dan meringkas data dengan cara yang berbeda dengan sebelumnya, yang

  SQL Server Integration Services atau

  a. SQL Server 2008 Integration Services

  “Perancangan Data Warehouse dan Penerapan Algoritma Nearest Neighbour untuk Prediksi Pengunduran Diri Jemaah Haji di Kementrian Agama Kantor Wilayah Sumatera Selatan ”.

2 LANDASAN TEORI

  2.2 Microsoft SQL BIDS Business Intelligence atau BI adalah

  stars, snowflakes, and fact constellations .

  teknik desain logis yang bertujuan untuk menghadirkan data dalam sebuah bentuk yang standar dan intuitif yang memungkinkan pengaksesan basis data dengan performa yang tinggi (Connolly dan Begg 2010, h.1183). Menurut Han et all (2011, h.124) tipe-tipe skema model data multidimensi terbagi atas

  Dimensionality modelling adalah sebuah

  (terintergrasi), time variant (rentang waktu) dan non-volatile.

  oriented (berorientasi subjek), integrated

  Karakteristik dari data warehouse menurut Poniah P (2001, h.20) adalah subject

  serangkaian kegiatan untuk memahami situasi bisnis dengan melakukan berbagai jenis analisis pada data yang dimiliki oleh organisasi serta data eksternal dari pihak ketiga untuk membantu menentukan strategi, keputusan bisnis yang taktis, dan operasional dan mengambil yang diperlukan tindakan untuk meningkatkan kinerja bisnis (Rainardi, 2007). BIDS menyediakan tool untuk melakukan analisa data. Pada BIDS terdapat 3 jenis solusi analisa, yaitu :

  data warehouse adalah kumpulan dari data

  Sedangkan menurut Feri Sulianta (2010, h.32)

  variant dan non volatile dalam mendukung pengambilan keputusan manajemen.

  bersifat integrated, subject oriented, time

  warehouse adalah sekumpulan data yang

  Menurut Inmon (2005, hal. 29), data

  2.1 Data Warehouse

  berbagai sumber yang ditempatkan menjadi satu dalam tempat penyimpanan berukuran besar lalu diproses menjadi bentuk penyimpanan multi-dimensional dan didesain untuk querying dan reporting. dapat dipahami dan bermanfaat bagi pemilik data. Sedangkan menurut Kusrini (2009, h.7),

  data mining adalah proses mencari pola atau

  Aplikasi ini dikembangkan pertama kali oleh sebuah Universitas di Selandia Baru yang bernama Universitas Waikato sebelum menjadi bagian di Pentanho. Weka terdiri dari koleksi algoritma machine learning yang dapat digunakan untuk melakukan generalisasi atau formulasi dari sekumpulan data sampling.

  Dimensi yang akan dibuat agar terbentuknya tabel fakta meliputi dimensi bank, dimensi jemaah, dimensi waktu serta dimensi wilayah. Adapun grain dalam perancangan data warehouse pada Kementrian Agama Kantor Wilayah Sumatera Selatan meliputi jumlah jemaah haji berdasarkan kategori bank, jumlah jemaah haji berdasarkan kategori wilayah

  b. Pemilihan Grain

  Jemaah haji yang meliputi data jemaah haji yang berangkat dan yang batal berangkat. Adapun atribut yang digunakan adalah kode embarkasi jemaah, nama jemaah, tahun keberangkatan jemaah, jenis kelamin dan tabungan haji.

  Pemilihan Proses Proses yang digunakan dalam data warehouse yaitu, proses keberangkatan

  a.

  Metode perancangan data warehouse menurut Kimball meliputi 9 tahap yang dikenal dengan nine-step methodology (Connolly, Thomas, C. B, 2010).

  3.2 Perancangan Data Warehouse

  Merupakan Badan Usaha Milik Negara (BUMN) yang ditugaskan untuk mengurus segala sesuatu yang berhubungan dengan agama yang bertujuan untuk terwujudnya masyarakat Indonesia yang taat beragama, rukun, cerdas, mandiri dan sejahtera lahir batin.

  3.1 Profil Kemenag Sumsel

  3 PERANCANGAN

  open source (GPL) dan dengan engine java.

  informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD (Knowledge

  Menurut Feri Sulianta (2010, h.63) weka merupakan aplikasi data mining yang berbasis

  2.5 WEKA

  mencari kasus dengan menghitung kedekatan antara kasus baru dengan kasus lama, yaitu berdasarkan pada pencocokan bobot dari sejumlah fitur yang ada. kedekatan biasanya berada pada nilai antara 0 s/d 1. Nilai 0 artinya kedua kasus mutlak tidak mirip. Sebaliknya nilai 1 kasus mirip dengan mutlak (Kusrini et all 2009, h.95).

  nearest neighbour adalah pendekatan untuk

  Menurut Kursini et all (2009, hal. 93),

  2.4 Algoritma Nearest Neighbour

  kelompok yang disebut dengan fungsi minor atau fungsi tambahan dan fungsi minor atau fungsi utama (Kusrini et all, 2009). Fungsi minor terbagi atas fungsi deskripsi, estimasi dan prediksi sedangkan fungsi mayor terbagi atas fungsi klasifikasi, asosiasi dan pengelompokan.

  Data mining dibagi menjadi dua

Gambar 2.1 Tahapan Data Mining

  Discovery in Database ) secara keseluruhan.

DATA WAREHOUSE

  (kabupaten/kota), analisis dapat dilihat per Setelah fakta dipilih, maka dilakukan periode waktu (tahun). pengkajian ulang untuk menentukan apakah dapat digunakan untuk

  c. Identifikasi dan Penyesuaian Dimensi precalculations .

  (Identifying and Conforming The

  Dimensions )

  f. Memastikan Tabel Dimensi

  Pada tahap ini dilalukan penyesuaian Dalam tahap ini, penulis dimensi untuk rujukan tabel fakta. menggambarkan secara rinci serta memberikan keterangan selengkapnya pada tabel dimensi yang bermaksud agar dapat dipahami dan mudah dimengerti oleh user.

  g. Pemilihan Durasi Database

  Data yang digunakan adalah data jemaah haji dari 3 (tiga) tahun terakhir yaitu data jemaah haji pada tahun 2011,

Gambar 3.1 Loading Data pada SSIS 2012 dan data jemaah haji pada tahun

  2013. Diharapkan data jemaah haji selama

  d. Pemilihan Fakta

  3 (tiga) tahun tersebut dapat memberikan informasi yang berguna baik bagi penulis Pada tahap ini penulis menentukan dan juga Kementrian Agama Kantor tabel fakta dalam melakukan perancangan

  Wilayah Sumatera Selatan. data warehouse pada Kementrian Agama Kantor Wilayah Sumatera Selatan. Tabel

  h. Melacak Perubahan dari Dimensi Secara

  fakta digunakan untuk dapat menarik Perlahan informasi dari dimensi-dimensi yang saling berelasi. Hubungan antara Tabel

  Setiap atribut yang terdapat pada tabel fakta dan tabel dimensi dapat dilihat pada dimensi tidak semuanyanya memiliki nilai

gambar 3.2 yang tetap, dengan kata lain ada kalanya atribut tersebut akan berubah.

  i. Penentuan Prioritas dan Model Query

  Dalam perancangan sebuah data warehouse kapasitas penyimpanan sangat berpengaruh dan harus dipertimbangkan karna semakin banyak data kapasitas memori yang dibutuhkan maka harus semakin besar ruang pada disk yang dibutuhkan.

Gambar 3.2 Fakta Haji

  4 ANALISIS DAN PEMBAHASAN e.

  Penyimpanan Pre-Calculation di Tabel

  4.1 Presentasi Data Warehouse

  Fakta Informasi yang diperoleh dari data

  warehouse Haji menggunakan data Haji selama 3 (tiga) tahun terakhir yaitu pada tahun 2000 2011, 2012 dan 2013 sebagai data training. 1000 2011 1500 1.

  Berdasarkan Dimensi Waktu 500 2013 2012 Dimensi waktu merupakan sebuah tabel dimensi dalam data warehouse haji yang digunakan sebagai pengukur jumlah jemaah haji terhadap periode waktu tertentu. Sebagai contoh, jumlah jemaah

Gambar 4.2 Chart Dimensi Bank

  haji pada tahun 2011 adalah sebanyak 6819 jiwa.

  4. Berdasarkan Dimensi Jemaah 2. Berdasarkan Dimensi Wilayah

  Dimensi jemaah merupakan tabel dimensi yang berisikan data jemaah haji Dimensi wilayah dapat digunakan yang dapat memberikan informasi berupa sebagai pengukur jumlah jemaah haji data penyakit jemaah haji sampai dengan berdasarkan Kabupaten atau Kota tertentu keterangan apakah jemaah haji berangkat terhadap periode waktu. Contoh, jumlah atau tidak berangkat. jemaah Kabupaten Lahat pada tahun 2012 sebanyak 232 jiwa. 4000 6000 8000 2000 519 BERANGKAT 4000 6300 6300 538 1291 5040 BATAL 2000 3000 2011 1000 YU A YU RA E R M A A G A W O L U S N S O A N L IN BAN UA BA O A W L L L S S BU T G G U U N R G PA B M O PRA M U U E L Gambar 4.3 Chart Dimensi Jemaah A H T S A A U K PA K U U G EN N A L O K L IN R N IM A L K A U I M PA M S IN I G U A E IR K M I T 2013 A T M I IM A BA IH 2012 2013

  2011 2012 dengan Kategori Keterangan

  4.2 Penerapan Data Mining

Gambar 4.1 Chart Dimensi Wilayah

  Adapun tahapan-tahapan yang dilakukan 3. Berdasarkan Dimensi Bank dalam menerapkan data mining yaitu :

  Dimensi bank merupakan sebuah 1.

  Pengumpulan Data tabel dimensi yang digunakan sebagai pengukur jumlah jemaah haji berdasarkan

  Pada tahap ini, penulis bank atau tempat jemaah haji menabung mengumpulkan data yang diperlukan untuk biaya keberangkatan jemaah haji dalam menerapkan data mining. Adapun terhadap periode waktu tertentu. data yang digunakan oleh penulis meliputi

  Misalkan, pada tahun 2011 terdapat 373 data history haji pada selama tiga tahun jiwa jemaah haji yang menabung untuk terakhir yaitu 2011, 2012 dan 2012 biaya haji pada bank Sumsel Syariah. sebagai data training dan data 2014 sebagai data testing.

  2. Pra Proses Data atau Cleansing Data Pada tahap ini, penulis melakukan proses cleansing data yang bertujuan untuk membersihkan data-data yang tidak 5.

  Hasil Analisis diperlukan dalam penelitian. Proses

  cleansing ini perlu dilakukan agar dapat Setelah analis selesai dilaksanakan

  memilih data yang menjadi fokus maka dapat ditarik beberapa informasi penelitian. yang telah didapatkan diantaranya.

  a.

  Didapatkan hasil prediksi meliputi 3.

  819 calon jemaah haji yang akan Transformasi Data berangkat dan 34 calon jemaah haji yang batal berangkat.

  Transformasi data merupakan sebuah b.

  Berdasarkan hasil yang telah di proses merubah suatu bentuk data ke prediksi dengan menggunakan bentuk lainnya. Hal ini perlu dilakukan, WEKA, faktor tabungan haji dan karena dalam melakukan penelitian alasan keluarga merupakan faktor penulis menggunakan sebuah tools Weka yang paling dominan mempengaruhi yang hanya dapat menerima atau seorang jemaah haji akan berangkat membaca data dalam format file atau batal. berekstensi .arff dan .csv, sedangkan pada dasarnya penulis mendapatkan data dalam

  Untuk melihat gambaran hasil prediksi format file .xls atau dengan kata lain yang telah dilakukan dengan menggunakan hanya dapat dibaca oleh microsoft office WEKA dapat dilihat pada gambar dibawah

  excel dan tidak dapat dibaca oleh Weka ini.

  sehingga diperlukan transformasi data. berikut dapat dilihat proses transformasi data.

  data .xls data .csv data .arff

Gambar 4.5 Hasil Prediksi Data Testing

  Pada gambar diatas dapat dilihat jumlah

Gambar 4.4 Transformasi Data

  jemaah haji yang telah diprediksi menggunakan WEKA.

4. Implementasi Menggunakan WEKA

  5 Penutup

  Dalam melakukan analisis penulis menggunakan tools WEKA untuk

  5.1 Kesimpulan

  mendapatkan hasil prediksi. adapun langkah-langkah yang dilakukan meliputi Kesimpulan yang dapat diambil dari

  : perancangan data warehouse dan hasil a.

  Input data training analisis algoritma nearest neighbour pada b.

  Pemilihan algoritma nearest Kementrian Agama Kantor Wilayah Sumatera

  neighbor

  Selatan antara lain : c. Input data testing a.

  Pada tahun 2011, 2012 dan tahun 2013 d. Hasil dari prediksi stroke adalah penyakit terbanyak yang menjadi penyebab jemaah haji batal

  5.2 Saran

  berangkat. Berdasarkan alasan keluarga, setiap tahunnya (2011, 2012 dan 2013) Berdasarkan informasi yang telah terdapat peningkatan jumlah jemaah haji disajikan, penulis berharap pihak Kementrian yang batal berangkat dengan penyebab Agama Kantor Wilayah Sumatera Selatan alasan keluarga. dapat dijadikan acuan dalam mengambil b. tindakan atau keputusan yang tepat untuk

  Bank Sumsel adalah Bank yang paling banyak dijadikan sebagai tempat untuk dilakukan. tabungan haji oleh jemaah haji, tercatat Untuk pengembangan lebih lanjut ada pada tahun 2011 memiliki 1900 nasabah baiknya ditambahkan algoritma lainnya untuk jemaah haji, pada tahun 2012 dengan memprediksi calon jemaah haji agar dapat 1897 nasabah jemaah haji dan pada tahun melihat bagaimana perbandingan prediksi 2013 dengan 1740 nasabah jemaah haji. antara keduanya. Berdasarkan kategori keterangan dan wilayah, Kota Palembang merupakan

DAFTAR PUSTAKA

  Kota dengan jumlah jemaah haji yang paling banyak berangkat dan batal selama [1]

  Connolly, Thomas, C. B 2010, Database 3 (tiga) tahun yaitu 2011, 2012 dan 2013.

  System : A Practical Approach to Design,

  Sedangkan untuk jumlah jemaah haji yang

  Implementation, and Management Fifth

  paling sedikit batal terletak pada Edition , Pearson Education Inc. Kabupaten OKU Selatan pada tahun 2011 dan Empat Lawang pada tahun 2012 dan

  [2] Han, J, Kamber, M & Pei, J 2011, Data tahun 2013. Untuk jumlah jemaah haji

  Mining : Concepts and Techniques Third

  yang paling sedikit berangkat tercatat

  Edition, Elsevier , United States Of

  pada Kabupaten Empat Lawang pada America. tahun 2011, 2012 dan 2013.

  c.

  Berdasarkan data testing yang diujikan [3]

  Inmon, W, H 2005, Building The Data dengan jumlah data sebanyak 853 record

  Warehouse Fourth Edition, Wiley

  didapatkan hasil prediksi meliputi 819

  Publishing, Inc . , United States Of

  calon jemaah haji yang akan berangkat America. dan 34 calon jemaah haji yang batal berangkat.

  [4] Kimball, R & Ross, M 2013, The Data d.

  Faktor tabungan haji dan alasan keluarga

  Warehouse Toolkit Third Edition , John

  merupakan faktor yang paling dominan Wiley and Sons, Canada. mempengaruhi seorang jemaah haji akan berangkat atau batal. Sedangkan untuk

  [5] faktor penyakit, hanya beberapa penyakit Kusrini 2009, Algoritma Data Mining, Andi Offset,Yogyakarta. saja yang mempengaruhi calon jemaah haji akan batal berangkat, sebagai contoh pada faktor penyakit jika terdapat

  [6] Ponniah, Paulraj 2001, Data Warehousing p enyakit ‘DIABETES’ calon jemaah

  Fundamentals : A Comprehensive Guide

  masih akan berangkat akan tetapi jika

  for

  IT Professionals , A Wiley-

  penyakit ‘KANKER’ maka calon jemaah Interscience Publication, New York. haji akan batal berangkat.

  e.

  Kondisi terburuk adalah jika pada faktor [7]

  Sulanta, Feri 2010, Data Mining : tabungan haji ‘BELUM LUNAS’,

  Meramalkan Bisnis Perusahaan , Elex

  penyakit ‘KANKER’, alasan keluarga Media Komputindo, Jakarta. ‘YA’ maka dapat diprediksi bahwa calon jemaah akan batal berangkat berdasarkan

  [8] Wirama, K, Sudianto, H & Hermawan, Y hasil analisis dengan algoritma nearest

  2009, The Essential Business Intelligence neighbour .

  in Microsoft SQL Server 2008 , Indc, Jakarta.