Model Segmentasi Pelanggan Dengan Kernel K-Means Clustering Berbasis Customer Relationship Management (CRM)

(1)

MODEL SEGMENTASI PELANGGAN DENGAN KERNEL

K-MEANS CLUSTERING BERBASIS CUSTOMER

RELATIONSHIP MANAGEMENT (CRM)

TESIS

ABDUL HARIS LUBIS

117038030

PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

MEDAN


(2)

MODEL SEGMENTASI PELANGGAN DENGAN KERNEL

K-MEANS CLUSTERING BERBASIS CUSTOMER

RELATIONSHIP MANAGEMENT (CRM)

TESIS

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah

Magister Teknik Informatika

ABDUL HARIS LUBIS

117038030

PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

MEDAN


(3)

PERSETUJUAN

Judul Tesis : MODEL SEGMENTASI PELANGGAN DENGAN

KERNEL K-MEANS CLUSTERING BERBASIS

CUSTOMER RELATIONSHIP MANAGEMENT (CRM)

Nama Mahasiswa : ABDUL HARIS LUBIS Nomor Induk Mahasiswa : 117038030

Program Studi : Magister (S2) Teknik Informatika

Fakultas : Ilmu Komputer Dan Teknologi Informasi Universitas Sumatera Utara

Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

Prof. Dr. Drs. Iryanto, M.Si Prof. Dr. Herman Mawengkang

Diketahui / Disetujui oleh

Program Studi Magister (S2) Teknik Informatika Ketua,

Prof. Dr. Muhammad Zarlis

NIP : 195707011986011003


(4)

PERNYATAAN

MODEL SEGMENTASI PELANGGAN DENGAN KERNEL

K-MEANS CLUSTERING BERBASIS CUSTOMER

RELATIONSHIP MANAGEMENT (CRM)

TESIS

Saya mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, 23 Agustus 2013

ABDUL HARIS LUBIS NIM : 117038030


(5)

PERNYATAAN PERSETUJUAN PUBLIKASI

KARYA ILMIAH UNTUK KEPENTINGAN

AKADEMIS

Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di bawah ini:

Nama : ABDUL HARIS LUBIS

Nim : 117038030

Program Studi : Magister ( S2) Teknik Informatika

Jenis Karya Ilmiah : TESIS

Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty free Right) atas Tesis saya yang berjudul:

MODEL SEGMENTASI PELANGGAN DENGAN KERNEL

K-MEANS CLUSTERING BERBASIS CUSTOMER

RELATIONSHIP MANAGEMENT (CRM)

Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non-Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan Tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan atau sebagai pemilik hak cipta.

Demikian pernyataan ini dibuat dengan sebenarnya.

Medan, 23 Agustus 2013

ABDUL HARIS LUBIS NIM : 117038030


(6)

Telah diuji pada

Tanggal : 23 Agustus 2013

PANITIA PENGUJI TESIS

Ketua : Prof. Dr. Herman Mawengkang Anggota : 1. Prof. Dr. Iryanto, M.SI

2. Prof. Dr. Muhammad Zarlis 3. Prof. Dr. Tulus


(7)

RIWAYAT HIDUP

DATA PRIBADI

Nama lengkap berikut gelar : Abdul Haris Lubis, ST Tempat dan Tanggal Lahir : Medan, 01 Maret 1967 Alamat Rumah : Jl. Klambir V

Komp.Graha Indah Kelapa Gading Blok J-9 Deli Serdang

Telepon / HP : 085359825635

Email

Instansi Tempat Bekerja : PT. Pos Indonesia (Persero)

Kantor Area – I Sumatera Utara - Aceh

Alamat Kantor : Jl. HM Yamin SH No. 44 Medan 20231 Telepon / Fax : 061-4570053 Fax: 061-4551161

DATA PENDIDIKAN

SD : SD Negeri No. 060900 Tamat : 1980 SLTP : SMP Pembangun Medan Tamat : 1983 SLTA : STM Negeri – 4 Medan Tamat : 1986 S1 : ISTP - Medan Tamat : 2003 S2 : Teknik Informatika USU Tamat : 2013


(8)

KATA PENGANTAR

Segala puja dan puji syukur kehadirat ALLAH SWT karena dengan rahmat dan karunia-NYA sehingga tesis ini dapat diselesaikan melalui bimbingan, arahan, dan bantuan yang telah diberikan dari berbagai pihak khususnya pembimbing, pembanding, para dosen, teman-teman mahasiswa Program Studi Magister (S2) Teknik Informatika Fakultas Ilmu Komputer Dan Teknologi Informasi Universitas Sumatera Utara.

Tesis ini merupakan salah satu syarat yang harus dipenuhi oleh setiap mahasiswa untuk mendapat gelar Magister Komputer.

Dengan selesainya tesis ini, perkenankanlah penulis mengucapkan terima kasih banyak kepada :

1. Bapak Prof. Dr. Herman Mawengkang, selaku Ketua Komisi Pembimbing

2. Bapak Prof. Dr. Iryanto, M.Si, selaku anggota Komisi Pembimbing yang dengan penuh perhatian telah memberikan dorongan, bimbingan, kritik dan saran sehingga penulis dapat menyelesaikan tesis ini.

3. Bapak Prof. Dr. Muhammad Zarlis, Ketua Program studi Magister Teknik Informatika sebagai pembanding yang cukup banyak memberikan saran yang berharga dalam perbaikan tesis.

4. Bapak Prof. Dr. Tulus, sebagai Pembanding yang telah memberikan saran, masukan dan arahan yang baik demi penyelesaian tesis ini. 5. Bapak Dr. Marwan Ramli, M.Si, sebagai pembanding yang telah

banyak memberikan kritikan yang membangun sehingga selesainya tesis ini.

6. Bapak Drs. Gustap PM Marpaung, SH, sebagai Manajer Pengembangan Ritel Kantor Area - I Sumut-Aceh PT. Pos Indonesia (Persero) yang telah memberikan izin kepada penulis untuk mengikuti program Magister Teknik Informatika USU.


(9)

7. Ayahanda (alm) H. Zainuddin Lubis dan Ibunda (Alm) Hj. Rukiyah Samosir, yang semasa hidup mereka senantiasa memberikan curahan kasih sayang, dukungan, do’a kepada penulis, budi baik ini tidak dapat dibalas hanya diserahkan kepada ALLAH SWT.

8. Isteriku Ety Fitriani dan anak-anakku tercinta Herry Arie Chandra dan Amalina Shadrina atas segala keizinan, do’a serta dorongan moril kepada penulis.

9. Bapak / Ibu Pegawai administrasi Program studi Magister Teknik Informatika USU

10.Semua pihak yang telah memberikan bantuan dalam penyelesaian tesis ini.

Terima kasih atas segala bantuan dan dukungan yang telah diberikan sehingga pada akhirnya dapat mengantarkan penulis menyelesaikan pendidikan Magister Teknik Informatika.

Dalam penyusunan tesis ini penulis telah berusaha sebaik-baiknya, akan tetapi mungkin masih terdapat banyak kekurangan, karena itu penulis mengharapkan adanya kritik dan saran yang membangun guna penyempurnaan.

Medan, Agustus 2013

Penulis,

Abdul Haris Lubis 117038030


(10)

ABSTRAK

Tesis ini mengusulkan sebuah model aturan dalam menentukan pelanggan terbaik dan potensial Kantor Pos Medan. Hingga saat ini dalam menentukan pelanggan terbaik dan potensial menjadi persoalan di Instansi-instansi baik pemerintah maupun swasta khususnya yang bergerak dibidang jasa. Faktor-faktor yang berpengaruh secara dominan dalam menentukan pelanggan terbaik dan potensial masih belum dapat ditentukan secara pasti. Saat ini manajemen Kantor Pos Medan masih menggunakan secara manual dalam menentukan pelanggan terbaiknya, sehingga sangat mungkin terjadi kesalahan pada prosedur yang sudah berjalan. Hal ini akan berpengaruh terhadap hasil keputusan yang akan diambil oleh pihak manajemen Kantor Pos Medan. Untuk itu sangat penting dibuat sebuah model aturan untuk menentukan pelanggan terbaik dan potensial yang dapat digunakan pihak manajemen sebagai sistem pendukung dalam pengambilan keputusan. Data yang digunakan dalam penelitian ini berasal dari database Kantor Pos Medan tahun 2011 – bulan maret 2013. Dalam tesis ini algoritma Kernel K-Means Clustering telah digunakan untuk mendapatkan suatu model aturan menentukan pelanggan terbaik dan potensial Kantor Pos Medan. Model aturan yang diperoleh menunjukkan bahwa katagori pelanggan terbaik dapat diperoleh jika transaksinya banyak dan besar uangnya sedang dan tinggi.


(11)

CUSTOMER SEGMENTATION MODEL USING KERNEL K-MEANS CLUSTERING BASED ON CUSTOMER RELATIONSHIP

MANAGEMENT (CRM) ABSTRACT

This thesis proposes a rule model in determining the best and potensial customers of Post Office Medan. Nowadays, determining the best and potensial customer is an issue, both for government agencies and the private sector especially for service firms. Until now, the dominant influencing factors in determining the best and potensial customers remain uncertain. Currently, the Post Office Medan use the manual method in determining its best customers. Hence, it encounter the errors in its existing procedures. Furthermore, it affect the decision making of management of Post Office Medan. It is urgent to establish a role model to determine the best and potensial customers for reliable decision-making system.

The data used in this study obtained from database field of Post Office Medan from 2011 to Mrch 2013. The Kernel K-Means Clustering algorithm used to obtain a model rule determine the best and potensial customers of Post Office Medan. The rule model show that the category of best customers can be determined from a large transaction, as well as the medium to hight amount of money.


(12)

DAFTAR ISI

Halaman

LEMBARAN JUDUL

LEMBARAN PENGESAHAN i

ABSTRAK ii

ABSTACT iii

DAFTAR ISI iv

DAFTAR GAMBAR viii

DAFTAR TABEL x

DAFTAR LAMPIRAN xi

BAB I. PENDAHULUAN 1

1.1. Latar Balakang Masalah 1

1.2. Perumusan Masalah 6

1.3. Batasan Masalah 7

1.4. Tujuan Penelitian 7

1.5. Manfaat Penelitian 7

BAB II. TINJAUAN PUSTAKA 8

2.1. Pendahuluan 8

2.2. DataWarehouse 9

2.3. Data Mining 12

2.3.1. Manfaat Data Mining 13

2.3.2 Tahapan Data Mining 14

2.3.3. Penambangan Data (Data Mining) 16

2.3.4 Evaluasi pola dan presentasi Pengetahuan 16

2.3.5 Fungsi-fungsi 16

2.3.6 Penerapan Data Mining 17

2.3.7 CRISP-DM 19


(13)

2.4. Customer Relationship Management (CRM)

2.4.1. Teknologi CRM 22

2.4.2. Data Mining Dalam Kerangka Kerja CRM 24

2.5. Clustering 25

2.5.1. Algoritma Klasifikasi K-Means 26

2.5.2. Clustering Hirarkhi 27

2.5.3. Clustering Partisional 28

2.6. Metode Klasifikasi Fuzzy RFM 29

2.7. Riset - Riset Terkait 30

2.8. Persamaan Dengan Riset-Riset Lain 33

2.9. Perbedaan Dengan Riset – Riset Lain 34

2.10. Kontribusi Riset 34

BAB III. METODOLOGI PENELITIAN 35

3.1. Pendahuluan 35

3.2. Rancangan Penelitian 35

3.3. Pra Pemrosesan Data (Preprocessing Data) 36

3.4. Deployment 40

3.5. Prosedur Penelitian 41

3.6. Diagram Aktivitas Penelitian 42

3.7. Tempat dan Waktu Penelitian 43

3.8. Jadwal Penelitian 43

BAB IV. HASIL DAN PEMBAHASAN 44

4.1. Pendahuluan 44

4.2. Hasil Transformasi Data 44

4.3. Cluster Model 47

4.4. Cluster Data Berdasarkan Katagori Terbaik 51

4.5. Analisis Cluster 52


(14)

4.5.1.1 Perhitungan Centroid Awal dengan 3 Nilai Centroid 52 4.5.1.2 Perhitungan Jarak Iterasi Pertama 3 Centroid Cluster 53 Nilai Tahun 2013

BAB IV. HASIL DAN PEMBAHASAN 54

4.5.1.3 Perhitungan Jarak Iterasi Pertama 3 Centroid Cluster 54 Nilai Tahun 2012 4.5.1.4 Perhitungan Jarak Iterasi Pertama 3 Centroid Cluster 55 Nilai Tahun 2011

4.5.1.5 Perhitungan Jarak Iterasi Kedua 3 Centroid Cluster 56 Nilai Tahun 2013 4.5.1.6 Perhitungan Jarak Iterasi Kedua 3 Centroid Cluster 57 Nilai Tahun 2012

4.5.1.7 Perhitungan Jarak Iterasi Kedua 3 Centroid Cluster 58 Nilai Tahun 2011

4.5.1.8 Tabel Hasil Akhir Perhitungan 59 4.5.1.9 Perhitungan Centroid Awal Deangan 2 Nilai Centroid 60 4.5.1.10 Perhitungan Jarak Iterasi Pertama 2 Centroid Cluster 61 Nilai Tahun 2013

4.5.1.11 Perhitungan Jarak Iterasi Pertama Cluster Nilai 62 Tahun 2012

4.5.1.12 Perhitungan Jarak Iterasi Pertama 2 Centroid Cluster 63 Nilai Tahun 2011 4.5.1.13 Perhitungan Jarak Iterasi Kedua 2 Centroid Cluster 64 Nilai Tahun 2013

4.5.1.14 Perhitungan Jarak Iterasi Kedua 2 Centroid Cluster 65 Nilai Tahun 2012

4.5.1.15 Perhitungan Jarak Iterasi Kedua 2 Centroid Cluster 66 Nilai Tahun 2011


(15)

4.5.1.16 Perhitungan Hasil Akhir 2 Iterasi Dengan 2 Centroid 67

4.5.2 Interpretasi Cluster 68 4.5.2.1 Nilai Anggota Pada Cluster Pertama (C0) Setelah 68

Di Cluster

4.5.2.2 Nilai Anggota Pada Cluster Pertama (C1) Setelah 69 Di Cluster

4.5.2.3 Nilai Anggota Pada Cluster Pertama (C2) Setelah 69 Di Cluster

4.5.3 Analisis Cluster 70

4.5.3.1 Pengukuran Validitas Dengan Nilai SSE 70 4.5.3.2 Model Aturan (Model Rule) 71

BAB V. KESIMPULAN DAN SARAN 73

5.1 Kesimpulan 73

5.2 Saran 73


(16)

DAFTAR GAMBAR Nomor

Gambar J u d u l Halaman

2.1 Arsitektur Data Warehouse 11 2.2 Tahap-tahap Knowledge Discovery in Database 15 2.3 Siklus Hidup CRISP-DM 19 2.4 Kerangka Kerja Teknik Data Mining Dalam CRM 25 3.1 Tampilan Aplikasi Data Mining 40 3.2 Prosedur Penelitian 41 3.3 Gambar Aktivitas Kerja Penelitian 42 4.1 Hasil Transformasi Data Pada Tampilan Aplikasi 45 4.2 Hasil Segmentasi Pelanggan 48 4.3 Persentase Layanan 49 4.4 Hasil Clustering Dalam Data View 50 4.5 Segmentasi Pelanggan Berdasarkan Transaksi 51 4.6 Nilai Centroid Awal Dengan 3 Centroid 52 4.7 Perhitungan Jarak Iterasi Pertama 3 Centroid Cluster

Tahun 2013

53

4.8 Perhitungan Jarak Iterasi Pertama 3 Centroid Cluster Tahun 2012

54

4.9 Perhitungan Jarak Iterasi Pertama 3 Centroid Cluster Tahun 2011

55

4.10 Perhitungan Jarak Iterasi Kedua 3 Centroid Tahun 2013 56 4.11 Perhitungan Jarak Iterasi Kedua 3 Centroid Tahun 2012 57 4.12 Perhitungan Jarak Iterasi Kedua 3 Centroid Tahun 2011 58 4.13 Tabel Hasil Akhir Perhitungan 59 4.14 Perhitungan Centroid Awal Untuk 2 Nilai Centroid 60 4.15 Perhitungan Iterasi Pertama Cluster Nilai Tahun 2013 61 4.16 Perhitungan Iterasi Pertama Cluster Nilai Tahun 2012 62 4.17 Perhitungan Iterasi Pertama Cluster Nilai Tahun 2011 63


(17)

Nomor

Gambar J u d u l Halaman

4.18 Perhitungan Iterasi Kedua Cluster Nilai Tahun 2013 64 4.19 Perhitungan Iterasi Kedua Cluster Nilai Tahun 2012 65 4.20 Perhitungan Iterasi Kedua Cluster Nilai Tahun 2011 66 4.21 Perhitungan Hasil Akhir 2 Iterasi Dengan 2 Centroid 67 4.22 Perhitungan Nilai SSE Pada 2 Nilai Centroid 70


(18)

DAFTAR TABEL

Nomor

Tabel J u d u l Halaman

2.1 Penelitian Yang Telah Dilakukan 33 3.1 Data Parsial Dari Database Kantor Pos Medan 37 3.2 Domain Nilai Untuk Masing-masing Himpunan Fuzzy RFM 39 4.1 Attribut Yang Belum DiKatagorisasikan 45 4.2 Attribut Yang Digunakan Untuk Segmentasi Pelanggan 46 4.3 Katagorisasi Atribut 46 4.4 Cluster Nodel Berdasarkan Monetary 47 4.5 Nilai Awal Iterasi Untuk 3 Dan 2 Centroid 53 4.6 Data Transaksi Pelanggan Sebelum Di Cluster 68 4.7 Nilai Anggota Tahun 2013, Tahun 2012, Tahun 2011

Pada (C0)

68

4.8 Nilai Anggota Tahun 2013, Tahun 2012, Tahun 2011 Pada (C1)

69

4.9 Nilai Anggota Tahun 2012, Tahun 2012, Tahun 2011 pada (C2)

69


(19)

DAFTAR LAMPIRAN

Nomor

Lampiran J u d u l Halaman

A Tabel Data Pelanggan Tahun 2013 Lamp A-1 A Tabel Data Pelanggan Tahun 2013 Lamp A-2 A Tabel Data Pelanggan Tahun 2013 Lamp A-3 B Tabel Data Pelanggan Tahun 2012 Lamp B-1 B Tabel Data Pelanggan Tahun 2012 Lamp B-2 B Tabel Data Pelanggan Tahun 2012 Lamp B-3 C Tabel Data Pelanggan Tahun 2011 Lamp C-1 C Tabel Data Pelanggan Tahun 2011 Lamp C-2 C Tabel Data Pelanggan Tahun 2011 Lamp C-3 D Daftar Pelanggan Kantor Pos Medan Lamp D-1 D Daftar Pelanggan Kantor Pos Medan Lamp D-2


(20)

ABSTRAK

Tesis ini mengusulkan sebuah model aturan dalam menentukan pelanggan terbaik dan potensial Kantor Pos Medan. Hingga saat ini dalam menentukan pelanggan terbaik dan potensial menjadi persoalan di Instansi-instansi baik pemerintah maupun swasta khususnya yang bergerak dibidang jasa. Faktor-faktor yang berpengaruh secara dominan dalam menentukan pelanggan terbaik dan potensial masih belum dapat ditentukan secara pasti. Saat ini manajemen Kantor Pos Medan masih menggunakan secara manual dalam menentukan pelanggan terbaiknya, sehingga sangat mungkin terjadi kesalahan pada prosedur yang sudah berjalan. Hal ini akan berpengaruh terhadap hasil keputusan yang akan diambil oleh pihak manajemen Kantor Pos Medan. Untuk itu sangat penting dibuat sebuah model aturan untuk menentukan pelanggan terbaik dan potensial yang dapat digunakan pihak manajemen sebagai sistem pendukung dalam pengambilan keputusan. Data yang digunakan dalam penelitian ini berasal dari database Kantor Pos Medan tahun 2011 – bulan maret 2013. Dalam tesis ini algoritma Kernel K-Means Clustering telah digunakan untuk mendapatkan suatu model aturan menentukan pelanggan terbaik dan potensial Kantor Pos Medan. Model aturan yang diperoleh menunjukkan bahwa katagori pelanggan terbaik dapat diperoleh jika transaksinya banyak dan besar uangnya sedang dan tinggi.


(21)

CUSTOMER SEGMENTATION MODEL USING KERNEL K-MEANS CLUSTERING BASED ON CUSTOMER RELATIONSHIP

MANAGEMENT (CRM) ABSTRACT

This thesis proposes a rule model in determining the best and potensial customers of Post Office Medan. Nowadays, determining the best and potensial customer is an issue, both for government agencies and the private sector especially for service firms. Until now, the dominant influencing factors in determining the best and potensial customers remain uncertain. Currently, the Post Office Medan use the manual method in determining its best customers. Hence, it encounter the errors in its existing procedures. Furthermore, it affect the decision making of management of Post Office Medan. It is urgent to establish a role model to determine the best and potensial customers for reliable decision-making system.

The data used in this study obtained from database field of Post Office Medan from 2011 to Mrch 2013. The Kernel K-Means Clustering algorithm used to obtain a model rule determine the best and potensial customers of Post Office Medan. The rule model show that the category of best customers can be determined from a large transaction, as well as the medium to hight amount of money.


(22)

BAB I PENDAHULUAN

1.1 Latar Belakang

Ketika suatu organisasi tumbuh semakin besar dan pola tingkatan operasionalnya semakin tidak sederhana dan kompleks, maka secara alamiah tuntutan pihak manajemen akan kebutuhan dan fungsional dari setiap system informasi semakin besar, khususnya pada fungsionalitas data, teknologi dan aplikasi.

Mengelola data dan informasi selaras dengan kebijakan dan strategi perusahaan dalam rangka mencapai misinya, merupakan hal yang tidak mudah. Kegagalan tersebut adalah sebagai berikut :

1. Peluang bisnis yang ada tidak dapat dimanfaatkan bahkan sering terlewatkan begitu saja.

2. Kegagalan pada integrasi system serta pengelolaan data dan informasi yang tidak efektif.

3. Prioritas pengelolaan data dan informasi tidak berbasis pada kebutuhan bisnis.

4. Perbedaan pemahanan mengenai arah kebijakan pengembangan system teknologi informasi dan teknologi informasi diantara pengguna (user) manajemen dan pengembang yang mengakibatkan kerugian pada produktivitas bisnis organisasi.


(23)

Arsitektur perusahaan dari suatu organisasi adalah sebuah mekanisme untuk menjamin agar sistem informasi dan teknologi informasi sebagai salah satu sumber daya organisasi dapat dijalankan selaras dengan strategi pencapaian misi bisnis organisasi tersebut..

Enterprise Architecture Planning merupakan suatu metode yang digunakan untuk membangun sebuah arsitektur perusahaan. Secara literal Enterprise

Architecture Planning atau EAP adalah suatu metode pendekatan

perencanaan kualitas data yang berorientasi pada kebutuhan bisnis yang terdiri dari arsitektur data, aplikasi dan teknologi serta bagaimana cara implementasi dari arsitektur tersebut sedemikian rupa, dalam usaha untuk mendukung perputaran roda bisnis dan pencapaian misi sistem informasi dan organisasi.

Pada dasarnya EAP bukan merancang bisnis dan arsitekturnya, tetapi mendefinisikan kebutuhan bisnis dan arsitekturnya. Dalam EAP, arsitektur menjelaskan mengenai data, aplikasi dan teknologi yang dibutuhkan untuk mendukung bisnis organisasi.

Suatu organisasi yang berusaha membangun arsitektur-nya terkadang tidak dapat memahami hasil perencanaan sistem informasi dalam bisnisnya, hanya karena bahasa dan model yang digunakan cenderung rumit dan bersifat sangat teknis sehingga sulit dimengerti. Akibatnya tidak ada umpan balik darinya yang justru merupakan faktor utama dalam perencanaan tadi. Keberhasilan pengimplementasian sangat tergantung pada pemahaman dari setiap entitas bisnis itu sendiri termasuk komitmen manajemen organisasi tersebut.

Customer Relationship Management (CRM), dalam Bahasa Indonesia menjadi manajemen hubungan pelanggan. Konsep CRM merupakan spesifikasi dari konsep Relationship Marketing (RM). Konsep relationship marketing (pemasaran hubungan) menekankan bahwa perusahaan harus berinteraksi dan menjalin hubungan dengan berbagai pihak yang berkepentingan terhadap perusahaan (stakeholders), karena hubungan yang baik merupakan asset yang paling mendasar bagi suatu perusahaan. Adapun konsep CRM lebih menekankan pada menjalin hubungan baik dengan


(24)

pelanggan sebagai salah satu stakeholders, karena pelanggan dianggap sebagai ujung tombak suatu bisnis.

Paradigma baru dunia bisnis menunjukkan bahwa konsumen berperan aktif dalam menciptakan nilai. Hal ini menyebabkan meningkatnya peran konsumen sebagai sumber kompetensi baru bagi perusahaan. Kompetensi yang dimiliki konsumen adalah pengetahuan, keahlian, kemauan untuk belajar dan bereksperimen, serta kemampuan terlibat komunikasi yang aktif dengan perusahaan. (Gaffar, 2007). Hal tersebut dilakukan agar perusahaan dapat menciptakan produk atau jasa yang sangat sesuai dengan yang dibutuhkan oleh konsumen. Untuk itu dibutuhkan adanya saluran komunikasi yang baik yang memungkinkan adanya interaksi yang intensif antara perusahaan dengan konsumen.

Dengan demikian menurut Gray dan Byun dalam Gaffar (2007:41) keseluruhan proses dan aplikasi dari CRMberdasarkan kepada prinsip-prinsip dasar yaitu perlakukan pelanggan secara individu. Jadi CRM didasarkan pada filosofi personalisasi, yaitu tujuan dan pelayanan kepada pelanggan harus dirancang berdasarkan preferensi pelanggan dan perilaku pelanggan.

Konsep CRM banyak diadopsi oleh perusahaan yang bergerak dalam pelayanan jasa.

Beberapa alasan disebutkan oleh para ahli marketing berkaitan dengan munculnya konsep CRM, diantaranya pelanggan semakin lebih cerdas, lebih sadar harga, lebih menuntut, kurang memaafkan, dan didekati oleh lebih banyak perusahaan dengan tawaran yang sama atau bahkan lebih baik. Jadi “ tidak cukup hanya menghasilkan pelanggan yang puas, tetapi harus sampai pada merasa senang dan menjadi setia (loyal).” (Kotler, 2006). Oleh karena itu terjadi pergeseran dari paradigma pemasaran massal (mass marketing)


(25)

Data mining adalah sebuah proses percarian secara otomatis informasi yang berguna dalam tempat penyimpanan data berukuran besar. Istilah lain yang sering digunakan diantaranya knowledge discovery (mining) in databases (KDD), knowledge extraction, data / pattern analysis, data archeology, data dredging, information harvesting, dan business intelligence.

Teknik data mining digunakan untuk memeriksa data base berukuran besar sebagai cara untuk menemukan pola yang baru dan berguna. Tidak semua pekerjaan pencarian informasi dinyatakan sebagai data mining. Sebagai contoh, pencarian record individual menggunakan database management system atau pencarian halaman web tertentu melalui kueri ke semua search engine adalah pekerjaan pencarian informasi yang erat kaitannya dengan

information retrieval. Teknik-teknik data mining dapat digunakan untuk meningkatkan kemampuan sistem-sistem information retrieval.

Dalam hal ini, konsumen yang berbeda mewakili nilai yang berbeda. Pihak manajemen perusahaan jasa harus mampu untuk mengenali konsumen terbaiknya dan mempercayainya dengan meningkatkan pemahaman perusahaan akan kebutuhan mereka sebagai individu sehingga dapat mempertahankan loyalitasnya terhadap perusahaan. Dengan menerapkan konsep CRM (Customer Relationship Management), perusahaan dapat melakukan identifikasi konsumen dengan melakukan segmentasi konsumen. Tujuan dari proses segmentasi konsumen adalah untuk mengetahui perilaku konsumen dan menerapkan strategi pemasaran yang tepat sehingga mendatangkan keuntungan bagi pihak perusahaan.

PT. Pos Indonesia (Persero) adalah suatu perusahaan yang bergerak di bidang jasa. Adapun jenis layanan yang diselenggarakan oleh PT. Pos diantaranya adalah pengiriman dan surat kilat khusus-paket pos.


(26)

Saat ini PT. Pos Indonesia sedang dalam masa peralihan dari Portal Company Menjadi Network Company. Sistem CRM adalah suatu system, metodologi, strategi, perangkat lunak dan aplikasi yang mampu mengelola hubungan dengan para pelanggan. Dalam CRM sendiri terdapat tiga unsur yaitu manusia, proses, dan teknologi. Tujuan diterapkannya sistem CRM sebagai berikut :

1. Sistem CRM membantu mengurangi biaya operasional pemasaran, customer service, dan technical support sehingga lebih menghasilkan profit.

2. Sistem CRM pada PT.Pos Indonesia masih perlu dikembangkan agar penggunaannya bisa lebih efektif dan efisien.

3. Diperlukan suatu sistem informasi keuangan untuk mengintegrasikan sistem CRM ini dengan sistem proses bisnis lainnya sehingga proses bisnis dapat bekerja secara real time.

Arsitektur Sistem CRM pada PT. Pos Indonesia Marketing Sales, Services Quality Control, Shipment Branch Management. Visi PT. Pos Indonesia menjadi pemimpin pasar di Indonesia dengan menyediakan layanan surat pos, paket, dan logistik yang handal serta jasa keuangan yang terpercaya.

Misi PT. Pos Indonesia berkomitmen kepada pelanggan untuk menyediakan layanan yang selalu tepat waktu dan nilai terbaik berkomitmen kepada karyawan untuk memberikan iklim kerja yang aman, nyaman dan menghargai. Kontribusi berkomitmen kepada pemegang saham untuk memberikan hasil usaha yang menguntungkan dan terus bertumbuh, berkomitmen untuk berkontribusi positif kepada masyarakat, berkomitmen untuk berperilaku transparan dan terpercaya kepada seluruh pemangku kepentingan dengan motto tepat waktu setiap waktu


(27)

Pada penelitian ini akan digunakan teknik data mining yaitu algoritma Kernel K-Means Clustering untuk membuat model aturan dalam membuat

segmentasi pelanggan . Data yang digunakan dalam penelitian ini adalah data kantor pos Medan yang beralamat jalan Bukit Barisan no. 1 Medan.

Algoritma K-Means mengklusterkan ukuran jarak Eucliden, dimana jarak dihitung adalah untuk mencari kuadrat dari jarak antara masing-masing nilai, menjumlahkan kuadrat dan menemukan akar kuadrat dari jumlah tersebut .

Kernel K-Means adalah pengembangan dari Algoritma K-Means yang menggunakan metode Kernel untuk memetakan data yang berdimensi tinggi pada space yang baru sehingga dapat dipisahkan secara linear. Hal ini dilakukan untuk meningkatkan akurasi hasil klaster. Didalam Kernel K-Means diharapkan data dapat dipisahkan dengan lebih baik karena data yang

overlap atau data outlier bisa menjadi linear diruang dimensi baru.

Berdasarkan masalah diatas maka penelitian ini akan memaparkan algoritma Kernel K-Means Clustering untuk membuat model aturan dalam melakukan segmentasi pelanggan PT. Pos Indonesia (Persero).

1.2 Perumusan Masalah

Berdasarkan latar belakang di atas, dapat dirumuskan beberapa masalah yang menjadi inti dari penelitian ini, yaitu :

1. Bagaimana menggunakan metode Kernel untuk data pelanggan pada perusahaan yang bergerak dibidang jasa.

2. Bagaimana memperoleh model segmentasi pelanggan dengan Kernel K-Means Clustering berbasis Customer Relationship Management (CRM).


(28)

1.3 Batasan Masalah

Untuk memfokuskan pada permasalahan diatas, maka permasalahan dalam penelitian ini dibatasi sebagai berikut :

1. Indikator yang menjadi ukuran segmentasi pelanggan menggunakan 3 (tiga) atribut yaitu Recency, Frequency, dan Monetary.

2. Data yang diambil untuk dijadikan sampel adalah data Kantor Pos Medan .

3. Pengujian data dibangun aplikasi model segmentasi pelangan dengan metode k-means clustering.

1.4 Tujuan Penelitian

Tujuan yang ingin dicapai dari penelitian ini adalah :

1. Membangun suatu model segmentasi pelanggan dengan metode k-means clustering berbasis Customer Relationship Management

(CRM) untuk meningkatkan pertumbuhan jangka panjang dan

profitabilitas perusahaan dengan mengetahui prilaku dan kebutuhan pelanggan.

2. Mengevaluasi model segmentasi pelanggan dengan kernel k-means clustering berbasis Customer Relationship Management (CRM) yang telah dikembangkan untuk mendapatkan nilai parameter yang menghasilkan output yang optimal.

1.5 Manfaat Penelitian

Hasil penelitian ini diharapkan dapat bermanfaat bagi unit Pemasaran dan Manajemen sebagai early warning system dalam melakukan peningkatan kinerja perusahaan.


(29)

BAB 2

TINJAUAN PUSTAKA

2.1 Pendahuluan

Data Mining atau pertambangan data adalah suatu aplikasi database yang memiliki kemampuan pencarian data yang menggunakan statistikal algoritma untuk menemukan pola dan korelasi dalam data. Data mining dapat menemukan informasi yang berada di gudang data dalam perusahaan. Data mining mempunyai pola dan hubungan yang menggambarkan langkah-langkah yang harus diambil untuk memastikan hasil yang tepat. Software data mining bertujuan untuk mengetahui bisnis, memahami data dan membantu analis bisnis untuk menghasilkan hipotesis.

Manajemen hubungan pelanggan atau disebut juga Customer Relationship Management (CRM) adalah sebuah sistem informasi yang digunakan untuk merencanakan, menjadwalkan, dan mengendalikan aktivitas-aktivitas prapenjualan dan pascapenjualan dalam sebuah organisasi. Hal ini melingkupi semua aspek perusahaan yang berhubungan dengan calon pelanggan.

Manajemen hubungan pelanggan juga mencakup pengembangan yang menawarkan produk untuk dijual pada pelanggan. Dalam penjualan, perusahaan menggunakan manajemen pemasaran untuk menargetkan peningkatan efektivitas pemasaran. Tujuan dari manajemen hubungan pelanggan adalah meningkatkan pertumbuhan jangka panjang dan profitabilitas perusahaan melalui pengertian terhadap kebiasaan dan perilaku (behavior) pelanggan. Sumber data manajemen hubungan pelanggan ini dapat diperoleh melalui survei pelanggan dari pemberian pertanyaan, serta perilaku data yang terdapat dalam sistem transaksi.

Kemajuan teknologi zaman sekarang membuat hubungan pemasaran lebih maju, sehingga hubungan perusahaan dengan pelanggan menjadi pusat


(30)

masalah bisnis perusahaan dalam konsep pemasaran. Manajemen hubungan pelanggan ini dapat membantu proses penjual dan pembeli perusahaan untuk berkomunikasi menawarkan produk yang ditargetkan dan meningkatkan efisiensi bagi kedua pihak. Untuk itu data mining dapat dipilih sebagai sistem yang tepat untuk kemajuan perusahaan. Data mining dapat menemukan informasi yang berada di gudang data perusahaan yang terletak pada penyimpanan data komputer dan data bisnis tersebut dapat bermanfaat sebagai informasi dalam setiap langkah pembangunan. Data mining juga dapat memprediksi keuntungan perusahaan dari pelanggan. Data mining

memainkan peran penting dalam proses manajamen hubungan pelanggan dengan mencakup interaksi pelanggan dengan data dan perangkat lunak manajemen. Program manajemen hubungan pelanggan yang menggunakan

data mining dapat mengakibatkan peningkatan nilai pelanggan perusahaan bila digunakan dengan sistem yang tepat.

2.2 Data Warehouse

Data warehouse merupakan kumpulan data dari berbagai sumber yang disimpan dalam suatu gudang data ( repository ) dalam kapasitas besar dan digunakan untuk proses pengambilan keputusan (Prabhu, 2007). Menurut William Inmon, karakteristik dari data warehouse adalah sebagai berikut :

1. Subject oriented.

Pada sistem operasional, data disimpan berdasarkan aplikasi. Set data hanya terdiri dari data yang dibutuhkan oleh fungsi yang terkait dan aplikasinya, sedangkan pada data warehouse, data disimpan bukan berdasarkan aplikasi, melainkan berdasarkan subjeknya. Misalnya untuk sebuah perusahaan manufaktur subjek bisnis yang penting, yaitu penjualan, pengangkutan, dan penyimpanan barang.


(31)

2. Integrated.

Data yang tersimpan dalam data warehouse terdiri dari berbagai system operasional. Oleh sebab itu terdapat kemungkinan bahwa terjadi beberapa perbedaan, yaitu dalam konvensi penamaan, representasi kode, atribut data, dan pengukuran data. Keempat perbedaan tersebut harus disamakan terlebih dahulu sesuai dengan standar tertentu agar data yang nantinya tersimpan dalam data warehouse dapat terintegrasi.

3. Time variant.

Pada data warehouse, data yang tersimpan adalah data historis dalam kurun waktu tertentu, bukan data terkini. Oleh karena itu data yang tersimpan mengandung keterangan waktu, misalnya tanggal, minggu, bulan, catur wulan, dan sebagainya. Karakteristik time variant pada data warehouse

memiliki karakteristik sebagai berikut :

a.Melakukan analisa terhadap hal di masa lalu.

b.Mencari hubungan antara informasi dengan keadaan saat ini. c.Melakukan prediksi hal yang akan datang.

4 Non-volatile.

Data dalam sistem operasional dapat di-update sesuai transaksi bisnis. Setiap kali terjadi transaksi bisnis. Namun dalam data warehouse, data tidak dapat diubah karena bersifat read only.

Arsitektur data warehouse (gambar 2.1) mencakup proses ETL

(Extraction, Transformation, Loading) untuk memindahkan data dari

operational data source dan sumber data eksternal lainnya ke dalam data

warehouse . Data warehouse dapat dibagi menjadi beberapa data mart,

berdasarkan fungsi bisnisnya (contoh data mart untuk penjualan, pemasaran, dan keuangan). Data dalam data warehouse dan data mart diatur oleh satu atau lebih server yang mewakili multidimensional view dari data terhadap berbagai front end tool, seperti query tools, analysis tools, report writers, dan


(32)

Gambar 2.1 Arsitektur Data Warehouse

Proses ETL (Extraction, Transformation, Loading) merupakan proses yang harus melalui dalam pembentukan data warehouse (Kimball, 2004).

Berikut adalah penjelasan dari tiap proses. 1. Ekstraksi Data (Extract)

Ekstraksi data adalah proses dimana data diambil atau diekstrak dari berbagai sistem operasional, baik menggunakan query, atau aplikasi ETL. Terdapat beberapa fungsi ekstraksi data, yaitu :

a. Ekstraksi data secara otomatis dari aplikasi sumber. b.Penyaringan atau seleksi data hasil ekstraksi.

c. Pengiriman data dari berbagai platform aplikasi ke sumber data. d.Perubahan format layout data dari format aslinya.

e. Penyimpanan dalam file sementara untuk penggabungan dengan hasil ekstraksi dari sumber lain.

2. Transformasi Data (Transformation)

Transformasi adalah proses dimana data mentah (raw data) hasil ekstraksi disaring dan diubah sesuai dengan kaidah bisnis yang berlaku. Langkah-langkah dalam transformasi data adalah sebagai berikut :


(33)

a. Memetakan data input dari skema data aslinya ke skema data warehouse.

b.Melakukan konversi tipe data atau format data.

c. Pembersihan serta pembuangan duplikasi dan kesalahan data. d.Penghitungan nilai-nilai derivat atau mula-mula.

e. Penghitungan nilai-nilai agregat atau rangkuman. f. Pemerikasaan integritas referensi data.

g. Pengisian nilai-nilai kosong dengan nilai default. h.Penggabungan data.

3. Pengisian Data (Loading)

Proses terakhir yang perlu dilakukan adalah proses pemuatan data yang di dapatkan dari hasil transformasi ke dalam data warehouse. Cara untuk memuat data adalah dengan menjalankan SQL script secara periodik.

2.3 Data Mining

Data mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basisdata. Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basisdata.

Data mining terutama digunakan untuk mencari pengetahuan yang terdapat dalam data base yang besar sehingga sering disebut Knowledge Discovery in Databases (KDD). Proses pencarian pengetahuan ini menggunakan berbagai teknik-teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksikannya. Proses pencarian bersifat iteratif dan interaktif untuk menemukan pola atau model yang sahih, baru, bermanfaat, dan dimengerti. Dalam penerapannya data mining

memerlukan berbagai perangkat lunak analisis data untuk menemukan pola dan relasi data agar dapat digunakan untuk membuat prediksi dengan akurat.


(34)

2.3.1 Manfaat Data Mining

Pemanfaatan data mining dapat dilihat dari dua sudut pandang, yaitu sudut pandang komersial dan sudut pandang keilmuan. Dari sudut pandang komersial, pemanfaatan data mining dapat digunakan dalam menangani meledaknya volume data. Bagaimana mana menyimpannya, mengestraknya serta memanfaaatkannya. Berbagai teknik komputasi dapat digunakan menghasilkan informasi yang dibutuhkan. Informasi yang dihasilkan menjadi asset untuk meningkatkan daya saing suatu institusi.

Data mining tidak hanya digunakan untuk menangani persoalan menumpuknya data / informasi dan bagaimana menggudangkannya tanpa kehilangan informasi yang penting (warehousing). Data mining juga diperlukan untuk menyelesaikan permasalahan atau menjawab kebutuhan bisnis itu sendiri, misalnya:

• Bagaimana mengetahui hilangnya pelanggan karena pesaing

• Bagaimana mengetahui item produk atau konsumen yang memiliki kesamaan karakteristik

• Bagaimana mengidentifikasi produk-produk yang terjual bersamaan dengan produk lain.

• Bagaimana memprediski tingkat penjualan

• Bagaimana menilai tingkat resiko dalam menentukan jumlah produksi suatu item.

• Bagaimana memprediksi prilaku bisnis di masa yang akan datang

Dari sudut pandang keilmuan, data mining dapat digunakan untuk mengcapture, menganlisis serta menyimpan data yang bersifat real-time dan sangat besar, misalnya:


(35)

• Remote sensor yang ditempatkan pada suatu satelit

• Telescope yang digunakan untuk memindai langit

• Simulasi saintifik yang membangkitkan data dalam ukuran terrabytes

Data mining merupakan salah satu metode alternatif yang dapat digunakan untuk mengolah data mentah, ketika metode konvensional tidak fisibel untuk dilakukan karena besarnya volume data yang diolah. Hal ini dapat terjadi karena data mining memiliki kemampuan mereduksi data baik melalui teknik katalogisasi, klasifikasi maupun segementasi.

2.3.2 Tahapan Data Mining

Data mining sesungguhnya merupakan salah satu rangkaian dari proses pencarian pengetahuan pada database (Knowledge Discovery in Database/KDD). KDD berhubungan dengan teknik integrasi dan penemuan ilmiah, interprestasi dan visualisasi dari pola-pola sejumlah kumpulan data.

KDD adalah keseluruhan proses non-trivial untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan bersifat sah, baru, dapat bermanfaat dan dapat dimengerti. Serangkaian proses tersebut yang memiliki tahap sebagai berikut (Tan, 2006):

1. Pembersihan data dan integrasi data (cleaning and integration) Proses ini digunakan untuk membuang data yang tidak konsisten dan bersifat

noise dari data yang terdapat di berbagai basisdata yang mungkin berbeda format maupun platform yang kemudian diintegrasikan dalam satu database data warehouse.

2. Seleksi dan transformasi data (selection and transformation) Data yang terdapat dalam database data warehouse kemudian direduksi dengan berbagai teknik. Proses reduksi diperlukan untuk mendapatkan hasil yang lebih akurat dan mengurangi waktu


(36)

komputasi terutama utuk masalah dengan skala besar (large scale problem).

Beberapa cara seleksi, antra lain:

Sampling, adalah seleksi subset representatif dari populasi data yang besar.

Denoising, adalah proses menghilangkan noise dari data yang akan ditransformasikan

Feature extraction, adalah prosesmembuka spesifikasi data yang signifikan dalam konteks tertentu.

Transformasi data diperlukan sebagai tahap pre-procecing, dimana data yang diolah siap untuk ditambang. Beberapa cara transformsi, antara lain (Santoso, 2007):

Centering, mengurangi setiap data dengan rata-rata dari setiap atribut yang ada.

Normalisation, membagi setiap data yang dicentering dengan standar deviasi dari atribut bersangkutan.

Scaling, mengubah data sehingga berada dalam skala tertentu.


(37)

2.3.3 Penambangan data (data mining)

Data yang telah diseleksi dan ditransformasi ditambang dengan berbagai teknik. Proses data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan fungsi-fungsi tertentu. Fungsi atau algoritma dalam data mining sangat bervariasi. Pemilihan fungsi atau algoritma yang tepat sangat bergantung pada tujuan dan proses pencaraian pengetahuan secara keseluruhan.

2.3.4 Evaluasi pola dan presentasi pengetahuan

Tahap ini merupakan bagian dari proses pencarian pengetahuan yang mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya. Langkah terakhir KDD adalah mempresentasikan pengetahuan dalam bentuk yang mudah dipahami oleh pengguna.

2.3.5 Fungsi-fungsi

Fungsi-fungsi yang umum diterapkan dalam data mining (Haskett, 2000):

Assosiation, adalah proses untuk menemukan aturan assosiatif antara suatu kombinasi item dalam suatu waktu

Secuence, hampir sama dengan association bedanya seccuence

diterapkan lebih dari satu periode.

Clastering, adalah proses pengelompokan sejumlah data / obyek ke dalam kelompok-kelompok data (klaster) sehingga setiap klaster akan berisi data yang saling mirip.

Classification, adalah proses penemuan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui.


(38)

Forecasting, adalah proses pengestimasian nilai prediksi berdasarkan pola-pola di dalam sekumpulan data

Solution, adalah proses penemuan akar masalah dan problem solving

dari persoalan bisnis yang dihadapi atau paling tidak sebagai informasi pendukung dalam pengambilan keputusan.

2.3.6 Penerapan Data Mining

Sebagai cabang ilmu baru di bidang komputer cukup banyak penerapan yang dapat dilakukan oleh Data Mining. Apalagi ditunjang ke-kaya-an dan keanekaragaman berbagai bidang ilmu (artificial intelligence, database, statistik, pemodelan matematika, pengolahan citra ) membuat penerapan data mining menjadi makin luas. Berikut beberapa penerapannya

• Analisa Pasar dan Manajemen

Untuk analisa pasar, banyak sekali sumber data yang dapat digunakan seperti transaksi kartu kredit, kartu anggota club tertentu, kupon diskon, keluhan pembeli, ditambah dengan studi tentang gaya hidup publik.

• Menembak target pasar

Data mining dapat melakukan pengelompokan (clustering) dari model model pembeli dan melakukan klasifikasi terhadap setiap pembeli sesuai dengan karakteristik yang diinginkan seperti kesukaan yang sama, tingkat penghasilan yang sama, kebiasaan membeli dan karakteristik lainnya.

• Melihat pola beli pemakai dari waktu ke waktu

Data mining dapat digunakan untuk melihat pola beli seseorang dari waktu ke waktu. Sebagai contoh, ketika seseorang menikah bisa saja dia kemudian memutuskan pindah dari single account ke joint account (rekening bersama) dan kemudian setelah itu pola beli-nya berbeda dengan ketika dia masih bujangan.


(39)

Cross market analisys

Kita dapat memanfaatkan data mining untuk melihat hubungan antara penjualan satu produk dengan produk lainnya.

Profil customer

Data mining dapat membantu untuk melihat profil customer / pembeli / nasabah sehingga kita dapat mengetahui kelompok customer tertentu suka membeli produk apa saja.

• Identifikasi kebutuhan user

Kita dapat mengidentifikasi produk-produk apa saja yang terbaik untuk tiap kelompok customer dan menyusun faktor-faktor apa saja yang kira-kira dapat menarik customer baru untuk bergabung / membeli.

• Perencanaan keuangan dan evaluasi asset

Data Mining dapat membantu untuk melakukan analisis dan prediksi cash flow serta melakukan contingent claim analysis untuk mengevaluasi aset. Selain itu juga dapat menggunakannya untuk analisis trend.

• Perencanaan sumber daya (Reseource planning)

Dengan melihat informasi ringkas (summary) serta pola pembelanjaan dan pemasukan dari masing-masing resource, kita dapat memanfaatkannya untuk melakukan resource planning.

• Persaingan (competision)

Sekarang ini banyak perusahaan yang berupaya untuk dapat melakukan competitive intelligence. Data Mining dapat membantu untuk memonitor pesaing-pesaing dan melihat market direction seperti :

 Melakukan pengelompokan customer, memberikan variasi harga/layanan/bonus untuk masing-masing grup.

 Menyusun strategi penetapan harga di pasar yang sangat kompetitif. Hal ini diterapkan oleh perusahaan minyak REPSOL di Spanyol dalam menetapkan harga jual gas di pasaran.


(40)

2.3.7 CRISP-DM

CRISP-DM (CRoss-Industry Standard Process for Data Mining) merupakan suatu konsorsium perusahaan yang didirikan oleh Komisi Eropa pada tahun 1996 dan telah ditetapkan sebagai proses standar dalam data mining yang dapat diaplikasikan di berbagai sektor industri. Gambar 2.3 menjelaskan tentang siklus hidup pengembangan data mining yang telah ditetapkan dalam

CRISP-DM.

Gambar 2.3 Siklus Hidup CRISP-DM (Chapman, 2000)

Berikut ini adalah enam tahap siklus hidup pengembangan data mining

(Chapman, 2000) :

1. Business Understanding

Tahap pertama adalah memahami tujuan dan kebutuhan dari sudut pandang bisnis, kemudian menterjemakan pengetahuan ini ke dalam pendefinisian


(41)

masalah dalam data mining. Selanjutnya akan ditentukan rencana dan strategi untuk mencapai tujuan tersebut.

2. Data Understanding

Tahap ini dimulai dengan pengumpulan data yang kemudian akan dilanjutkan dengan proses untuk mendapatkan pemahaman yang mendalam tentang data, mengidentifikasi masalah kualitas data, atau untuk mendeteksi adanya bagian yang menarik dari data yang dapat digunakan untuk hipotesa untuk informasi yang tersembunyi.

3. Data Preparation

Tahap ini meliputi semua kegiatan untuk membangun dataset akhir (data yang akan diproses pada tahap pemodelan/modeling) dari data mentah. Tahap ini dapat diulang beberapa kali. Pada tahap ini juga mencakup pemilihan tabel, record, dan atribut-atribut data, termasuh proses pembersihan dan transformasi data untuk kemudian dijadikan masukan dalam tahap pemodelan (modeling).

4. Modeling

Dalam tahap ini akan dilakukan pemilihan dan penerapan berbagai teknik pemodelan dan beberapa parameternya akan disesuaikan untuk mendapatkan nilai yang optimal. Secara khusus, ada beberapa teknik berbeda yang dapat diterapkan untuk masalah data mining yang sama. Di pihak lain ada teknik pemodelan yang membutuhan format data khusus. Sehingga pada tahap ini masih memungkinan kembali ke tahap sebelumnya.

5. Evaluation

Pada tahap ini, model sudah terbentuk dan diharapkan memiliki kualitas baik jika dilihat dari sudut pandang analisa data. Pada tahap ini akan dilakukan evaluasi terhadap keefektifan dan kualitas model sebelum digunakan dan menentukan apakah model dapat mencapat tujuan yang ditetapkan pada fase awal (Business Understanding). Kunci dari tahap ini adalah menentukan apakah ada masalah bisnis yang belum dipertimbangkan. Di akhir dari tahap ini harus ditentukan penggunaan hasil proses data mining.


(42)

6. Deployment

Pada tahap ini, pengetahuan atau informasi yang telah diperoleh akan diatur dan dipresentasikan dalam bentuk khusus sehingga dapat digunakan oleh pengguna. Tahap deployment dapat berupa pembuatan laporan sederhana atau mengimplementasikan proses data mining yang berulang dalam perusahaan. Dalam banyak kasus, tahap deployment melibatkan konsumen, di samping analis data, karena sangat penting bagi konsumen untuk memahami tindakan apa yang harus dilakukan untuk menggunakan model yang telah dibuat.

2.4 Customer Relationship Management (CRM) / Manajemen Hubungan

Pelanggan

Konsumen merupakan aset yang sangat penting bagi suatu perusahaan. Tidak akan ada prospek bisnis tanpa adanya hubungan antara perusahaan dengan konsumen yang bersifat loyal. Hal ini adalah alasan mengapa perusahaan harus merencanakan dan menggunakan strategi yang cukup jelas dalam memperlakukan konsumen. Customer Relationship Management (CRM) telah berkembang dalam beberapa dekade belakangan ini untuk merefleksikan peranan utama dari konsumen untuk pengaturan strategi perusahaan. CRM meliputi seluruh ukuran untuk memahami konsumen dan proses untuk mengeksploitasi pengetahuan ini untuk merancang dan mengimplementasikannya pada kegiatan marketing, produksi, dan rantai

supply dari pemasok (supplier). Berikut ini akan didefenisikan beberapa pengertian CRM yang diambil dari berbagai literatur, antara lain (Tama, 2009) :

1. Dari sisi yang berkaitan dengan teknologi informasi, CRM adalah sebuah strategi untuk mengoptimalkan customer lifetime value

dengan cara mengetahui lebih banyak mengenai informasi konsumen dan berinteraksi dengan konsumen secara intensif (Todman, 2001).


(43)

2. Dari sisi komunikasi dan manajemen, CRM di definisikan sebagai sebuah pendekatan perusahaan untuk memahami dan mempengaruhi perilaku konsumen melalui komunikasi yang intensif dalam rangka meningkatkan akuisisi konsumen, mempertahankan konsumen, dan loyalitas konsumen (Swift, 2001).

3. Definisi CRM jika dilihat dari segi bisnis dapat diartikan sebagai sebuahstrategi bisnis untuk memahami, mengantisipasi dan mengelola kebutuhan konsumen yang potensial dalam suatu organisasi pada saat sekarang dan yang akan datang (Brown, 2000).

Dari ketiga definisi di atas dapat ditarik kesimpulan mengenai definisi CRM yaitu sebuah pendekatan yang komprehensif yang mengintegrasikan setiap bisnis proses yang berhubungan langsung dengan konsumen, yaitu penjualan, pemasaran dan layanan konsumen melalui integrasi filosofi, teknologi, dan juga proses (Tama, 2009). Dengan kata lain, CRM dipandang bukanlah sebagai sebuah produk ataupun sebuah layanan, tetapi sebuah filosofi bisnis yang bertujuan memaksimalkan nilai konsumen dalam jangka panjang (customer lifetime value).

2.4.1 Teknologi CRM

Sebuah definisi standar mengenai komponen teknologi CRM diberikan oleh META Group di dalam “The Customer Relationship Management Ecosystem”. Kategorisasi ini bertujuan untuk lebih memahami bagaimana suatu strategi CRMdan teknologinya mampu menyediakan seluruh arsitektur secara menyeluruh yang terfokus pada layanan konsumen. Ada tiga tipe utama dari teknologi CRM yaitu (Tama, 2009) :

1.Operational CRM, yang dikenal sebagai CRM “front office”. Operational

CRM merupakan area dimana terjadi hubungan dengan konsumen secara langsung. Otomasi dari proses bisnis yang terintegrasi yang melibatkan


(44)

front office customer touch points, seperti penjualan, pemasaran, dan layanan konsumen, termasuk ntegrasi. Dengan perkembangan teknologi informasi dan komunikasi yang pesat, operational CRM kemudian juga dapat dibedakan menjadi dua bagian yaitu e-CRM dan m-CRM. antara

front office dan back office, seperti manajemen pesanan, dan otomasi pemasaran

2. Collaborative CRM, merupakan bentuk perluasan dari CRM tradisional.

Collaborative CRM berkaitan dengan manajemen hubungan antara

stakeholder eksternal, seperti supplier, distributor, dan reseller. Aplikasi utama dari collaborative CRM adalah enterprise portal yang berbasis pada infrastruktur ekstranet dan perangkat lunak manajemen hubungan mitra (partner relationshiop management software) yang memberikan akses kepada konsumen, reseller, dan mitra bisnis melalui internet.

2 Analytical CRM yang dikenal sebagai CRM “ Back office” atau strategic CRM. Analytical CRM biasanya berhubungan dengan penggunaan data secara efective, efisien dan strategis sehingga memungkinkan pengambilan keputusan yang tepat bagi pihak manajemen. Pengambilan keputusan dilaksanakan setelah melalui proses analisis, pemodelan, dan evaluasi terhadap data yang tersimpan didata base untuk menghasilkan sebuah hubungan yang saling menguntungkan antara perusahaan dan konsumennya . Contoh dari Analytical CRM adalah business intelegence seperti data warehaouse, OLAP, dan data mining.

Hal yang terpenting dalam memahami perilaku konsumen tidak hanya memahami siapa mereka (dalam hal ini customer profiling atau segmentation) tetapi juga perilaku mereka dan pola-pola (pattern) yang mereka ikuti. Pemahaman perilaku pelanggan harus ditetapkan sebagai suatu proses yang dinamis dan berkelanjutan (Xu dan Walton, 2005).


(45)

2.4.2 Data Mining Dalam Kerangka Kerja CRM

Menurut Swift, dkk (2001), CRM memiliki empat dimensi, yaitu : 1. Identifikasi konsumen (customer identification).

2. Membangun daya tarik terhadap konsumen (customer attraction). 3. Mempertahankan konsumen yang ada (customer retention). 4. Pengembangkan konsumen (customer development).

Keempat dimensi dari CRM tersebut dapat dilihat sebagai siklus tertutup dalam Customer Management System. Setiap dimensi memiliki tujuan umum yang sama yaitu untuk membangun pemahaman yang lebih mendalam dari konsumen dan meningkatkan nilai konsumen (customer value) dari perusahaan. Dalam kaitannya dengan pencapaian tujuan tersebut, teknik data mining dapat digunakan untuk menemukan karakteristik dan perilaku konsumen yang tersembunyi dalam database yang berukuran besar. Untuk menemukan pola karakteristik dan perilaku konsumen, dapat digunakan metode pemodelan data dalam teknik data mining.

Beberapa metode pemodelan data yang dapat digunakan, yaitu : 1. Association

2. Classification 3. Clustering 4. Forecasting 5. Regression

6. Sequence discovery 7. Visualization


(46)

Kerangka kerja teknik data mining dalam keempat dimensi CRM dijelaskan melalui Gambar 2.4.

Gambar 2.4 Kerangka Kerja Teknik Data Mining dalam CRM (Ngai dkk 2008) 2.5 Clustering

Clustering adalah salah satu teknik unsupervised machine learning, yang tidak terdapat fase pembelajaran dalam prosesnya. Teknik ini bertujuan untuk mengelompokkan suatu himpunan obyek menjadi kelas-kelas yang terdiri dari obyek-obyek yang sama atau pengelompokkan berdasarkan kesamaan karakteristik diantara obyek-obyek tersebut Kesamaan dan pembagian didasarkan melalui kriteria jumlah kuadrat kesalahan yang minimal. Kriteria ini sangat sensitif dengan keberadaan data outlier, oleh karena itu dikoreksi dengan membagi suatu kelompok besar ke ukuran yang lebih kecil (Berkhin 2002)


(47)

2.5.1 Algoritma Klasifikasi K-Means

Algoritma K-Means merupakan metode clustering berbasis jarak yang mempartisi data ke sejumlah kelompok dan bekerja pada atribut numerik. Algoritma ini dimulai dengan pemilihan jumlah kelompok (K) secara acak serta pengambilan sebagian populasi sejumlah K untuk dijadikan sebagai titik pusat awal. Salah satu metode perhitungan jarak yang bisa digunakan adalah

Euclidean Distance. Perhitungan jarak menggunakan metode Euclidean

dinyatakan sebagai berikut :

(2.1) Dimana

x : obyek ke-1 y : obyek ke-2

n : banyaknya atribut obyek ke-1 dan ke-2

Prosedur dasar clustering K-Means adalah sebagai berikut(Johnson & Wicherin 2002):

1.Menentukan k sebagai jumlah cluster yang ingin dibentuk

2.Membangkitkan kcentroids (titik pusat cluster) awal secara random 3.Menghitung jarak setiap data ke masing-masing centroids

4.Setiap data memilih centroid yang terdekat

5. Menentukan posisi centroids baru dengan cara menghitng nilai rata-rata dari data-data yang berada pada centroids yang sama

6. Kembali ke langkah 3 jika posisi centroids baru dengan centroids lama tidak sama


(48)

2.5.2 Clustering Hirarkhi (Hierarchical clustering)

Clustering hierarchi membangun sebuah hirarki cluster atau dengan kata lain sebuah pohon cluster yang juga dikenal sebagai dendogram. Setiap node cluster mengandung cluster anak, cluster-cluster saudara yang membagi point yang ditutupi oleh induk mereka. Metode-metode clustering hirarki dikatagorikan kedalam agglomeratif (bawah atas) dan divisive (atas bawah) (Jain & Murthy, 1999);, Kaufman & Rouseeuw 1990). Clustering agglomeratif dimulai dengan cluster satu point (singleton) dan secara berulang-ulang menggabungkan dua atau lebih cluster yang paling tepat. Cluster divisive dimulai dengan satu cluster dari semua point data dan secara berulang-ulang melindungi cluster yang paling tepat. Proses erbut berlanjut hingga kriteria penghentian (seringkali, jumlah k yang diperlukan dari

cluster) dicapai. Kelebihan cluster hirarki meliputi :

(I) Fleksibilitas yang tertanam mengenai level granaularitas

(II) Kemudahan menangani bentuk-bentuk kesamaan atau jarak (III) Pada akhirnya, daya pakai pada tpe-tipe atribut apapun.

Kelemahan dari clustering hirarki berhubungan dengan : (I) Ketidakjelasan kriteria terminasi

(II) Terhadap perbaikan perbaikan hasil clustering, sebagian besar algoritma hirarki tidak mengunjungi kembali cluster-clusternya yang telah dikonstruksi.

Untuk clustering hirarki, menghubungkan atau memisahkan subset dari point-point dan bukan point-point-point-point individual, jarak antara point-point-point-point individu harus digenelarikan terhadap jarak antara subset.

Ukuran kedekatan yang diperoleh disebut metrik berhubungan. Tipe mertik hubungan yang digunakan secara signifikan memperoleh algoritma hisrarki, karena merefleksikan konsep tertentu dari kedekatan dan konektivitas. Metrik


(49)

hubungan antar cluster utama (Murtagh 1985, Olson 1995) termasuk hubungan tunggal, hubungan rata-rata, dan hubungan sempurna.

Algoritma clustering hirarki populer untuk data katagorikal COBWEB (Fisher, 1987) memiliki dua kualitas yang sangat penting, Pertama menggunakan pembelajaran incrementasl. Daripada mengikuti pendekatan diviseve atau aggglomerative, secara dinamis membangun sebuah dendrogram melalui pengolahan satu point data pada suatu waktu. Kedua COBWEB termasuk pada pembelajaran berdasarkan konseptualatau model, Ini berarrti bahwa setiap cluster dianggap sebagai sebuah model yang dapat dijelaskan secara intrinsik, dan bukan sebagai sebuah kumpulan point yang ditentukan terhadapnya.

Dendogram COBWEB disebut pohon klasifikasi. Setiap node pohon C, sebuah cluster berhubungan dengan probabilitas kondisional untuk pasangan-pasangan nilai-nilai atribut, yakti :

Pr(Xi=vip \ C), I = 1; d.p=I\A1 (2,2)

2.5.3 Clustering Partisional (Partisional Clustering)

Dengan mengetahui objek-objek database n, sebuah algoritma clustering partisional membentuk k bagian dari data, dimana setiap cluster mengoptimalkan kriteria clustering, seperti minimasi jumlah jarak kuadrat dari rata-rata dalam setiap cluster.

Salah satu isu dengan algortima-algoritma tersebut adalah kompleksitas tinggi, karena menyebutkan semua pengelompokan yang memungkinkan dan berusaha mencari optimum global. Bahkan untuk jumlah objek yang kecil, jumlah partisi adalah besar, itulah sebabnya mengapa solusi-solusi umum dimulai dengan sebuah partisi awal, biasanya acak, dan berlanjut dengan penyempurnaannya.


(50)

2.6 Metode Klasifikasi Fuzzy RFM

Analisa RFM terdiri dari tiga dimensi, yaitu (Tsiptsis dan Chorianopoulos, 2009) :

1. Recency, yaitu jenis layanan yang diigunakan para pelanggan untuk bertransaksi. Terdapat 8 jenis layanan yang ditawarkan kepada pelanggan.

2. Frequency, yaitu jumlah total transaksi atau jumlah rata-rata transaksi dalam satu periode.

3. Monetary, yaitu jumlah rata-rata nilai pembelian konsumen dalam suatu satuan waktu.

Metode sharp RFM mendeskripsikan atribut recency, frequency, dan

monetary dengan variabel linguistik (Zumstein, 2007). Sebagai contoh, atribut recency dideskripsikan dengan 8 jenis layanan yang digunakan seperti layanan suratpos (SB), surat kilat (SK), surat kilat khusus (SKH), surat tercatat (ST), pos express (PE), ems (EMS), city curir (CC), paketpos (PK). Atribut frequency dideskripsikan dengan bahasa natural sedikit, agak banyak, dan banyak. Sedangkan atribut monetary dideskripsikan dengan rendah, sedang, tinggi. Konteks dari masing-masing atribut didefinisikan sebagai berikut :

1. Domain atribut recency didefinisikan dalam transaksi harian, dengan memilih 8 jenis layanan. Pelanggan dapat menggunakan lebih dari satu jenis layanan

2. Domain atribut frequency didefinisikan dalam range frequency sedikit < 1.000 transaksi / tahun, frequency agak banyak < 7.000,- transaksi / tahun, frequency banyak > 7.000,- transaksi / tahun.

3. Domain atribut monetary didefinisikan dalam range rendah < 15.000.000,- per tahun, range sedang < 20.000.000 per tahun, range tinggi >= 20.000.000,-


(51)

Untuk setiap kelas ditentukan nilai (score) yang bergantung dari besarnya nilai frequency, dan monetary. Semakin tinggi nilai frequency, dan monetary

dari konsumen, semakin tinggi juga nilai (score) yang diperoleh.

Dengan klasifikasi menggunakan metode fuzzy RFM, nilai (score) dari masing-masing konsumen dapat diperhitungkan dengan lebih akurat dan lebih baik

2.7 Riset-Riset Terkait

Terdapat beberapa riset yang telah dilakukan oleh banyak peneliti berkaitan dengan model segmentasi pelanggan dengan data mining seperti yang akan dijelaskan dibawah ini :

Penelitian yang dilakukan oleh Jansen (2007) untuk menerapkan konsep data mining dalam proses segmentasi konsumen (customer segmentation) dan mendefinisikan profil konsumen (customer profiling) serta hubungan antara keduanya. Jansen menggunakan algoritma Means, K-Medoid, Fuzzy C-Means, Gustafson Kessel dan Gath Geva Clustering untuk melakukan proses segmentasi konsumen. Studi kasus dalam penelitian ini adalah konsumen pengguna jasa telekomunikasi Vodafone. Segmentasi konsumen didasarkan pada perilaku konsumen yang diukur berdasarkan jumlah panggilan masuk dan panggilan keluar yang dilakukan oleh konsumen. Customer profiling dibangun melalui informasi yang berasal dari data warehouse, seperti umur, jenis kelamin, dan informasi daerah tempat tinggal. Dengan menggunakan teknik data mining, yaitu Support Vector Machine (SVM), segmentasi konsumen dapat diperkirakan melalui profil konsumen. Dalam penelitian ini diperoleh hasil bahwa dengan menggunakan SVM, dapat dibentuk empat segmen konsumen dari data profil konsumen yang ada dengan tingkat keakuratan 80,3%. Sedangkan jika jumlah segmen yang dibentuk berjumlah 6, maka tingkat keakuratan klasifikasinya adalah 78,5%.


(52)

Cao, Zhu, dan Hou (2009) menggunakan metode FFCHC (Fuzzy Fisher Criterion Based Hierarchical Clustering Algorithm) untuk melakukan segmentasi konsumen. Metode FFHC memadukan algoritma FFC (Fuzzy Fisher Criterion) sebagai algoritma untuk melakukan clustering dan

clustering validity function untuk mencari jumlah cluster yang paling optimal. Metode ini diterapkan pada dataset konsumen pada suatu perusahaan pasar modal.

Penelitian tentang perbandingan algoritma Fuzzy C-Means dan Fuzzy Subtractive Clustering juga pernah dilakukan sebelumnya. Collazo-Cuevas (2010) melakukan perbandingan terhadap dua metode clustering yaitu Fuzzy C-Means dan Fuzzy Substracttive Clustering. Kedua metode ini diterapkan untuk melakukan clustering terhadap data polusi udara di Liverpool. Dalam penelitian ini dibangun algoritma identifikasi model fuzzy sebagai dasar dari motode estimasi. Hasil dari proses clustering adalah pemodelan hubungan antara suhu udara, kelembaman udara, dan kosentrasi PM 10 di Liperpool Inggris.

Hammouda dan Karaay (2000) dalam penelitiannya melakukan perbandingan terhadap empat metode clustering yaitu F-Means, Fuzzy C-Means, Mountain, dan Fuzzy Substractive clustering. Keempat metode

clustering ini diterapkan untuk melakukan proses clustering terhadap data medis. Selanjutnya, hasil dari proses data clustering tersebut digunakan untuk membantu proses diagnosa terhadap penyakit hati, perbandingan terhadap keempat metode clustering dilakukan menggunakan parameter keakuratan hasil clustering, waktu yang dibutuhkan untuk melakukan proses clustering. Root mean square error, dan kemiringan garis regresi (regression line slope).

Dari hasil perbandingan diperoleh hasil bahwa Mountain Clustering kurang baik untuk digunakan pada data dengan jumlah dimensi besar.

Pendekatan algoritma yang lebih baik adalah menggunakan Fuzzy Substractive clustering karena membutuhkan waktu pemrosesan yang lebih cepat dibandingkan Mountain Clustering untuk memproses data dengan 13 dimensi. Algoritma K-Means dan Fuzzy C-Means kinerja yang lebih baik


(53)

dibandingkan Mountain Clustering dan Fuzzy Substractive Clustering , namun membutuhkan informasi tentang jumlah cluster yang harus dibentuk.

Penelitian tentang metode fuzzy RFM dilakukan oleh Zumstein (2007) dalam thesisnya, Zumstein meneliti tentang klasifikasi fuzzy sebagai metode analisa dan manajemen data multidimensi. Meotode Klasifikasi fuzzy sesuai untuk digunakan dalam proses CRM dan membangun hubungan dengan konsumen yang menguntungkan. Metode fuzzy dipadukan dengan metode klasifikasi seperti metode analisa SWOT, analisa portofolio, analisa ABC, serta metode penilaian (scoring method) untuk memperoleh hasil segmentasi konsumen yang lebih baik. Dalam penelitian ini, metode fuzzy yang juga dipadukan dengan metode RFM, yaitu metode untuk menentukan segmen-segmen konsumen berdasarkan recency, frequency dan monetary. Metode

fuzzy FRM juga dibandingkan terhadap metode fuzzy RFM memberikan hasil segmentasi konsumen yang lebih baik, sehingga dapat membantu perusahaan untuk memahami perilaku konsumen dengan lebih baik.

Berikut ini adalah daftar penelitian mengenai data mining yang dilakukan sebelumnya dilakukan disajikan dalam table 2.1

Tabel 2.1

Penelitian Yang Telah Dilakukan No. Peneltian Metode Deskripsi 1. Jansen (2007) Means,

K-Medoid, Fuzzy c-Means, Gustafson, Keseel dan Gath Geva Clustering

Mencari segmentasi dan profil konsumen pada perusahaan Telekomunikasi Vodafone

2. Cao, Zhu dan Hou (2009) FFCHC(Fuzzy Fisher Criterion Based Hierarchical Clustering Algorithm) Mencari segmentasi konsumen pada suatu perisahaan pasar modal


(54)

Tabel 2.1

Penelitian Yang Telah Dilakukan No. Peneltian Metode Deskripsi 3.

Caollazo-Cuevas dkk(2010)

Fuzzy C-Means dan Fuzzy Substractive Clustering

Melakukan perbandingan terhadap Fuzzy C-MENAS DAN Fuzzy Substractive Clustering untuk data polusi udara

4. Hammouda dan Karaay (2000)

K-Means, Fuzzy C-Means, Mountain Clustering,

Substractive Clustering

Melakukan perbandingan keempat algoritma clustering dengan menggunakan data medis untuk mendiagnosa penyakit hati

5. Zumstein Fuzzy Classification fuzzy RFM

Melakukan studi perbandinan metode klasifikasi klasik dengan metode kleasifikasi yang dipadukan dengan metode fuzzy

2.8 Persamaan dengan Riset-Riset lain

Yohana Nugraheni (2011) dalam penelitiannya menjelaskan data mining

dengan metode fuzzy untuk customer relationship management (CRM) pada perusahaan Retail.

Cen (2007) menggunakan teknik data mining untuk menemukan pola dan trend dari data konsumen dalam kaitannya dengan konsep CRM. Proses clustering dilakukan terhadap data konsumen C-Company, yaitu perusahaan yang bergerak dibidang industry elektronik.


(55)

2.9 Perbedaan dengan Riset-Rise lain

Dari beberapa riset yang dilakukan peneliti sebelumnya, terdapat beberapa titik perbedaan dengan riset yang akan dilakukan ini :

Analisa pemodelan segmentasi pelanggan dengan data mining berbasis

customer relationship management (CRM) risetnya dilakukan di kantor pos Medan. Riset yang dilakukan penulis untuk membuat model berdasarkan

Recency, Frequency, Monetary.

Pada penelitian ini hasil akhir yang diharapkan dengan model segmentasi pelanggan dengan data mining berbasis Customer Relationship Management dapat diketahui pelanggan – pelanggan yang potensial,

2.10 Kontribusi Riset

Penelitian ini memberikan kontribusi pada pemahaman kita tentang hubungan

Recency, Frequency, Monetary dalam menentukan pelanggan terbaik dan potensial berdasarkan clustering yang telah ditentukan.

Pembuat keputusan bisa menggunakan model segmentasi pelanggan dengan data mining untuk meningkatkan kualitas pengambilan keputusan.


(56)

BAB 3

METODE PENELITIAN

3.1 Pendahuluan

Tujuan dari tesis ini adalah untuk membuat model aturan dalam memprediksi pelanggan potensial, kebutuhan pasar, dan perilaku konsumen menggunakan algoritma Kernel K-Means yang dapat digunakan sebagai alat Bantu analitis oleh manajemen dalam mengambil keputusan. Pada bagian ini kita mulai dengan menggambarkan kasus data mining pada system pemilihan pelanggan yang potensial dan prosedur bagaimana mengumpulkan data yang digunakan pada penelitian ini.

3.2 Rancangan Penelitian

Rancangan penelitian ini dimulai dengan mengumpulkan data dari kantor pos Medan. Data dikumpulkan dari database tahun 2011.

Variabel yang dikumpulkan adalah kode customer, nama, alamat, telp, tglpks, lingkuppks, nomor pks, keterangan dan variable-variabel lain yang berkaitan dengan pemilihan pelanggan yang berpotensi.

Data yang diperoleh untuk tahun 2011 dalam bentuk DBF, tahun 2012 dan tahun 2013 bentuk xls, untuk keseragaman bentuk xls dimodifikasi dan ditransformasikan ke bentuk DBF. Selanjutnya dilakukan pengujian terhadap data dengan menggunakan aplikasi data mining dengan metode K-Means Clustering. Dari pengujian diperoleh cluster dari data yang telah diuji selanjutnya dilakukan analisis cluster untuk menganalisis dan mendapatkan model aturan.


(57)

3.3 Pra Pemrosesan Data (Preprocessing Data)

Pada tahap ini struktur data base (Pangkalan Data) akan dipersiapkan sehingga mempermudah proses mining. Proses preprocessing ini mencakup tiga hal utama yaitu:

a. Data Selection: Memilih data yang akan digunakan dalam proses data mining. Dalam proses ini dilakukan juga pemilihan atribut-atribut yang disesuaikan dengan proses data mining.

b. Data Preprocessing: Memastikan kualitas data yang telah dipilih pada

tahap data selection, pada tahap ini masalah yang harus dihadapi adalah noisy data dan missing values. Proses pembersihan data (cleansing) dilakukan dengan melakukan metode-metode query sederhana untuk menemukan anomali-anomali data yang bisa saja masih terdapat pada sistem.

c. Data Transformation: Mengelompokkan atribut-atribut atau field-yang telah terpilih menjadi 1 tabel dengan cara melakukan denormalisasi dari data base OLTP.

Berikut ini adalah hasil pemilihan atribut-atribut yang dibutuhkan untuk proses Berikut segmentasi menggunakan metode K-Means Clustering, yaitu atribut-atribut yang terkait dengan recency, frequency, dan monetary (Tabel 3.1).


(58)

Tabel 3.1

Data Parsial dari Database Kantor Pos Medan

Field Keterangan

KodeCustomer Kode customer

JenisLayanan Recency, merupakan jenis layanan yang digunakan oleh Customer.

FrekuensiTransaksi Menandakan frequency, merupakan jumlah transaksi selama periode yang ditentukan

TotalTransaksi Menandakan monetary, merupakan jumlah uang selama periode yang ditentukan

Dalam proses data preparation dibangun suatu data warehouse untuk mempermudah proses mining. Data yang akan dilibatkan dalam penelitian ini adalah data yang berkaitan dengan transaksi penjualan. Skema bintang penjualan yang dibentuk dalam penelitian ini ditunjukkan pada gambar 3.2. Model yang digunakan dalam penelitian ini adalah model K-Means clustering.Metode clustering yang digunakan adalah metode K-Means dan

Metode Klasisifikasi Fuzzy RFM (Recency Frequency, Monetary).. Kedua metode ini memiliki karakteristik yang berbeda karena K-Means Clustering

merupakan metode clustering yang terawasi (supervised) sedangkan FS termasuk metode clustering yang tidak terawasi (unsupervised).

Pada K-Means jumlah cluster ditentukan, sedangkan klasifikasi menggunakan metode Fuzzy RFM nilai (score) dari masing-masing konsumen dapat diperhitungkan dengan lebih akurat dan lebih baik.


(1)

p Є Ci = tiap data poin pada cluster i, mi = centroid dari cluster i, d = jarak/ distances/ variance terdekat pada masing-masing cluster i.

Nilai SSE tergantung pada jumlah cluster dan bagaimana data dikelompokkan ke dalam cluster-cluster. Semakin kecil nilai SSE semakin bagus hasil clustering yang dibuat

Pada gambar 4.22 diatas nilai SSE pada 2 Centroid yang paling kecil dibandingkan dengan 3 Centroid, dengan demikian dapat disimpulkan bahwa cluster dengan 2 Centroid yang paling baik dan dijadikan sebagai cluster yang terbaik dalam penelitian ini.

4.5.3.2 Model Aturan (Model Rule)

Dari hasil cluster yang terbentuk dapat dibuat sebuah model aturan. Tabel 4.10 merupakan model aturan untuk menentukan pelanggan terbaik Kantor Pos Medan.

Tabel 4.10 Model Aturan (Model Rule)

CLUSTER KETERANGAN RULE PREDIKAT FREQUENCY / JLH TRANSAKSI PER THN MONETARY / BESAR UANG TRANSAKSI

PER THN Cluster 1 IF Banyak =

Transaksi > 7.000

Tinggi = besar uang transaksi

> Rp. 500.000.000 Terbaik A Cluster 2 IF Banyak =

Transaksi > 7.000

Tinggi = besar uang transaksi

> Rp. 400.000.000 Terbaik B Cluster 3 IF Banyak =

Transaksi > 7.000

Sedang = besar uang transaksi

> Rp. 300.000.000 Potensial A Cluster 4 IF Agak Banyak =

transaksi > 1.000

Sedang = besar uang transaksi

> Rp. 200.000.000 Potensial B Cluster 5 IF Banyak =

transaksi > 7.000

Sedang = besar uang transaksi

> Rp. 100.000.000 Tiap Hari A Cluster 6 IF Agak Banyak =

transaksi > 1.000

Sedang = besar uang transaksi

> Rp. 50.000.000 Tiap Hari B Cluster 7 IF Sedikit =

transaksi < 1.000

Rendah = besar uang transaksi > Rp. 40.000.000

Kadang- kadang Cluster 8 IF Sedikit =

Transaksi < 1.000

Rendah = besar uang transaksi <= Rp. 40.000.000

Kurang - Aktif A Cluster 9 IF Sedikit =

transaksi < 1.000

Rendah = besar uang transaksi > Rp. 5.000.000

Kurang- Aktif B


(2)

Dari tabel 4.10 tersebut dapat dijelaskan bahwa jika Jumlah Transaksi Per Tahun = Banyak (lebih dari 7.000,-) dan Besar Uang Transaksi Per Tahun = Tinggi (lebih dari Rp. 500.000.000,-) maka diperoleh Predikat = Terbaik - A. Jika Jumlah Transaksi Per Tahun = Banyak (lebih dari 7.000,-) dan Besar Uang Transaksi Per Tahun = Tinggi ( lebih dari Rp. 400.000.000 – Rp. 500.000.000,-) maka diperoleh Predikat = Terbaik - B.

Jika Jumlah Transaksi Per Tahun = Banyak (lebih dari 7.000,-) dan Besar Uang Transaksi Per Tahun = Sedang (lebih dari Rp. 300.000.000 – Rp.400.000.000) maka diperoleh Predikat = Potensial - A. Jika Jumlah Transaksi Per Tahun = Agak Banyak (lebih dari 1.000,-) dan Besar Uang Transaksi Per Tahun = Sedang (lebih dari Rp. 200.000.000 – Rp. 300.000.000) maka diperoleh Predikat = Potensial - B.

Jika Jumlah Transaksi Per Tahun = Banyak (lebih dari 7.000,-) dan Besar Uang Transaksi Per Tahun = Sedang (lebih dari Rp. 100.000.000 – Rp. 200.000.000) maka diperoleh Predikat = Tiap Hari-A. Jika Jumlah Transaksi Per Tahun = Agak Banyak (lebih dari 1.000,-) dan Besar Uang Transaksi Per Tahun = Sedang (lebih dari Rp. 50.000.000 – Rp. 100.000.000) maka diperoleh Predikat = Tiap Hari - B.

Jika Jumlah Transaksi Per Tahun = Sedikit (kurang dari 1.000,-) dan Besar Uang Transaksi Per Tahun = Rendah (lebih dari Rp. 40.000.000 - Rp. 50.000.000) maka diperoleh Predikat = Kadang-kadang.

Jika Jumlah Transaksi Per Tahun = Sedikit (kurang dari 1.000,-) dan Besar Uang Transaksi Per Tahun = Rendah (kurang atau sama dengan dari Rp. 40.000.000) maka diperoleh Predikat = Kurang Aktif - A. Jika Jumlah Transaksi Per Tahun = Sedikit (kurang dari 1.000,-) dan Besar Uang Transaksi Per Tahun = Rendah (lebih dari Rp. 5.000.000,-) maka diperoleh Predikat = Kurang Aktif - B.


(3)

BAB 5

KESIMPULAN DAN SARAN 5.1 Kesimpulan

Dari penelitian yang telah dilakukan, maka dapat dihasilkan kesimpulan sebagai berikut :

1. Diperoleh suatu model aturan yang dapat digunakan untuk menilai pelanggan terbaik dan potensial sehingga dapat memberi manfaat bagi pihak manajemen dalam pengambilan keputusan.

2. Dalam cluster ini dilakukan perbandingan dengan menggunakan 2 dan 3 nilai centroid, hasilnya 2 nilai centroid lebih bagus jika dibandingkan dengan 3 nilai centroid, yaitu hasil nilai SSE (Sum Of Squared-Error) untuk 2 nilai centroid sebesar 3,425,922,878 lebih kecil dari pada 3 nilai centroid dengan nilai SSE sebesar 5,035,230,050.

3. Pada cluster ini diperoleh pelanggan yang memiliki katagori Terbaik-A apabila jumlah transaksi selama setahun banyak ( > 7.000,-) dan besar uang transaksi selama setahun tinggi ( > Rp. 500.000.000,-).

4. Proses clustering juga menghasilkan jenis layanan yang terbanyak digunakan dikalangan para pelangggan, seperti layanan city kurir dengan prosentase tertinggi sebesar 41%, Pos Express sebesar 23%, Surat biasa sebesar 21%, Surat kilat khusus 10%, Paketpos 4%.

5.2 Saran

Untuk penelitian lebih lanjut dari tesis ini dapat dkembangkan dengan metode lain seperti metode SSVM (Smooth Support Vector Machine) sehingga dapat dibandingkan kinerja dari masing-masing metode untuk menghasilkan segmentasi pelanggan yang terbaik.

Pengukuran menggunakan Nilai SSE (Sum Of Squared-Error) sangat tergantung pada jumlah cluster dan bagaimana data dikelompokkan ke dalam cluster-cluster. Semakin kecil nilai SSE semakin bagus hasil clustering yang diperoleh..


(4)

DAFTAR PUSTAKA

Berkin. 2002. ” A Survey Of Clustering Data Mining Techniques”.Technical Report, Accrue Software

Brown, S.A. 2000. Customer Relationship Management : A Strategic

Imperative in the World of e-Business, Jhon Wiley and Sons Ltd, Canada.

Cao, Zhu, dan Hou. 2009. ” Fuzzy Fisher Criterion Based Semi-Fuzzy clustering algorithm”, Journal Of Electronics and Information Technology, Vol 30, No. 9, 2008, PP.2162-2165 (In Chinese). Cen. 2007. ” Customer Segmentation Based On Survival Character “, Journal

Of Intelligent Manufacturing, Vol 18, No. 8, 2007, PP.513-517. Collazo-Cuevas, dkk. 2010. Comparison Between Fuzzy C-Means Clustering

And Fuzzy Clustering Substractive In Urban Air Pollution. International Journal of Electronics, Communications And Computer (CONIELE COMP).

Chapman, dkk. 2000. CRISP-DM 1.0 : Step-by-Step Data Mining Guide.

Tersedia di http://www.community.udayton.edu/provost/it/training/documents

/SPSS_CRI SPWPlr.pdf. [diunduh : 08 April 2013].

Fisher Douglas H. 1987, Knowledge Acquisition Via Incrementasl Conceptual Clustering, jornal Machine Learning Volume 2 Issue 2, September 1987

Gaffar. 2007, Customer Relationship Management and Marketing Public Relations, Bandung : Alfabeta

Haskett, 2000. An Introduction to Data Mining, Part 1: Understanding The Critical Data Relationship In The Corporate Data Warehouse, Enterprise System Journal, V.15:32-34

Hammouda, K., Karaay, F. 2000. A Comparative Study of Data


(5)

Jain, A.K., Murthy,M.N. 1999. Data Clustering : A Review. ACM Computing Surveys, Vol. 31, No.3.

Jansen, S.M.H. 2007. “Customer Segmentation and Customer Profiling for a Mobile Telecommunications Company Based on Usage Behavior : A Vodafone Case Study” (thesis). Maastricht : University of Maastricht.

Johnson, R.A. and D.W. Wicherin. 2002. “Applied Multivariate Statistical Analysis, New Jersey : Prentice Hall.

Kimball, 2004. The Data Warehouse ETL Toolkit. Wiley Publishing Inc. Klawonn, F. 2004.

Kotler, 2006. Customer Relationship Management, Tersedia di : http://gsbejournal.au.edu/2v/jornal/csm.htm. [diunduh : 22 April 2013].

Kaufman L., and P.J. Rousseeuw, 1990, Findings Groups in Data : An Introduction to Cluster Analysis. New York: Jhon Wiley & Sons. Murtagh F, 1985, Multidimensional Clustering Algorithhms, Compstat

Lectures.

Mierswa, dkk. 2006. YALE: Rapid Prototyping for Complex Data Mining Tasks, in Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-06).

Ngai, dkk. 2008. Application of Data Mining Techniques in Customer Relationship Management : A Literature Review and Classification. Expert Systems with Applications 36 (2009) 2592– 2602.

Prabhu, S., Venatesan, N. 2007. Data Mining and Warehousing. New Age International (P) Limited, Publishers.

Santoso, 2007. Data Mining Teknik Pemanfaatan Data Untuk Keperluan Bisnis. Yogyakarta : Graha Ilmu

Swift, dkk. 2001. Accelerating Customer Relationships – Using CRM and Relationship Technologies, Prentice Hall Inc.

Tama, B.A. 2009. Implementasi Teknik Data Mining di dalam Konsep Customer Relationship Management (CRM). Konferensi Nasional


(6)

Sistem dan Informatika 2009, Bali, November 14, 2009. KNS&I09-011.

Tan, dkk, 2006. Introduction to Data Mining. Pearson Education, Inc.

Todman, C. 2001. Designing a Data Warehouse – Supporting Customer Relationship Management, Hewlett Packard.

Tsiptsis, K, Chorianopoulos, A. 2009. Data Mining Techniques in CRM. A John Wiley and Sons, Ltd., Publication. United Kingdom.

Xu, M., Walton, J. 2005. Gaining Customer Knowledge Through Analytical CRM, Industrial Management & Data System, Vol.105 No.7. pp 955-977.

Yohana Nugraheni, 2011, Data Mining Dengan Metode Fuzzy Untuk Customer Relationship Management (CRM) Pada Perusahaan Retail (thesis).

Zumstein, D. 2007. “Customer Performance Measurement : Analysis of the Benefit of a Fuzzy Classification Approach in Customer Relationship Management” (thesis). Switzerland : University of Fribourg.