Klasifikasi Pendonor Darah Menggunakan Metode Support Vector Machine (SVM) Pada Dataset RFMTC

  

Vol. 2, No. 10, Oktober 2018, hlm. 3860-3864 http://j-ptiik.ub.ac.id

Klasifikasi Pendonor Darah Menggunakan Metode Support Vector Machine

(SVM) Pada Dataset RFMTC

1 2 3 Erwin Bagus Nugroho , Muhammad Tanzil Furqon , Nurul Hidayat

  Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya 1 2 3 Email: erwinbnugroho@gmail.com, m.tanzil.furqon@ub.ac.id, ntayadih@ub.ac.id

  

Abstrak

  Donor darah adalah proses pengambilan darah dari seseorang yang dilakukan secara sukarela kemudian dipakai untuk transfusi darah bagi pasien yang membutuhkan. Darah dari pendonor tidak dapat digunakan setelah 42 hari Menurut American Red Cross. Satu-satunya cara untuk memenuhi permintaan kantong darah dengan memiliki sumbangan darah rutin dari pendonor yang sehat. Di Indonesia pada tahun 2013 mengalami kekurangan kantong darah sebanyak 2.476.389cc, dimana idealnya ketersediaan darah adalah 2,5% dari jumlah penduduk. Dalam mengatasi permasalahan tersebut dibutuhkan suatu sistem yang mampu memprediksi perilaku pendonor agar dapat mengantisipasi kekurangan kantong darah. Regency, Frequency, Monetary, Time, Churn Probability (RFMTC) merupakan modifikasi dari metode RFM yang digunakan untuk meramalkan perilaku pendonor darah untuk mendonorkan darahnya kembali atau tidak mendonor. untuk dapat mengklasifikasikan perilaku pendonor penelitian ini menggunakan metode Support Vector Machine (SVM). Data yang digunakan dalam penelitian ini adalah 748 yang di bagi menjadi data latih dan data uji. Hasil akurasi penelitian ini mendapatkan akurasi terbaik berdasarkan rasio data 50%:50%, dengan menggunakan kernel linier dan nilai parameter

  Lambda

  (λ) = 2, Gamma (γ), = 0.5, Epsilon (ε) = 0.005, dan Complexity (C) = 20. Hasil dari akurasi metode SVM pada klasifikasi pendonor darah sebesar 72.64%.

  Kata kunci: pendonor darah, klasifikasi, support vector machine (SVM), kernel linier

Abstract

  

Blood donation is a process of taking blood from a person voluntarily to blood transfusions for patients

in need. Blood from donors can ’t be used after 42 days. The only way to meet the demand for blood

bags are having regular blood donations from a healthy donor. In Indonesia 2013, there is 2,476,389cc

shortage of blood bags, where the ideal blood availability is 2.5% of the population. These problems

required a system that can predict the behavior of donors in order to anticipate the shortage of blood

bags. Regency, Frequency, Monetary, Time, Churn Probability (RFMTC) is a modification of the RFM

method modified that used to predict the blood donor behavior to donate or not to donate bloods. The

method for classifying the behavior of donors in this research are Support Vector Machine (SVM)

method. Data that was used in this research is 748 which is divided into training data and test data. The

accuracy result got best accuracy based on 50%: 50% data ratio, using linear kernel and parameter

value λ (lambda) = 2, Gamma (γ), = 0.5, Epsilon (ε) = 0.005, and C (complexity) = 20. The result of

SVM method accuracy on blood donor classification is 72.64%.

  Keywords: blood donator, classification, support vector machine (SVM), kernel linier

  melakukan transfusi darah bagi pasien yang 1.

   PENDAHULUAN membutuhkan. Tujuan donor darah ada dua.

  Pertama untuk menambah jumlah darah kepada Darah mempunyai peranan penting dalam seseorang yang dikarenakan operasi, tubuh manusia. Fungsi dari darah antara lain kecelakaan, dan lain-lain. Kedua untuk mengantarkan zat-zat dan oksigen ke seluruh menambah kemampuan dalam tubuh seseorang jaringan manusia (Kusuma, 2015). Donor darah yang sedang sakit untuk membawa zat asam atau adalah proses pengambilan darah dari seseorang

  O 2 (Oksigen) (Saputra, dll., 2016). sukarelawan kemudian digunakan untuk

  Fakultas Ilmu Komputer Universitas Brawijaya

3860

  Menurut American Red Cross, darah dari pendonor tidak dapat digunakan setelah 42 hari. Satu-satunya cara untuk memenuhi permintaan kantong darah dengan memiliki sumbangan darah rutin dari pendonor yang sehat (Darwiche, dll., 2010). Kesadaran masyarakat sangat diperlukan untuk memenuhi kebutuhan kantong darah. Pada tahun 2013 indonesia mengalami kekurangan kantong darah sejumlah 2.476.389, dimana idealnya ketersediaan darah 2,5% dari jumlah penduduk (Kementrian Kesehatan Republik Indonesia, 2014). Dalam kasus ini diperlukan sebuah metode klasifikasi untuk memprediksi perilaku pendonor darah, sehingga dapat mencukupi ketersediaan darah atau dapat mengantisipasi kekurangan ketersediaan darah yang ditetapkan yaitu 2,5% dari jumlah pendukuk.

    j i K x x ,

  merupakan pengembangan dari metode

  quadratic programming (QP) yang dapat

  memberikan nilai optimal dalam klasifikasi berdimensi tinggi. (Vijayakumar, 1999).

  1. Tahap pertama menghitung matriks [D] ij menggunakan Persamaan 1.

        2 ,    j i j i ij

  K x x y y D

  (1) Keterangan:

  : kernel 2. Selanjutnya menggunakan Persamaan 2, Persamaan 3, dan Persamaan 4.

  Metode SVM merupakan metode pembelajaran dengan mencari sebuah

  a.

    n 1 j j i

  = ij D E

  (2) b.

        i i i C E       , ,

  1 max min (3) c. i i i   

    (4)

  Keterangan:

  hyperplane . Metode sequential learning

  3.1 Sequential Training

  Pada penelitian sebelumnya dengan metode C4.5 dan Naive Bayes untuk prediksi pendonor darah dengan dataset RFMTC, diperoleh hasil dengan nilai accuracy 70% untuk Naive Bayes

  metode klasifikasi dengan pembelajaran terbimbing (supervised learning ) yang berusahan menemukan sebuah hyperplane berukuran (p-1) dimensi yang dapat memisahkan data pelatihan berdasarkan kelasnya. Dengan demikian akan dibangun sebuah sistem untuk melakukan klasifikasi perilaku pendonor darah.

  dan 67% untuk C4.5.(Susanto & Agustina, 2016).

  Regency, Frequency, Monetary, Time, Churn Probability (RFMTC) merupakan

  modifikasi dari metode RFM yang digunakan untuk meramalkan perilaku pendonor darah yang potensial untuk mendonorkan darahnya kembali atau tidak mendonor. Karena model RFM tidak bisa memprediksi nilai untuk kembali lagi di masa depan sedangkan RFMTC dapat menyimpulkan rumus untuk memperkirakan itu (I-Cheng, dll., 2009).

  Penelitian selanjutnya menggunakan metode

  Support Vector Machine dengan judul

  Implementasi Metode Support Vector Machine untuk Rekomendasi Pemilihan Terapi Dehidrasi pada Anak dan menghasilkan akurasi tertinggi 87,09% dan rata-rata 84,02% (Rani, 2016).

  Berdasarkan permasalahan diatas solusi untuk klasifikasi perilaku pendonor darah yang akan datang untuk mendonorkan darahnya kembali dan yang tidak dengan mengimplementasikan metode Support Vector

  Machine (SVM). Metode SVM merupakan

  Maka judul pada penelitian ini adalah lasifikasi pendonor darah menggunakan metode support

  metode dari teori statistik yang hasilnya sangat menjanjikan untuk memberikan hasil yang terbaik. Metode ini juga dapat berkerja baik pada dataset berdimensi tinggi dan memetakan data asli dari dimensi asalnya ke dimensi berbeda yang lebih tinggi (Prasetyo, 2012).

  vector machine (SVM) pada dataset RFMTC.

  2. DATASET RFMTC RFMTC merupakan modifikasi dari RFM.

  variabel RFMTC yaitu regency jumlah sejak bulan terakhir kali menyumbang darah,

  frequency total berapakali mendonor, monetary

  total sumbangan darah dari pendonor dalam c.c.,

  Time

  total bulan menyumbangkan darah sejak pertama kali, Churn Probability untuk mempresentasikan pendonor akan mendonorkan darahnya kembali atau yang tidak, 1 menyatakan donor darah, 0 tidak menyubang darah (Darwiche, dll., 2010). Dataset RFMTC didapat dari UCI dataset.

  3. SUPPORT VECTOR MACHINE (SVM) Support Vector Machine (SVM) merupakan

  i E : nilai error data ke-i

  λ terbaik. Pengujian nilai λ yang digunakan yaitu 0.1, 0.3, 0.5, 1, 1.5, 2, 2.5. Nilai parameter SVM yang digunakan adalah

   

  Pengujian Lamda ( λ) dilakukan untuk mendapatkan nilai

  4.2. Pengujian Parameter Lambda ( λ)

3.2 Testing SVM

  λ) adalah 0.5. Hasil pengujian nilai Lamda (λ) dapat dilihat pada Gambar 2.

   : digunakan dalam mengontrol kecepatan

  Gambar 2 Grafik tingkat akurasi hasil pengujian nilai lambda

  (7) 4.

   x y w

  1 = i i i i

    n

   (6) untuk mendapatkan nilai w digunakan rumus sebagai berikut :

  1

  γ = 0.5, ε = 0.001, C = 1, rasio perbandingan 50:50. Nilai default untuk Lamda (

  2

    . . w x w x b i i

  (5) Untuk selanjutnya mencari nilai bias (b) menggunakan rumus sebagai berikut :

  = sign 

    b x x y x f i i i n 1 i

   

    

    

   

  Tahap pertama melakukan perhitungan nilai f(x) menggunakan rumus:

  (δα < ε ).

  proses pembelajaran  : sebagai pembatas Lagrange multiplier. Untuk langkah ke-2 dilakukan sampai kondisi terpenuhi atau sampai iterasi maksimum

  • =

PENGUJIAN DAN ANALISIS

4.1. Pengujian Rasio Data

  akurasi. Pada Gambar 1 menunjukkan titik tertentu nilai akurasi berada pada kondisi optimal dan setelah itu mengalami penurunan. Jadi dapat disimpulkan bahwa sebaran data latih dan data uji mempengaruhi nilai akurasi di setiap rasionya. Nilai perbandingan data yang memiliki rata-rata akurasi tertinggi akan dilanjutkan untuk proses pengujian selanjutnya.

  γ. Untuk pengujian nilai parameter

  Pada pengujian rasio data digunakan dataset sejumlah 748 data. Parameter awal yang akan digunakan adalah λ = 0.5, C = 1, ε = 0.001, dan γ = 0.5. Hasil pengujian rasio perbandingan ditunjukkan pada Gambar 1.

  Gambar 1 Grafik tingkat pengujian rasio

  0.5. Hasil pengujian nilai γ dapat dilihat pada Gambar 3. 27,84 29,39 45,62 46,28 64,75 46,84 51,74 40,33 33,55 10 20 30 40 50 60 70 56,79 58,98 51,92 54,92 58,5 64,17 54,49 10 20 30 40 50 60 70 0,1 0,3 0,5 1 1,5 2 2,5

  γ adalah

  1.10 -1 , 5.10 -1 , dan 1. Nilai parameter SVM yang digunakan adalah λ = 2, ε = 0.001, C = 1, rasio perbandingan 50:50. Nilai default untuk

  , 1.10 -2 , 5.10 -2 ,

  γ yang digunakan yaitu 1.10

  • -3 , 5.10 -3

  Pengujian parameter gamma ( γ) dilakukan untuk mendapatkan nilai terbaik untuk parameter

  Pada Gambar 1 dapat dilihat semakin banyak data latih maka nilai akurasi tidak baik dikarenakan parameter awal belum optimal. Selain itu banyaknya jumlah data dan aktual

  4.3. Pengujian Parameter Gamma ( γ)

  mencapai konvergensi. Nilai λ yang memiliki nilai akurasi tertinggi akan dilanjutkan untuk menguji konstanta gamma ( γ).

  λ dapat menjadikan sistem lambat dalam

  komputasi pada perhitungan matrix Hessian karena

  λ tidak membuat akurasi menjadi baik. λ hanya berpengaruh pada waktu

  64.17%. Hal ini menunjukkan bahwa, semakin besar nilai

  Pada Gambar 2 diketahui nilai rata-rata akurasi tertinggi terdapat pada nilai lamda ( λ) 2 sebesar

  class dapat mempengaruhi perubahan nilai

  Gambar 3 Grafik tingkat akurasi hasil pengujian nilai gamma

  λ = 2, γ = 0.5, ε = 0.005, rasio perbandingan 50:50. Nilai default untuk parameter C adalah 1. Hasil pengujian parameter C dapat dilihat pada Gambar 5.

  41,87 dari proses testing merupakan klasifikasi 41,39 55,14 55,72 40,1 62,1 45,44 10 20 30 40 50 60 70 0,001 0,005 0,01 0,05 0,1 0,5 57,28 1 52,46 54,91 60,53 55,4 64,05 52,56 10 20 30 40 50 60 70 50,69 52,62 62,51 50,37 53,37 57,38 59,2 10 20 30 40 50 60 70 1 10 20 30 40 50 60

  diperoleh nilai α baru dan nilai bias (b) yang digunakan untuk memproses data testing. Hasil

  sequential SVM. Setelah proses selasai

  (SVM) pada klasifikasi pendonor darah data yang digunakan dari UCI Dataset berupa dataset RFMTC. Tahap selanjutnya adalah mencari rasio perbandingan antara data latih dan data uji. setelah itu melakukan normalisasi menggunakan kernel linier dan melakukan proses perhitungan

  Support Vector Machine

  Dalam mengimplementasikan metode

  4. KESIMPULAN

  λ = 2, γ = 0.5, ε = 0.005, C = 20, rasio perbandingan 50:50.

  Dari hasil semua pengujian parameter yang di lakukan dapat disimpulkan bahwa SVM mempunyai tingkat akurasi sebesar 76.47% dengan nilai paramater

  tidak akan dipedulikan. Hal ini berarti akan mengurangi tingkat akurasi pada proses training, sehingga mengakibatkan data testing tidak dapat diklasifikasikan dengan baik.

  margin atau yang ada pada posisi yang salah

  Pada Gambar 5 diketahui nilai rata-rata tertinggi untuk C terdapat pada nilai 20 dengan nilai akurasi 62.51%. Hal ini disebabkan, jika nilai C mendekati nilai nol, maka lebar margin pada bidang pemisah (hyperplane) menjadi maksimum dan pada waktu yang sama banyak jumlah data yang dilatih yang berada dalam

  Gambar 5 Grafik tingkat akurasi hasil pengujian complexity

  Pengujian nilai parameter Complexity (C) yang digunakan yaitu 1, 10, 20, 30, 40, 50, dan 60. Nilai untuk parameter SVM yang digunakan yaitu

  Pada Gambar 3 diketahui nilai rata-rata akurasi tertinggi untuk parameter γ terdapat pada nilai γ 0.5 dengan nilai akurasi 62.1%. Hal ini menunjukkan bahwa semakin besar atau kecil nilai γ, tidak menjamin akurasi akan menjadi baik. Semakin besar nilai γ maka semakin besar juga learning rate sehingga proses pembelajaran akan semakin cepat dan membuat akurasi tidak stabil. Nilai γ dengan akurasi tertinggi akan dilanjutkan untu k menguji parameter epsilon (ε).

  4.5. Pengujian Parameter Complexity (C)

4.4. Pengujian Parameter Epsilon ( ε)

  iterasi semakin banyak. Nilai ε dengan rata-rata tertinggi akan dilanjutkan untuk menguji nilai parameter complexity (C).

  ε, maka jumlah

  banyaknya iterasi akan semakin kecil, sedangkan semakin kecil nilai

  ε , maka

  dihasilkan. Semakin besar nilai

  ε berpengaruh terhadap nilai akurasi yang

  Pada Gambar 4 diketahui nilai rata-rata tertinggi untuk parameter ε yaitu pada nilai 0.001 dengan nilai akurasi 64.05%. Hal ini diketahui bahwa nilai

  Gambar 4 Grafik tingkat akurasi hasil pengujian nilai epsilon

  0.001. Hasil pengujian nilai ε dapat dilihat pada Gambar 4.

  λ = 2, γ = 0.5, C = 1 rasio perbandingan 50:50. Nilai default untuk ε adalah

  , 1.10 -4 , 5.10 -4 , 1.10 -3 , 5.10 -3 , dan 1.10

  • -2 . Nilai untuk parameter SVM yang digunakan adalah

  Pengujian parameter epsilon ( ε) yang digunakan yaitu 1.10

  • -6 , 1.10 -5
masing-masing class. Hasil akhir merupakan hasil akurasi yang di dapat dengan membandingkan class actual dengan predicted class .

  Untuk mengetahui hasil akurasi metode

  Support Vector Machine (SVM) pada klasifikasi

  pendonor darah menggunakan dataset RFMTC rasio data testing dan data trainging menggunakan 50% : 50% karena diperoleh hasil akurasi tertinggi sebesar 72.64%. Pemilihan nilai parameter lamda (

  λ), gamma (γ), epsilon (ε), dan complexity (C) berpengaruh pada nilai α dan nilai bias (b) serta nilai akurasi. Menurut hasil pengujian, parameter terbaik yang menampilkan akurasi terbaik pada pengujian SVM ini adalah λ = 2, γ = 0.5, ε = 0.005, dan C = 20, sehingga diperoleh akurasi terbaik yaitu 72.64%.

  Universitas Udayana. Scholkopf, B. & Smola, A., 2002. Learning with

  Saputra, K. Y., Suyadnya, I. M. A. & Swamardika, I. B. A., 2016. Rancang Bangun Aplikasi Komunitas Donor Darah Berbasis Web Dan Android Yang Dilengkapi Layanan Informasi Geografis.

  dan Implementasi. Surabaya: Guna Widya.

  Vector Machine untuk Rekomendasi Pemilihan Terapi Dehidrasi Pada Anak. Santosa, B., 2011. Metode Metaheuristik Konsep

  Indonesia: Andi Yogyakarta. Rani, 2016. Implementasi Metode Support

  Prasetyo, E., 2012. Data Mining : Konsep dan Aplikasi Menggunakan Matlab.

  Permana, R. A., 2016. Seleksi Atribut Pada Metode Support Vector Machine Untuk Menentukan Kelulusan Mahasiswa E- Learning. STMIK Antar Bangsa.

5. DAFTAR PUSTAKA

  I-Cheng, Y., King-Jang, Y. & Tao-Ming, T., 2009. Knowledge Discovery on RFM Model Using Bernoulli Sequence.

  and Banking, Volume 13(1), pp. 95-109.

  Support Vector Classifiers and Regression. The Institute for Physical and Chemical Research.

  New York: John Wiley and Sons, Inc.. Vijayakumar, S. & Wu, S., 1999. Sequential

  Vapnik, V., 1997. Statistical Learning Theory.

  Susanto, W. E. & Agustina, C., 2016. Komparasi Akurasi Algoritma C4.5 dan Naive Bayes untuk Prediksi Pendonor Darah Potensial dengan Dataset RFMTC. AMIK BSI Yogyakarta.

  Kernels. Massachusetts: The MIT Press, Cambridge.

  Aviliani, Sumarwan, Sugema & Saefuddin, 2011. Segmentasi Nasabah Tabungan Mikro Berdasarkan Recency, Frequency, dan Monetary (Kasus Bank BRI). Finance

  Christianini, N. & Shawe-Taylor, J., 2000. An Introduction to Support Vector Machines.

  Kementrian Kesehatan Republik Indonesia, 2014. [Online] Available at: http://sehatnegeriku.kemkes.go.id [Diakses 1 Maret 2017]. Kusuma, A. A., 2015. Aplikasi Penentuan Calon

  Cambridge University Press.

  Darwiche, M., Feuilloy, M., Bousaleh, G. & Schang, D., 2010. Prediction of Blood Transfusion Donation. IEEE, pp. 51-56.

  Fais, S. N., Aditya, M. & Mulya, S., 2014.

  Klasifikasi Calon Pendonor Darah Dengan Metode Naive Bayes Clasifier. Universitas Brawijaya. Haykin, S., 1999. Neural Network: A

  Octaviani, P. A., Wilandari, Y. & Ispriyanti, D., 2014. Penerapan Metode Klasifikasi Support Vector Machine (SVM) Pada Data Akreditasi Sekolah Dasar (SD) Di Kabupaten Magelang. UNDIP.

  Comprehensive Foundation. New Jersey: Prentice Hall.

  Pendonor Darah Menggunakan Metode Algoritma ID3 (Studi Kasus PMI Kota Kediri). UN PGRI Kediri.