Clustering Pasien Kanker Berdasarkan Struktur Protein Dalam Tubuh Menggunakan Metode K-Medoids

  

Vol. 2, No. 10, Oktober 2018, hlm. 3810-3816 http://j-ptiik.ub.ac.id

Clustering Pasien Kanker Berdasarkan Struktur Protein Dalam Tubuh

  

Menggunakan Metode K-Medoids

1 2 3 Laily Putri Rizby , Marji , Lailil Muflikhah

  Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya

  1

  

  3 Email: lailyrizby@gmail.com lailil@ub.ac.id

Abstrak

  Kanker merupakan penyakit yang kerap menjadi momok bagi sebagian besar orang memang telah memakan banyak korban. Semakin berkembangnya zaman semakin banyak virus yang tersebar di masyarakat. Kanker adalah istilah yang digunakan untuk menggambarkan ratusan penyakit berbeda dengan fitur tertentu yang sama. Kanker dimulai dengan perubahan dalam struktur dan fungsi sel yang menyebabkan sel membelah dan menggandakan diri tanpa terkontrol. Umumnya kanker dinamai sesuai organ dan jenisnya tempat pertama kali ia berkembang. Mutasi gen yang paling sering ditemukan pada kanker manusia adalah Gen P53. Gen P53 merupakan gen penekan tumor yang mengkode atau mengekspresikan protein 53. Dari berbagai banyak data yang ada perlu dilakukan proses klusterisasi yaitu pengelompokkan jenis kanker berdasarkan kelasnya. Salah satu metode klustering yang mulai banyak digunakan adalah metode K-Medoids. K-medoids atau dikenal pula dengan PAM (Partitioning

  

Around Medoids ) menggunakan metode partisi clustering untuk mengelompokkan sekumpulan n objek

  menjadi sejumlah k cluster. Algoritma ini menggunakan objek pada kumpulan objek untuk mewakili sebuah cluster. Objek yang terpilih untuk mewakili sebuah cluster disebut medoid. Pada penelitian

  

clustering pasien kanker menggunakan metode K-Medoids ini menunjukkan nilai persentase kualitas

cluster sebesar 77% pada percobaan pada nilai k 14 dan menggunakan 116 data.

  Kata kunci : clustering, k-medoids, kanker, protein tubuh, silhouette coefficient

  

Abstract

Cancer is a disease that often becomes a scourge for most people has indeed taken many victims. In this

era, more viruses are scattered in the community. Cancer is a term used to describe hundreds of different

diseases with the same particular features. Cancer begins with changes in the structure and function of

cells that cause cells to divide and multiply uncontrollably. Cancer is generally named after the organ

and its type where it first developed. The most common mutation of genes found in human cancers is the

P53 Genes. The P53 gene is a tumor suppressor gene that encodes or expresses protein 53. From a wide

range of data there is a clustering process that classifies types of cancer by its class. One of the most

widely used methods of clustering is the K-Medoids method. K-medoids or also known as PAM

(Partitioning Around Medoids) using the clustering partition method to group a set of n objects into a

number of cluster k. This algorithm uses objects on a collection of objects to represent a cluster. The

object chosen to represent a cluster is called the medoid. In clustering research, cancer patients using

K-Medoids method showed cluster quality percentage of 77% in experiments at k 14 and using 116 data.

  Keywords : clustering, k-medoids, cancer, body protein, silhouette coefficient

  kemudian dapat menyerang dan merusak 1.

   PENDAHULUAN jaringan sekitar, dan sel dapat memisahkan diri dan menyebar ke area lain dalam tubuh.

  Kanker adalah istilah yang digunakan untuk Umumnya kanker dinamai sesuai organ dan menggambarkan ratusan penyakit berbeda jenisnya tempat pertama kali ia berkembang dengan fitur tertentu yang sama. Kanker dimulai (Kelvin, Joanne Frankel., dkk., 2011). dengan perubahan dalam struktur dan fungsi sel

  Kode genetik yang mengatur pembentukan yang menyebabkan sel membelah dan sel-sel kanker berhasil dipecahkan. Meski menggandakan diri tanpa terkontrol. Sel

  Fakultas Ilmu Komputer Universitas Brawijaya

3810 bentuk pengobatan dengan target gen masih terus dikembangkan, temuan ini membawa harapan baru untuk melawan penyakit mematikan tersebut. Peta genetik yang dibuat para ilmuwan Amerika Serikat menunjukkan setidaknya terdapat sekitar 200 gen termutasi yang berperan mengatur pembentukan, pertumbuhan, dan penyebaran tumor. Sebagian besar gen yang termutasi ini belum diketahui sebelumnya (Diananda, Rama, 2011).

  Mutasi gen yang paling sering ditemukan pada kanker manusia adalah Gen P53. Gen P53 merupakan gen penekan tumor yang mengkode atau mengekspresikan protein 53. Protein p53 merupakan faktor transkripsi terhadap gen-gen yang terlibat dalam regulasi siklus sel, induksi apoptosis, repair DNA, dan stabilitas genome.

  Semenjak tahun 1960 semakin nyata bahwa ada paling sedikit tiga residu nukleotida DNA diperlukan untuk mengkode untuk masing- masing asam amino. Empat huruf kode DNA yaitu A, T, G dan C tersusun membentuk tiga huruf yang disebut dengan kodon.

  PAM (Point Accepted Mutation ) merupakan sekumpulan PAM1 – PAM250 yang berasal dari penurunan sequence yang memiliki hubungan kekerabatan yang dekat (Kurnianti,

  4. POINT ACCEPTED MUTATION

  Proses mutasi dalam gen P53 yang mampu mengontrol produksi protein, dipercaya sebagai penyebab dari 50% kasus keganasan. Gen P53 merupakan gen penekan tumor yang mengkode atau mengekspresikan protein 53, nama ini diambil dari berat molekulnya yang sebesar 53 kilodalton. Protein 53 merupakan faktor tranksripsi terhadap gen-gen yang terlibat dalam regulasi siklus sel, induksi apoptosis, repair DNA, dan stabilitas genome.

  Kode genetik yang mengatur pembentukan sel-sel kanker berhasil dipecahkan. Peta genetik yang dibuat para ilmuwan Amerika Serikat menunjukkan setidaknya terdapat sekitar 200 gen termutasi yang berperan mengatur pembentukan, pertumbuhan, dan penyebaran tumor. Ditemukan sejenis protein yang dikenal dengan nama “P53” berhubungan kuat dengan kanker.

  3. GEN P53

  Pada prosesnya di dalam sel, terjadi proses transkripsi yaitu sintesis RNA dengan DNA sebagai cetakannya. RNA yang membawa sandi yang sama dengan resep pada DNA ini bertindak sebagai cetakan untuk sintesis protein. Setiap kodon mengkodekan 1 asam amino. Sementara itu jumlah asam amino penyusun protein diketahui hanya 20 saja.

  Molekul protein tersusun dari satuan-satuan dasar kimia yaitu asam amino. Satu molekul protein dapat terdiri dari 12 sampai 20 macam asam amino dan dapat mencapai jumlah ratusan asam amino (Wibisono, Yudi, 2011).

  Dengan semakin berkembang pesatnya kecanggihan teknologi juga diharapkan adanya sebuah sistem atau aplikasi yang mampu mengidentifikasi penyakit kanker. Pengidentifikasian dilakukan dengan cara mengclusterkan data pasien ke dalam kelas “non-cancer”, “breast cancer”, “colorectal

  Dari pendahuluan yang telah dipaparkan dan berdasarkan pada penelitian sebelumnya maka dibuatlah penelitian tentang clustering pasien kanker berdasarkan struktur protein dalam tubuh menggunakan metode K-Medoids ini.

  Metode ini telah digunakan pada penelitian sebelumnya untuk klasterisasi penyakit kanker berdasarkan kandungan logam dalam darah. Dan tingkat akurasinya mencapai 57.14% (Nastiti, Shofi., dkk., 2014). Sedangkan dengan data kanker yang sama yaitu berdasarkan struktur protein dalam tubuh tetapi menggunakan algoritma Modified K-Nearest Neighbor (MKNN) tingkat akurasi maksimum yang dicapai adalah 43.53% (Retwitasari, Arintha, 2016).

  K-Medoids adalah sebuah algoritma yang menggunakan metode partisi clustering untuk mengelompokkan sejumlah n objek menjadi k cluster.

  Dalam penelitian ini metode clustering K- Medoids dipilih sebagai metode yang mampu melakukan klustering data protein dengan baik.

  ” dan kelas “lung cancer”. Pengklusteran merupakan pengelompokan record , pengamatan, atau memperhatikan dan membentuk kelas pada objek-objek yang memiliki kemiripan.

  cancer

2. PROTEIN TUBUH

  algoritma K-medoids adalah sebagai berikut.

  1. Secara acak pilih k objek pada sekumpulan n objek sebagai medoid.

  2. Ulangi: 3.

  Tempatkan objek non-medoid ke dalam

  cluster yang paling dekat dengan medoid.

  4. Secara acak pilih oacak: sebuah objek non- medoid .

  5. Hitung total biaya, S, dari pertukaran

  Gambar 1. Tabel Matrik PAM250 medoid oj dengan orandom.

  6. Jika S < 0 maka tukar oj dengan oacak Ria, 2013). Pada tabel PAM titik yang termutasi untuk membentuk sekumpulan k objek pada protein adalah perubahan pada salah satu barusebagai medoid. asam amino, yang terpilih secara alami.

  Jumlah dari matriks PAM (PAM1, 6.

   PERANCANGAN DAN PAM250) menunjukkan sebuah evolusi jarak.

  IMPLEMENTASI

  Semakin besar jumlahnya maka semakin besar Dataset protein yang tersedia adalah data pula jaraknya (Dor, Shifra Ben, 2007). Untuk bertipe String sehingga langkah pertama yang memperoleh nilai pada PAM maka dilakukan harus dilakukan dalam sistem di penelitian ini perkalian, contoh PAM2 diperoleh dari adalah melakukan konversi data menjadi data perkalian antara PAM1 dan PAM1, begitu pula numerik sehingga data menjadi bertipe integer dengan PAM3 diperoleh dari perkalian antara dan dapat dilakukan proses clustering. Langkah

  PAM1dan PAM2, begitu seterusnnya. Matrik selanjutnya adalah melakukan perhitungan PAM1 merupakan dasar untuk menghitung clustering menggunakan metode K-Medoids. matrik yang lain dengan anggapan mutasi yang

  Dan langkah terakhir adalah melakukan uji berulang akan mengikuti aturan yang sama kualitas kluster menggunakan silhouette dengan matrik PAM1, dengan logika tersebut

  coefficient .

  dapat diperoleh matrik PAM250.

  Pengkonversian data dengan cara Tabel di atas diketahui terdapat 20 macam mencocokkan dataset dengan data wild yang asam amino. ). Macam-macam residu asam telah ada melalui tabel PAM250. amino yang diurutkan dari atas ke bawah yaitu

  Tabel 1. Data Wild bentuk Fisik

  Sistein Alanin (Ala) = A, Arginin (Arg) = R,

  Variabel V

  V V

  V V

  V V

  V V

  V Asparagin (Asn) = N, Asam Aspartat (Asp) = D,

  1

  2

  3

  4

  5

  6

  7

  8

  9

  10

  (Cys) = C, Glutamin (Gin) = Q, Asam Glutamat

  Data Y K Q S T E V V R R

  (Glu) = E, Glisin (Gly) = G, Histidin (His) = H,

  Wild

  Isoleusin (Ile) = I, Leusin (Leu) = L, Lisin (Lys) = K, Metionin (Met) = M, Fenilalanin (Phe) = F,

  Tabel 2. Dataset bentuk Fisik

  Prolin (Pro) = P, Serin (Ser) = S, Treonin (Tgr)

  Dataset V

  V V

  V V

  V V

  V V

  V Kel

  = T, Triptofan (Trp) = W, Tirosin (Tyr) = Y,

  1

  2

  3

  4

  5

  6

  7

  8

  9 10 as Valin (Val) = V. D1 Y K Q S T E V V R R NC D2 Y K Q S S E V V R R BC 5. K-MEDOIDS

  D3 Y K Q S T E V V R C CC

  Algoritma K-medoids atau dikenal pula

  D4 Y K Q L T E V V R R LC

  dengan PAM (Partitioning Around Medoids) menggunakan metode partisi clustering untuk

  D5 Y K Q S T E V V R C CC

  mengelompokkan sekumpulan n objek menjadi

  D6 Y M Q S T E V V R R CC

  sejumlah k cluster. Algoritma ini menggunakan

  D7 Y K Q S L E V V R R BC

  objek pada kumpulan objek untuk mewakili

  D8 Y K Q S G E V V R R BC

  sebuah cluster. Objek yang terpilih untuk mewakili sebuah cluster disebut medoid. Cluster

  D9 Y K Q M T E V L R R LC

  dibangun dengan menghitung kedekatan yang

  D10 Y K Q L T E V L R R LC

  dimiliki antara medoid dengan objek non-

  D11 Y K Q S T E V V R R NC medoid (Han, J., M. Kamber, 2006). D12 Y K Q S T E V V R R NC

  Menurut Han dan Kamber (2006) perhitungan dengan data C1, C2 dan C3 pada Hasil konversi data fisik menjadi data data cluster medoid awal. virtual numerik ditampilkan pada Tabel 3. Untuk Perhitungan pertama untuk D2:C1. kelas dikonversikan menjadi 0 = NC (Non D2:C1 = |10-10|+ |5-5|+|4-4|+|2-2|+|2-2|+|4-

  Cancer

  ), 1 = BC (Breast Cancer), 2 = CC 4|+|4-4|+|4-4|+|6-6|+|6-6| = 0 (Colorectal Cancer), dan 3 = LC (Lung Cancer). Perhitungan pertama untuk D2:C2.

  Tabel 3. Dataset Hasil Konversi

  D2:C2 = |10-10|+ |5-5|+|4-4|+|2-(-3)|+|2-2|+|4-

  Data

  V V

  V V

  V V

  V V

  V V Kel

  4|+|4-4|+|4-4|+|6-6|+|6-6| = 5

  set

  1

  2

  3

  4

  5

  6

  7

  8

  9 10 as Perhitungan pertama untuk D2:C3. D1

  10 5 4 2 2 4 4 4 6 6 D2:C3 = |10-10|+ |5-5|+|4-4|+|2-2|+|2-0|+|4-

  D2

  10 5 4 2 2 4 4 4 6 6 1 4|+|4-4|+|4-4|+|6-6|+|6-6| = 2

  Tabel 5. Hasil Perhitungan Jarak Manhattan Data

  V V

  V V

  V V

  V V

  V V Kel Dataset Jarak C1 Jarak C2 Jarak C3

  set

  1

  2

  3

  4

  5

  6

  7

  8

  9 10 as

  D2

  5

  2 D3 10 5 4 2 2 4 4 4 6 -3

  2 D3

  9

  14

  11 D4 10 5 4 -3 2 4 4 4 6 6

  3 D5

  9

  14

  11 D5 10 5 4 2 2 4 4 4 6 -3

  2 D6

  4

  9

  6 D6 10 1 4 2 2 4 4 4 6 6

  2 D7

  4

  9

  2 D7 10 5 4 2 -2 4 4 4 6 6

  1 D9

  6

  3

  8 D8 10 5 4 2 0 4 4 4 6 6

  1 D10

  7

  2

  9 D9 10 5 4 -2 2 4 4 2 6 6

  3 D11

  5

  2 D10 10 5 4 -3 2 4 4 2 6 6

  3 D12

  5

  2 D11 10 5 4 2 2 4 4 4 6 6

  D12 c. Langkah 3

  10 5 4 2 2 4 4 4 6 6 Langkah selanjutnya adalah menghitung

6.1. Perhitungan K-Medoids

  nilai cost dari tiga cluster pada setiap data yang telah dihitung jaraknya dengan medoid awal, Pada perhitungan manual nilai k yang dengan rumus : digunakan adalah 3. Sehingga data yang

  ( ) = min { 1( ), 2( ), … , ( ) (2) diperoses adalah mengelompokkan dataset Contoh perhitungan pada D2 adalah sebagai sebanyak 3 cluster. berikut. Langkah 1 a.

  Cost (D2) = min {0,5,2} = 0 Hasil perhitungan untuk semua dataset

  Menentukan secara acak medoid awal yang protein dapat dilihat pada tabel 6. berbeda sebanyak 3 medoid dari dataset protein

  Tabel 6. Nilai Cost Cluster pada Medoid Awal

  yang telah dikonversikan. Dalam perhitungan ini Dataset Jarak C1 Jarak C2 Jarak C3 Cost medoid awal yang digunakan adalah D1, D4, dan

D2 D8.

  5

  2 Tabel 4. Dataset Medoid Awal

  D3

  9

  14

  11

  9 Clus Data

  V V

  V V

  V V

  V V

  V V D5

  9

  14

  11

  9

  ter set

  1

  2

  3

  4

  5

  6

  7

  8

  9

  

10

D6

  4

  9

  6

  4 C1 D1 10 5 4 2 2 4 4 4 6

  6 D7

  4

  9

  2

  2 C2 D4 10 5 4 -3 2 4 4 4 6

  6 D9

  6

  3

  8

  3 C3 D8 10 5 4 2 0 4 4 4 6

  6 D10

  7

  2

  9

  2

b. Langkah 2

  D11

  5

  2 Menghitung jarak setiap data dengan

  D12

  5

  2 medoid awal C1, C2 dan C3 menggunakan

  Total Cost

  29 rumus jarak manhattan (Manhattan Distance). Rumus jarak manhattan :

  (1) Maka didapatkan anggota Cluster 1 : D1, ( , ) = ∑ | ( ) − ( )| + | ( ) − ( )|

  =1

  Sebagai contoh ditampilkan perhitungan D2, D3, D5, D6, D11 dan D12, anggota Cluster secara detail pada data D2 yang diambil dari 2 : D4, D9, dan D10, anggota Cluster 3 : D7 dan dataset protein. Data D2 akan dilakukan D8. maka data berada pada posisi di tengah,

  d. Langkah 4

  maksudnya data terdapat kemungkinan berada Pada langkah ini iterasi pertama mulai pada cluster yang tepat tetapi bisa juga dilakukan. Perhitungan dilakukan dengan seharusnya berada pada cluster yang lain, jika mengganti salah satu medoid. Medoid baru yang

  s(i)

  = -1 maka data berada pada cluster yang digunakan adalah salah satu data non medoid salah sehingga seharusnya data berada pada yang berada pada cluster yang sama pada cluster yang lain. medoid awal. Dalam perhitungan ini medoid

  a. Langkah 1 yang diganti adalah cluster 2, yaitu D4 diganti Menghitung jarak D1 terhadap semua data dengan D9. yang berada pada cluster yang sama, yaitu

  Tabel 7. Medoid Iterasi 1 cluster 3.

  Tabel 9. Jarak D1 dengan Anggota Cluster 3

  Clu Data

  V1 V

  V V

  V V

  V V

  V V

  Jarak D1 dengan

  ster set

  2

  3

  4

  5

  6

  7

  8

  9

  10 Dataset Dataset

  semua anggota C3 C1 D1 10 5 4 2 2 4 4 4 6

  6 D2

  C2

  D9 10 5 4 - 2 4 4 2 6

  6 baru

  2 D6

  4 C3 D8 10 5 4 2 0 4 4 4 6

  6 D7

  4 D1

  e. Langkah 5

  D8

  2 D11 Langkah selanjutnya adalah mengulangi langkah 2-4 sampai semua data pernah menjadi

  D12 medoid.

  1,7 ( ) (Rata-rata)

  Tabel 8. Hasil Jarak Manhattan dan Nilai Cost Iterasi 1

  b.

  Langkah 2 Dataset Jarak C1 Jarak C2 Jarak C3 Cost

  Menghitung jarak D1 terhadap semua data

  D2

  6

  2 yang berada pada cluster 1 dan cluster 2,

  D3

  9

  15

  11

  9 kemudian cari nilai rata-rata jarak yang paling

  D5

  9

  15

  11

  9 kecil.

  D6

  4

  10

  6

  4 Tabel 10. Jarak D1 dengan Anggota Cluster 1 dan

  D7

  4

  10

  2

  2 Cluster 2

  D4

  5

  3

  7

  3 ( )

  Jarak D1

  D10

  7

  1

  9

  1 Rata- (Rata Data Clus Dat dengan

  D11

  6

  2 rata -rata set ter aset semua

  D12

  Jarak Mini

  6

  2 data mal)

  Total Cost

  28 D3

  9 Hasil perhitungan jarak manhattan dan nilai

  1

  9 D5

  9 cost pada setiap data di iterasi 1 dapat dilihat pada Tabel 8. Maka didapatkan anggota Cluster D1

  D4

  5

  6 1 : D1, D2, D3, D5, D6, D11 dan D12, anggota

  2 D9

  6

  6 Cluster 2 : D4, D9 dan D10, anggota Cluster 3 : D10

  7 D7 dan D8. Lalu total cost yang didapatkan adalah 28. Karena total cost lebih kecil dari total c.

  Langkah 3 cost medoid sebelumnya maka medoid dan anggota cluster berubah.

  Setelah rata-rata jarak D1 dengan semua Perhitungan diulang terus sampai semua data selesai dihitung maka perhitungan data pernah menjadi medoid. Setelah itu

  silhouette coefficient

  bisa dilakukan dilanjutkan dengan menghitung kualitas cluster. menggunakan dengan rumus :

6.2. Perhitungan Silhouette Coefficient

  ( ) − ( ) ( ) = (3)

  Hasil dari silhouette coefficient ini berada max ( ( ), ( )) antara nilai -1 sampai 1. Jika s(i) = 1 maka data telah berada pada cluster yang tepat, jika s(i) = 0

  Hasil Pengujian Pengaruh Jumlah Cluster Terhadap Silhouette Coefficient 0,66 0,716 0,726 0,726 0,686 C o ef fi 0,6 ci ent 0,8 0,612 0,52 uette S il ho 0,2 0,4

  2

  5

  8 Jumlah Cluster

  11

  14

  17

  20 Gambar 2. Implementasi Antarmuka Sistem Gambar 3. Grafik Hasil Pengujian Pengaruh Jumlah Clustering Pasien Kanker

  Cluster terhadap Silhouette Coefficient Hasil Pengujian Pengaruh Jumlah Dataset Terhadap Silhouette Coefficient

  Diketahui (1) = 1,7 dan (1) = 6, sehingga

  (1) < (1) nilai silhouette 0,778

  0,8 coefficient

  • nya adalah : ef 0,75 ci 0,736 o ent fi 0,724 0,732 0,74 0,73

  (1) C 0,698 = 1 − uette

  (1) 0,7 S il ho 1,7

  0,65

  = 1 −

  6

  20% 30% 40% 50% 60% 100% Total

  = 1 − 0,28 Jumlah Dataset

  Gambar 4. Grafik Hasil Pengujian Pengaruh Jumlah

  = 0,72

  Dataset terhadap Silhouette Coefficient

  Perhitungan Silhouette Coefficient dilakukan pada semua data dan dihitung rata-rata

  cluster 14 dan 17 yaitu 0,726.

  akhir untuk mengetahui nilai SC metode K- Medoids .

  7.1. Pengujian Pengaruh Jumlah Dataset

6.3. Implementasi Antarmuka

  Jumlah data yang digunakan bervariasi yaitu dari 100% data atau 588 dataset,

  Antarmuka dibuat untuk memudahkan

  kemudian diambil secara acak menjadi 20%,

  pengguna dalam menggunakan sistem yang

  30%, 40%, 50%, dan 60% data dari data dapat dilihat pada gambar 2. total. Grafik hasil percobaan dapat dilihat

  Yang pertama adalah bagian input data yang digunakan oleh pengguna untuk

  pada gambar 4.

  memasukkan data-data yang diperlukan dalam

  Dari percobaan yang telah dilakukan proses clustering. terlihat hasil yang bervariasi dan hasil terbaik didapatkan ketika data yang

  Bagian kedua adalah tabel dataset protein,

  digunakan 20% yaitu 116 dataset protein,

  bagian ketiga adalah menunjukkan jumlah dataset dan cluster serta menampilkan nilai akhir

  rata-rata nilai silhouette coefficient

  dari Silhouette Coefficient, dan bagian keempat mencapai 0,778. adalah sebuah textarea yang berisi hasil clustering yang dilakukan sistem.

  KESIMPULAN

  Berdasarkan hasil perancangan, 7.

HASIL DAN ANALISIS

  implementasi, dan hasil pengujian sistem yang telah dilakukan dapat didapatkan kesimpulan :

7.1. Pengujian Pengaruh Jumlah Cluster

  1. Metode K-Medoids dapat Prosedur pengujian pengaruh jumlah

  diimplementasikan pada sistem clustering

  cluster ini adalah dengan memasukkan nilai

  pasien kanker berdasarkan struktur protein

  k yang berarti adalah jumlah cluster dengan

  dalam tubuh. Data total yang digunakan

  nilai yang berbeda-beda dan akan dilakukan

  sebanyak 588 dataset. Proses awal yang

  percobaan beberapa kali. Nilai k atau jumlah

  dilakukan adalah mengkonversi data cluster yang digunakan adalah 2 sampai 20. menggunakan matriks PAM, kemudian

  Dan nilai tertinggi berada pada jumlah

  dipilih pusat medoid secara acak sebanyak nilai k diinginkan, selanjutnya menghitung jarak masing-masing data terhadap pusat Han, J., M. Kamber, 2006. Data Mining

  Concepts and Techniques Second

  medoid menggunakan perhitungan jarak manhattan, lalu dicari nilai cost pada setiap Edition . Morgan Kauffman Publisher. data, pilih cost minimal, dan total semua San Fransisco. cost minimal yang didapatkan, proses akan Kelvin, Joanne Frankel., Leslie B. Tyson, 2011. berulang seperti ini sampai semua data

  100 Questions & Answers about Cancer

  pernah menjadi medoid. Jika nilai total cost

  Symptoms and Cancer Treatment Side

  lebih kecil maka medoid diganti, tetapi jika

  Effects, second Edition

  . Jones and nilai total cost lebih besar maka medoid Bartlett Publishers, LLC. Sudbury, MA. tetap. Kemudian sistem akan menampilkan

  Kurnianti, Ria, 2013, Penggunaan Metode hasil clustering sesuai dengan jumlah

  Pengelompokkan K-Means Pada

  cluster yang diinputkan. Dan menampilkan

  Klasifikasi KNN Untuk Penentuan Jenis

  hasil silhouette coefficient yang merupakan

  Kanker Berdasarkan Susunan Protein, kualitas cluster yang dihasilkan.

  Universitas Brawijaya, Malang.

2. Dari dua pengujian yang telah dilakukan Nastiti, Shofi., Faisal P., Rizky Ramadhan, 2014.

  didapatkan hasil terbaik yaitu dengan

  Clustering Pasien Kanker Berdasarkan

  jumlah cluster = 14 yang memiliki nilai

  Konsentrasi Logam Dalam Darah

  silhouette coefficient 0,726 dan jumlah

  Menggunakan Metode K . Program

  dataset 116 data atau data 20% yang Teknologi Informasi dan Ilmu memiliki nilai silhouette coefficient 0,778. Komputer, Universitas Brawijaya. Malang.

DAFTAR PUSTAKA

  Retwitasari, Arintha, 2016. Penentuan Jenis Candra, Sefia, Antonius R. C., Lucia Dwi K.,

  Kanker Berdasarkan Struktur Protein

  2012. Clustering Tag Status Facebook

  Menggunakan Algoritma Modified K- Dengan Menggunakan Algoritma K- Nearest Neighbor (MKNN) Medoids

  . Fakultas . Fakultas Teknologi Informasi. Ilmu Komputer, Universitas Brawijaya Universitas Kristen Duta Wacana. Malang. Yogyakarta.

  Shibab, A., 2000. Fuzzy Clustering Algorithm Diananda, Rama, 2011. Mengenal Seluk-Beluk

  and Their Application to Medical Image Kanker . Ar-Ruzz Media Group. Analysis . Disertation, University of Jogjakarta.

  London. London. Dizon, Don S., Michael L. Krychman, Paul A.

  Uyha, DiSilvestro, 2011. 100 Questions and

  Answers about Cervical Cancer . Jones and Bartlett Publishers, LLC. Sudbury,

  MA.

  Wibisono, Yudi, 2011. Perbandingan Partition

  Around Medoids (PAM) dengan K-

  Dor, Shifra Ben, 2007, Scoring Matrices,

  Means Clustering untuk Tweets . Ilmu

  Weizmann Institute Of Science, Komputer FPMIPA, Universitas Rehovot. Pendidikan Indonesia. Bandung.