Metode Klasifikasi Bersturuktur Pohon dengan Algoritma QUEST dan Algoritma CART (Aplikasi pada Data Pasien Penyakit Jantung)

BAB 1
PENDAHULUAN

1.1 Latar Belakang
Pengklasifikasian merupakan salah satu metode statistika untuk pengelompokkan
atau mengklasifikasikan suatu data yang disusun secara sistematis. Klasifikasi
adalah mengelompokkan atau mengatur secara sistematis sekaligus memberi arti
informasi yang berguna untuk menentukan/menetapkan kesesuaian gagasan,
peristiwa,

barang

dan

orang.

Klasifikasi

memiliki

tujuan


untuk

mengklasifikasikan suatu data ke dalam kelompok kelas yang sudah ada. Tidak
akan ada pembentukan kelompok baru. Masalah klasifikasi sering dijumpai pada
kehidupan sehari-hari, baik dibidang pendidikan, sosial, industri, kesehatan
maupun perbankan. Contoh masalah klasifikasi dalam bidang pendidikan adalah
klasifikasi sekolah berdasarkan akreditas sekolah. Dalam bidang kesehatan
dilakukan pengklasifikasian penyakit berdasarkan tingkat keseriusan dan bahaya
yang ditimbulkan.
Dalam

statistika,

dikenal

dengan

berbagai


metode

untuk

mengklasifikasikan objek. Klasifikasi dapat digunakan dengan menggunakan
pendekatan parametrik maupun pendekatan non parametrik. Pendekatan
parametrik biasanya sangat tergantung dari asumsi-asumsi mengenai sebaran data
sehingga bila asumsi tersebut tidak terpenuhi, maka hasil yang diperoleh menjadi
tidak valid.
Pendekatan non parametrik digunakan untuk mengatasi keterbatasan dari
pendekatan parametrik. Pendekatan ini tidak tergantung pada asumsi tertentu
sehingga memberikan kemudahan dalam menganalisa data tetapi tetap
mempunyai tingkat akurasi yang tinggi. Untuk mendapatkan klasifikasi yang
tepat, perlu diperhatikan metode klasifikasi yang tepat.
Menurut Rokach dan Maimon (2008) dan maroco et al (2011), algoritma
pohon klasifikasi merupakan pendekatan non parametrik. Metode tersebut adalah
salah satu metode klasifikasi yang tidak tergantung pada asumsi tertentu dan
mampu mengeksplorasi struktur data yang kompleks dengan variabel yang

Universitas Sumatera Utara


2

banyak. Struktur data dapat dilihat secara visual dan algoritma pohon klasifikasi
juga memberikan kemudahan dalam menginterpretasikan hasil.
Menurut Kim dan Loh (2001), algoritma pohon klasifikasi dibagi menjadi
dua kelompok, yaitu yang menghasilkan pohon biner (misalnya CART dan
QUEST) dan yang menghasilkan pohon non-biner (seperti CHAID dan CRUISE).
CART (Classification and Regression Trees) merupakan algoritma yang
diperkenalkan oleh Breiman, et. al (1984), sedangkan QUEST (Quick, Unbiased,
Efficient Statistical Trees) merupakan algoritma yang diperkenalkan oleh Loh dan
Shih(1997). CART dan QUEST merupakan contoh metode yang menghasilkan
pohon seperti ini. Kelompok kedua adalah kelompok yang menghasilkan pohon
non-biner, yaitu sebuah pohon yang setiap simpul disekat menjadi dua atau lebih
simpul yang terpisah. CHAID (Chi-squared Automatic Interaction Detector)
merupakan salah satu algoritma yang diperkenalkan oleh Kass (1980), sedangkan
CRUISE (Classification Rule Unbiased Interaction Selection and Estimasion)
merupakan algoritma yang diperkenalkan ole Kim dan Loh (2001). CHAID dan
CRUISE merupakan contoh metode klasifikasi yang menghasilkan pohon nonbiner.
Dalam pembentukan pohon klasifikasi, proses penyekatan terhadap suatu

simpul dapat bersifat biner dan non biner. Pada penyekatn biner, setiap simpul
hanya dapat disekat menjadi dua simpul baru, sedangkan pada penyekatan non
biner setiap simpul dapat menghasilkan lebih dari dua simpul baru.
Algoritma QUEST dan algoritma CART merupakan pendekatan regresi
non parametrik yang menghasilkan variabel tak bias dan memiliki dua simpul
kategori setiap penyekat. Kedua algoritma bertujuan untuk mendapatkan suatu
pengklasifikasian yang bersifat biner.
Penelitian yang menggunakan algoritma QUEST pernah dibahas oleh
Abdurrahman dkk (2014), yang membahas tentang Pembentukan Pohon
Klasifikasi Biner dengan Algoritma QUEST (Quick, Unbiased, and Efficient
Statistical Tree) pada Data Pasien Liver menunjukkan bahwa variabel yang
penting dalam mengklasifikasikan seseorang terkena penyakit liver atau tidak,
yaitu variabel � (DB), � (FA), �7 (SGOT), dan �2 (Umur) yang selanjutnya

Universitas Sumatera Utara

3

variabel (hasil tes fungsi hati) tersebut dapat disebut sebagai ciri-ciri pasien liver.
Tingkat akurasi pohon klasifikasi dalam mengklasifikasikan data sebesar 73,4%.

Sedangkan algoritma CART pernah dibahas oleh Jiwadiana dkk (2015),
yang membahas tentang Klasifikasi Karakteristik Kecelakaan Lalu Lintas di Kota
Denpasar dengan Pendekatan Classification and regression Trees (CART)
menunjukkan bahwa CART optimum yang terbentuk menghasilkan tiga simpul
terminal pertama, terdiri dari 12 orang yang dikelompokkan sebagai karakteristik
kecelakaan lalu lintas berat dengan jenis laka tunggal, yang kedua terdiri dari 68
orang yang dikelompokkan sebagai karakteristik kecelakaan lalu lintas ringan
dengan jenis laka depan-belakang, untuk simpul ketiga terdiri dari 291 orang yang
dikelompokkan sebagai karakteristik kecelakaan lalu lintas sedang dan variabel
bebas yang menjadi pemilah utama dalam pembentukan CART adalah jenis laka
dengan indeks gini 0,03252.
Jantung adalah sebuah pemompa darah yang terdiri dari dua pompa yang
terpisah yakni jantung kanan yang memompa ke paru-paru dan jantung kiri yang
memompa darah ke organ-organ perifer. Penyakit jantung merujuk pada penyakit
menyerang jantung dan sistem pembuluh darah. Ada banyak penyebab penyakit
jantung, seperti pola hidup, kelainan bawaan sejak lahir,dan pola makan yang
tidak sehat. Oleh karena itu, dalam penelitian ini metode klasifikasi berstruktur
pohon dengan algoritma QUEST dan algoritma CART akan diaplikasikan pada
data pasien penyakit jantung yang berobat di Rumah Sakit Umum Pusat Haji
Adam Malik.


1.2 Rumusan Masalah
Berdasarkan latar belakang didapati bahwa metode klasifikasi dengan algoritma
QUEST dan algoritma CART mampu mengklasifikasi data yang berskala besar
dengan variabel kategorik yang banyak dan menghasilkan pohon yang bersifat
biner. Sedangkan algoritma CHAID dan CRUISE tidak mampu untuk
mengklasifikasi data yang berstruktur pohon biner, karena kedua algoritma
tersebut hanya bisa digunakan untuk klasifikasi data berstruktur pohon non-biner

Universitas Sumatera Utara

4

dan pada data berskala besar yang mempunyai variabel kategorik yang banyak.
Sehingga rumusan masalahnya dalam penelitian ini adalah sebagai berikut:
1. Bagaimana penerapan algoritma QUEST dan algoritma CART dalam
mengklasifikasi data pasien penyakit jantung dengan menggunakan faktorfaktor yang mempengaruhi pasien menderita penyakit jantung.
2. Bagaimana hasil perbandingan klasifikasi antara algoritma QUEST dan

algoritma CART pada data pasien penyakit jantung.


1.3 Batasan Masalah
Pada penelitian ini, dilakukan pembatasan masalah yaitu dalam mengklasifikasi
untuk menentukan faktor-faktor yang mempengaruhi pasien menderita penyakit
jantung di Rumah Sakit Umum Pusat H. Adam Malik digunakan variabel umur
pasien, jenis kelamin pasien, tekanan darah pasien, kolesterol darah pasien, gula
darah pasien saat puasa, hasil elektrokardiografi pasien, dan kondisi jantung.

1.4 Tujuan Penelitian
Tujuan penelitian yaitu memperoleh pengetahuan untuk menjawab pertanyaan dan
memecahkan masalah yang telah dipaparkan pada rumusan masalah diatas.
Adapun tujuan yang ingin dicapai pada penelitian ini adalah
1. Menerapkan algoritma QUEST dan algoritma CART dalam mengklasifikasi
data pasien penyakit jantung dengan menggunakan faktor-faktor yang
mempengaruhi pasien menderita penyakit jantung.
2. Membandingkan hasil klasifikasi antara algoritma QUEST dan algoritma
CART pada data pasien penyakit jantung.

1.5 Manfaat Penelitian
Manfaat dari penelitian ini adalah

a. Bagi Peneliti
Menambah wawasan dan memperkaya pengetahuan dalam bidang statistika
yang berhubungan dengan pengelompokan data dengan banyak variabel

Universitas Sumatera Utara

5

menggunakan metode klasifikasi berstruktur pohon, khususnya algoritma
QUEST dan algoritma CART.
b. Bagi Departemen/ Universitas
Agar dapat dijadikan sebagai bahan studi kasus bagi pembaca dan dapat
memberikan referensi, khususnya kepada mahasiswa sebagai bahan bacaan
yang dapat menambah ilmu pengetahuan.
c. Bagi Rumah Sakit
Sebagai masukan bagi pihak rumah sakit tentang cara pengolahan data
dengan menggunakan algoritma QUEST dan algoritma CART dalam
menentukan faktor-faktor apa yang mempengaruhi seorang pasien menderita
penyakit jantung.


1.6 Metodologi Penelitian
Penelitian ini berdasarkan studi literatur dan studi kasus yang bersumber dari
buku, jurnal dan skripsi. Adapun metodologi yang digunakan untuk menganalisis
masalah dalam penelitian ini adalah sebagai berikut :
1. Melakukan studi literatur yang berhubungan dengan metode klasifikasi
berstruktur pohon dengan algoritma QUEST dan CART dari internet berupa
jurnal dan dari buku.
2. Melakukan pengelompokan data dengan menggunakan � kategorik dan �
numerik.

3. Mengolah data input dengan menggunakan algoritma QUEST serta
memperoleh output berupa diagram pohon dan hasil analisisnya.
4. Mengolah data input dengan menggunakan algoritma CART serta
memperoleh output berupa diagram pohon dan hasil analisisnya.
5. Membandingkan algoritma QUEST dengan algoritma CART.
6. Mengambil kesimpulan dari analisis kedua metode tersebut.

Universitas Sumatera Utara

6


1.7 Kerangka Penelitian
Berikut ini adalah sketsa kerangka pemikiran yang akan dilakukan berdasarkan
uraian pada metodologi penelitian:

Klasifikasi pada Data Pasien Penyakit Jantung

Algoritma QUEST

X Kategorik

X Numerik

gunakan Uji � 2

gunakan Uji
ANOVA F

Algoritma CART


X Kategorik

X Numerik

Kemudian masuk ke
langkah-langkah
Algoritma CART

Kemudian masuk ke
langkah-langkah
Algoritma QUEST

Hasil dari Algoritma QUEST

Hasil dari Algoritma CART

Bandingkan Hasil kedua algoritma

Analisis dan Kesimpulan

Universitas Sumatera Utara