Metode Klasifikasi Bersturuktur Pohon dengan Algoritma QUEST dan Algoritma CART (Aplikasi pada Data Pasien Penyakit Jantung)

BAB 2
TINJAUAN PUSTAKA

Pada bab ini akan diuraikan konsep-konsep dasar yang berhubungan dengan
algoritma QUEST dan algoritma CART yaitu: skala pengukuran data, metode
klasifikasi berstruktur pohon, konsep-konsep dasar pada algoritma QUEST dan
algoritma CART, uji Chi-kuadrat, uji ANOVA F, uji Levene F, analisis
diskriminan kuadratik, algoritma QUEST dan algoritma CART.

2.1 Skala Pengukuran Data
Skala pengukuran adalah penempatan angka atau lambang untuk menyatakan
suatu hasil pengamatan/pengukuran terhadap objek. Secara umum terdapat 4 skala
pengukuran dalam penelitian, yaitu:
1. Skala Nominal
Skala nominal adalah skala pengukuran data yang digunakan untuk
mengklasifikasi objek-objek dalam kategori (kelompok) yang terpisah untuk
menunjukkan kesamaan atau perbedaan ciri-ciri tertentu dari objek yang
diamati. Kategori (kelompok) yang ada sudah didefinisikan sebelumnya dan
dilambangkan dengan kata-kata, huruf symbol atau angka. Contoh skala
nominal adalah agama, jenis kelamin, suku bangsa, golongan darah,
pekerjaan, area geografis dan sebagainya.

2. Skala Ordinal
Skala ordinal memiliki semua karakteristik skala nominal, kecuali bahwa pada
skala ini terdapat urutan atau peringkat antarkategori. Angka yang digunakan
untuk melambangkan kategori tidak memiliki nilai absolute, hanya
menunjukkan posisi sebuah kategori relative terhadap kategori lainnya.
Contoh skala ordinal adalah tingkat pendidikan, peringkat ranking,
perhitungan suara dalam pemilu dan status sosial.

Universitas Sumatera Utara

8

3. Skala Interval
Skala interval memiliki semua karakteristik skala ordinal. Perbedaanya
dengan skala ordinal adalah bahwa skala ini mempunyai satuan skala. Antar
angka kategori memilikim jarak yang sama. Skala ini tidak mempunyai titik
nol yang sesungguhnya, yang artinya titik nol merupakan sesuatu yang
bermakna ada dengan nilai nol. Contoh skala interval adalah suhu (C).
4. Skala Rasio
Skala rasio sama dengan skala interval, tetapi skala rasio mempunyai titik nol

yang sesunguhnya, yang artinya titik nol merupakan nilai yang bermakna
tidak ada. Contoh skala rasio adalah berat badan, panjang, usia, lama waktu
dan sebagainya.
Data dengan skala nominal dan ordinal seringkali disebut sebagai data
kategorik sedangkan data dengan skala interval dan rasio biasa disebut data
numerik.

2.2 Metode Klasifikasi Berstruktur Pohon
Dalam statistika, terdapat berbagai metode yang dapat digunakan dalam menarik
kesimpulan mengenai hubungan antara suatu peubah respon dengan beberapa
peubah bebas. Jika peubah respon berupa data kuantitatif maka analisa mengenai
hubungan peubah bebas dan respon biasanya dilakukan melalui analisis regresi
biasa. Namun, bila peubah respon merupakan data kualitatif maka analisa
mengenai hubungan peubah bebas dan respon salah satunya dapat dilakukan
melalui teknik klasifikasi.
Metode klasifikasi berstruktur pohon merupakan metode statistika yang
digunakan untuk memperkirakan keanggotaan amatan atau objek dalam kelaskelas peubah respon kategorik, yang keanggotaannya diduga berdasarkan
pengukuran terhadap satu peubah bebas atau lebih. Metode ini menghasilkan
sebuah pohon klasifikasi (classification tree) yang dibentuk melalui penyekatan
data secara rekursif (berulang) terhadap suatu himpunan data, di mana

pengelompokan dan nilai-nilai peubah bebas setiap amatan pada contoh sudah

Universitas Sumatera Utara

9

diketahui. Setiap himpunan data dinyatakan sebagai simpul dalam pohon yang
terbentuk.
Pohon klasifikasi dapat disajikan dalam gambar berikut:

Gambar 2.1 Pohon Klasifikasi

Dalam pohon klasifikasi seperti pada Gambar 2.1, himpunan data dari awal
, dilakukan

disebut simpul induk, dinotasikan sebagai

. Pada simpul

penyekatan sehingga terbentuk simpul


. Penyekatan dilakukan secara

dan

berulang sampai diperoleh sebuah simpul yang tidak dapat disekat lagi, yang
disebut dengan simpul akhir. Simpul yang tidak termasuk pada simpul induk dan
simpul akhir disebut simpul dalam. Dapat dilihat bahwa
dalam sedangkan

,

,

dan

,

adalah simpul


adalah simpul akhir. Pada simpul akhir ini

dilakukan pendugaan respon.
Penyekatan terhadap sebuah simpul dilakukan berdasarkan nilai suatu
peubah bebas (titik penyekat). Peubah bebas yang digunakan untuk menyekat
sebuah simpul dinamakan sebagai peubah penyekat. Peubah penyekat dapat
berupa peubah kategorik maupun peubah kontinu. Pada Gambar 2.1 terlihat
bahwa simpul

disekat berdasarkan peubah

menjadi simpul

bila

<

dan

Universitas Sumatera Utara


10

simpul

bila

simpul

bila

> . Simpul

disekat lagi berdasarkan peubah

∈ { } dan simpul

berdasarkan peubah

bila


menjadi simpul

bila

∈ { , }. Simpul
<

dan simpul

menjadi
disekat lagi
bila

> .

Dalam menyekat suatu simpul, setiap peubah bebas memiliki kesempatan untuk

terpilih sebagai peubah penyekat, meskipun peubah tersebut telah terpilih
sebelumnya sebagai peubah penyekat simpul lain.

Proses penyekatan terhadap simpul dilakukan secara berulang sampai
ditemukan salah satu dari tiga hal berikut:
1. Respon di semua simpul sudah homogen nilainya.
2. Tidak ada lagi peubah bebas yang bisa digunakan.
3. Jumlah objek di dalam simpul sudah terlalu sedikit untuk menghasilkan
pemisahan yang memuaskan.
Proses penyekatan terhadap suatu simpul dapat bersifat biner atau non
biner. Penyekatan biner, setiap simpul hanya boleh disekat menjadi dua simpul
baru, sedangkan penyekatan non biner setiap simpul dapat menghasilkan lebih
dari dua simpul baru. Gambar 2.1 merupakan pohon klasifikasi dengan
penyekatan biner.

2.3

Konsep-Konsep Dasar pada Algoritma QUEST dan Algoritma CART

Konsep-konsep statistika yang menjadi dasar pada algoritma QUEST dan
algoritma CART yaitu uji khi-kuadrat, uji ANOVA F, uji Levene, dan analisis
diskriminan kuadtratik.


2.3.1 Uji Khi-kuadrat (� )
Uji khi-kuadrat (� ) pada dasarnya menyangkut pembuatan tabulasi silang yang
digunakan untuk mengetahui hubungan antara dua variabel kategorik. Hubungan
yang didapatkan tersebut digunakan untuk mengontrol susunan dari pohon
klasifikasi.
Pengklasifikasian silang dari data dengan peubah kategorik biasanya
disajikan dalam table kontingensi dua arah atau lebih. Bila terdapat dua peubah

Universitas Sumatera Utara

11

kategorik, data disajikan dalam tabel kontingensi dua arah seperti pada table
berikut.
Tabel 2.1 Kontingensi Dua Arah
Kategori

Kategori peubah kedua

peubah

pertama

1

2



1

C





Jumlah


2










R











Jumlah



�.

n

Tabel disusun dari r baris dan c kolom masing- masing adalah banyaknya
kategori dari peubah kategorik pertama dan kedua. Isi sel pada baris-i
, , ,...,

= , , ,...,

dan kolom ke-j

=

adalah banyaknya pengamatan

yang berasal dari kategori-i peubah pertama dan kategori-j peubah kedua, biasa
dinotasikan dengan � . Isi sel ini disebut juga frekuensisel teramati yang biasa
ditulis dengan notasi

, sehingga

Hipotesis awal

=� .

yang digunakan dalam uji ini adalah bahwa kedua

peubah saling bebas. Hipotesis alternatif

pada uji ini adalah bahwa kedua

peubah tidak saling bebas. Uji khi-kuadrat ini dilakukan dengan membandingkan
frekuensi teramati dengan frekuensi yang diharapkan jika

benar.

Hipotesis pada pengujian khi-kuadrat adalah:
: Kedua variabel saling bebas
: Kedua variabel tidak saling bebas
Sedangkan statistik ujinya adalah:

� =∑= ∑
dengan

=

−�



dengan

=

��


(2.1)

menyatakan nilai harapan pengamatan pada baris ke- dan kolom ke- ,

� menyatakan total banyaknya pengamatan pada baris ke- , � menyatakan total
Universitas Sumatera Utara

12

banyaknya pengamatan pada baris ke- , dan � menyatakan total banyaknya

responden.

Keputusan yang diambil dari uji khi-kuadrat ini adalah
��

��

> ��



atau � −

ditolak jika nilai

< �.

2.3.2 Uji ANOVA F
Uji ANOVA F biasa digunakan untuk membandingkan nilai tengah dari dua atau
lebih kelompok contoh yang saling bebas. Ukuran contoh antara masing-masing
kelompok contoh tidak harus sama, tetapi perbedaan yang besar dalam ukuran
contoh dapat mempengaruhi hasil uji perbandingan nilai tengah.
Bila �

adalah rata-rata dari kelompok ke-k (k = 1, 2, …, K), maka

hipotesis yang digunakan adalah:
:� =� =

= � (tidak ada perbedaan rata-rata antarkelompok)

: Minimal ada satu � yang berbeda

Uji yang digunakan adalah uji F yang diperoleh dengan membentuk tabel

ANOVA F seperti tabel di bawah ini:

Tabel 2.2 Uji ANOVA F
Sumber
Keragaman
Nilai tengah
kolom

Jumlah

Derajat Bebas

JKK

K-1

Galat

JKG

N-K

Total

JKT

N-1

Kuadrat
Tengah
=

=





F Hitung

=

dengan:
= ∑

= ∑

�.
= �

=



∑�=

= , ,...,� ,

�..

(2.2)


�..

− ∑

= , ,…, .

�.
= �



�..

(2.3)

: jumlah seluruh data

Universitas Sumatera Utara

13

: jumlah kelompok

..

: ukuran contoh kelompok ke.

: jumlah pengamatan kelompok ke-k
: jumlah pengamatan data
: pengamatan ke-i dari kelompok ke-k

dalam pengambilan keputusan,

ditolak pada taraf nyata � jika nilai statistik uji

F hasil perhitungan lebih besar daripada nilai

�, − , −

.

2.3.3 Uji Levene F
Uji Levene F digunakan untuk menguji kesamaan ragam variabel dari beberapa
kelompok. Bila � adalah simpangan baku populasi dari kelompok ke-k, maka
hipotesis yang digunakan adalah:
∶ � =� =

= � , (data homogen)

: Minimal ada satu � yang heterogen
2.3.4 Analisis Diskriminan Kuadratik

Analisis diskriminan bertujuan untuk membentuk fungsi diskriminan yang mampu
membedakan kelompok. Analisis ini dilakukan berdasarkan suatu perhitungan
statistik terhadap objek-objek yang telah diketahui denagn jelas dan mantap
pengelompokannya.
Fungsi diskriminan yang dibangun dengan asumsi bahwa kelompokkelompok memiliki matriks ragam peragam yang sama disebut fungsi diskriminan
linear, sedangkan fungsi yang dibangun tanpa asumsi tersebut disebut fungsi
diskriminan kuadratik.
Misalkan
tabel berikut ini:

=

,

,…,



, maka dapat disajikan struktur data seperti

Universitas Sumatera Utara

14

Tabel 2.3 Struktur Data Analisis Diskriminan Kuadratik
Kelompok

Peubah

1

2

�̅



...

�̅

...

K
�̅



�̅

�̅

...

�̅

��

�̅�

�̅�

...

�̅�

Bila

adalah fungsi kepekatan peluang bersama dari contoh acak

yang berasal dari kelompok ke-k ( = , , … , ). Jika contoh acak pada
kelompok tersebut menyebar menurut sebaran normal multivariat, maka
=

dengan:





|∑ |

[−

∑−

−�

−� ]

(2.5)

� adalah vektor nilai tengah dari kelompok ke-k


adalah matriks ragam peragam kelompok ke-k

� adalah banyaknya peubah.

Skor diskriminan kuadratik untuk sebuah pengamatan dengan nilai

,

,…,



terhadap kelompok ke-k dan �

=

menyatakan peluang awal dari

kelompok ke-k:

=

�|∑ | −

−�

∑−

+ ��

−�

(2.6)

dengan:
� adalah peluang awal dari kelompok ke-k ( = , , … , ).
Bila individu yang berasal dari kelompok k dinyatakan sebagai kelompok , maka
peluangnya dinotasikan menjadi �

Kelompokkan

ke-k jika

Skor kuadratik

| .

= max {

,

,…,

}

(2.7)

Universitas Sumatera Utara

15

Apabila � dan ∑

tidak diketahui, maka harus dicari taksiran dari � dan ∑

dengan memanfaatkan data sampel yang telah dikelompokkan dengan benar.
Taksiran dari skor diskriminan kuadratik menjadi:
̂

=−

�| | −

Kelompokkan

− ̅



− ̅

+ ��

(2.8)

ke-k jika

Skor kuadratik ̂

= max { ̂

, ̂

,…, ̂

}

(2.9)

2.4 Metode QUEST
QUEST (Quick, Unbiased, Efficient Statistical Trees) merupakan salah satu
metode yang digunakan untuk membentuk pohon klasifikasi. QUEST merupakan
algoritma pemisah yang menghasilkan pohon biner yang digunakan untuk
klasifikasi. Algoritma pembentukan pohon klasifikasi ini merupakan modifikasi
dari analisis diskriminan kuadratik.
Pada algoritma ini, proses penyekatan dapat dilakukan pada peubah
tunggal (univariate). Pemilihan peubah penyekatan pada QUEST menerapkan uji
kebebasan chi-kuadrat untuk peubah kategorik dan uji F untuk peubah numerik.
Suatu peubah dipilih sebagai peubah penyekat jika menghasilkan kelompok
dengan tingkat kehomogenan peubah respon yang paling besar. Penentuan titik
penyekat pada pohon klasifikasi ini dilakukan dengan menerapkan analisis
diskriminan kuadratik. Pemilihan peubah dan penentuan titik penyekat dilakukan
secara terpisah. Komponen dasar QUEST adalah beberapa peubah bebas yang
merupakan peubah kategorik atau numerik dan peubah respon yang merupakan
peubah kategorik.

2.4.1 Algoritma QUEST
Pembentukan pohon pada algoritma QUEST dipisah menjadi tiga bagian, yaitu
algoritma pemilihan peubah penyekat, algoritma penentuan titik penyekat dan
algoritma transformasi peubah kategorik menjadi peubah numerik. Dalam
menentukan peubah penyekat pada suatu simpul setiap peubah memiliki

Universitas Sumatera Utara

16

kesempatan untuk terpilih sebagai peubah penyekat, meskipun peubah tersebut
telah dipilih sebagai peubah penyekat untuk simpul sebelumnya.

1. Algoritma Pemilihan Peubah Penyekat
Dalam Menentukan peubah penyekat pada suatu simpul setiap peubah memiliki
kesempatan untuk terpilih sebagai peubah penyekat, meskipun peubah tersebut
telah terpilih sebagai peubah penyekat untuk simpul sebelumnya. Langkahlangkah pemilihan peubah penyekatan:
1. Untuk setiap peubah X
 Jika X merupakan peubah kategorik, lakukan uji �

untuk kebebasan

antara peubah X dan peubah respon Y dan hitung nilai p dari pengujian
tersebut.

 Jika X merupakan peubah numerik, lakukan uji ANOVA F dan hitung
nilai p dari pengujian tersebut.
2. Pilih peubah dengan nilai p terkecil.
3. Bandingkan nilai p terkecil dengan taraf �/
,

dan

adalah banyaknya peubah bebas.

 Jika nilai p kurang dari �/

, dengan pilih taraf nyata � =

, maka pilih peubah yang bersesuaian sebagai

peubah penyekat. Teruskan ke langkah (5).

 Jika nilai p lebih dari �/

, teruskan ke langkah (4).

4. Untuk setiap peubah X yang numerik, maka hitung nilai p dari uji Leneve
untuk menguji kehomogenan ragam.
 Pilih peubah dengan nilai p terkecil.
 Bandingkan nilai p terkecil dari uji Leneve dengan taraf �/
dengan

adalah banyaknya peubah bebas numerik.

+

,

 Jika nilai p kurang dari �/

+

, maka pilih peubah yang bersesuaian

 Jika nilai p lebih dari �/

+

, maka peubah tersebut tidak dipilih

sebagai peubah penyekat. Teruskan ke langkah (5).

menjadi peubah penyekat.

5. Misalkan � ∗ adalah peubah penyekat yang diperoleh dari langkah (3) dan (4).
 Jika � ∗ merupakan peubah numerik, maka teruskan ke langkah (6).

Universitas Sumatera Utara

17

 Jika � ∗ merupakan peubah kategorik, � ∗ ditransformasikan ke dalam
peubah dummy, lalu proyeksikan ke dalam koordinat diskiriminan
terbesarnya.
6. Lakukan analisis diskriminan kuadratik untuk menentukan titik penyekat.

2. Algoritma Penentuan Titik Penyekat
Misalkan peubah respon memiliki dua kategori. Misalkan pula bahwa � ∗

merupakan peubah yang terpilih untuk menyekat simpul t. Langkah-langkah
penentuan titik penyekat:
adalah nilai tengah dan ragam � ∗ dari pengamatan

1. Definisikan ̅ dan

dengan respon 0, sedangkan ̅ dan

pengamatan respon 1. Misalkan

=

adalah nilai tengah dan ragam � ∗ dari
|

=

,

/

dari masing-masing kategori peubah respon, dengan
pada simpul t untuk respon k dan

merupakan peluang

,

adalah jumlah data

adalah jumlah data pada simpul awal

untuk respon k.
2. Tentukan solusi dari persamaan


|



�−�̅

|

=





�−�̅

(2.10)

solusi tersebut dapat ditentukan dengan menentukan akar persamaan kuadrat
+

+ = , dengan:
+

=
=
=

̅
̅

(2.11)
− ̅


(2.12)

̅

+

�{

( | )

( | )

}

(2.13)

3. Simpul disekat pada titik � ∗ = , di mana d didefinisikan sebagai berikut:
 Jika ̅ ≥ ̅ , maka
 Jika

= , maka

= ̅

Universitas Sumatera Utara

18

={

�̅ −�̅



̅ − ̅



ln {

̅ , ̅ = ̅

( | )

( | )

}, ̅ ≠ ̅

(2.14)

 Jika a≠ , maka


 Jika

< , maka



 Jika

=

̅ +_ ̅

≥ , maka d adalah akar dari

mendekati nilai
kosong.

− ±√



yang lebih

̅ , dengan syarat menghasilkan dua simpul tak-

3. Algorima Transformasi Peubah Kategorik Menjadi Peubah Numerik
Misalkan � adalah peubah kategorik, dengan kategori

,

,…,

. Transformasi

� menjadi peubah numerik � untuk tiap kelas � dilakukan dengan langkahlangkah sebagai berikut:
1.

2.

Transformasikan masing-masing nilai x ke vektor dummy L dimensi
�=

,

,…,



, dengan

Cari nilai tengah untuk X

̅


̅=


∑= ��

=

∑= ��
��,

={

=


, = , ,…,
(2.15)

��

(2.16)

dengan :
̅

̅

: rata-rata untuk semua pengamatan pada simpul t
: rata-rata untuk semua pengamatan pada simpul t untuk
kelompok ke-k
: jumlah pengamatan pada simpul t untuk



: jumlah pengamatan pada simpul t kelompok ke-k untuk
: jumlah pengamatan pada simpul t
,

: jumlah pengamatan pada simpul t untuk kelompok ke-k

Universitas Sumatera Utara

19

3. Tentukan matriks x berikut:
̅=


̅


=

∑= ��
��

∑= ��
��,

�=∑

=



,�

̅


̅
−�

̅ �
̅
−�

̅ � −�
̅
�=∑= � � −�



(2.17)



(2.18)

4. Lakukan SDV dari T=QDQ’,
dengan :

Q adalah matriks orthogonal yang kolomnya merupakan vektor eigen dari
�′�

D = diag(

,…,

5. Tentukan �− =

) dengan


,…,






, dengan





≥ .



={

��

.

>

6. Lakukan SVD dari �− �′ ���− , tentukan vektor eigen � yang merupakan
vektor eigen yang berpadanan dengan nilai eigen terbesar.

7. Tentukan koordinat diskriminan terbesar dari �, yaitu:
� = �′�− �′�

(2.19)

2.5 Metode CART
CART merupakan metodologi statistik nonparametrik yang dikembangkan untuk
topik analisis klasifikasi, baik untuk variabel respon kategorik maupun kontinu.
CART menghasilkan suatu pohon klasifikasi jika variabel responnya kategorik,
dan menghasilkan pohon regresi jika variabel responnya kontinu.
Tujuan utama CART adalah untuk mendapatkan suatu kelompok data
yang akurat sebagai penciri dari suatu pengklasifikasian. Metode ini merupakan
metode yang bisa diterapkan untuk himpinan data yang mempunyai jumlah yang

Universitas Sumatera Utara

20

besar, variabel yang sangat banyak dan dengan skala variabel campuran melalui
prosedur pemilihan biner.

2.5.1 Algoritma CART
Menurut Susanto dan Suryadi (2010), pada klasifikasi algoritma CART
(Classification and Regresion Trees), sebuah record akan diklasifikasikan ke
dalam salah satu dari sekian klasifikasi yang tersedia pada variabel tujuan
berdasarkan nilai-nilai variabel prediktornya.
Langkah-langkah Algoritma CART:
Susunlah calon cabang (candidate split) yang dilakukan terhadap seluruh

1.

variabel prediktor. Daftar yang berisi calon cabang disebut calon cabang
mutakhir.
2.

Berikan penilaian keseluruhan calon cabang mutakhir dengan menghitung

3.

besaran Φ | .

Tentukan cabang yang memiliki kesesuaian Φ | . Setelah noktah

keputusan tidak ada lagi, algoritma CART dihentikan.
Kesesuaian (goodness) Φ |

dari calon cabang

pada noktah keputusan

, didefinisikan sebagai persamaan-persaman berikut:
Φ |
|

=

=∑

dengan:

=

|

|

|

(2.20)


|

|

(2.21)

JK : jumlah kategori
: cabang kiri dari noktah keputusan
: cabang kanan dari noktah keputusan

|
|

=

=

=

=

L

(2.22)
L

(2.23)
R
R

(2.24)
(2.25)

Universitas Sumatera Utara