Penerapan Pohon Klasifikasi Dan Bootstrap Aggregating Dalam Klasifikasi Usia Menarche (Studi Kasus: Smpn Ragunan Dan Smpn 1 Dramaga).

PENERAPAN POHON KLASIFIKASI DAN BOOTSTRAP
AGGREGATING DALAM KLASIFIKASI USIA MENARCHE
(Studi Kasus: SMPN Ragunan dan SMPN 1 Dramaga)

IIS ISTIQOMAH

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015

PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Penerapan Pohon
Klasifikasi dan Bootstrap Aggregating dalam Klasifikasi Usia Menarche (Studi
Kasus: SMPN Ragunan dan SMPN 1 Dramaga) benar karya saya dengan arahan
dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada
perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya
yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam
teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Juni 2015
Iis Istiqomah
NIM G14110032

ABSTRAK
IIS ISTIQOMAH. Penerapan Pohon Klasifikasi dan Bootstrap Aggregating dalam
Klasifikasi Usia Menarche (Studi Kasus: SMPN Ragunan dan SMPN 1
Dramaga). Dibimbing oleh ANIK DJURAIDAH dan AGUS MOHAMAD
SOLEH.
Menarche adalah menstruasi pertama bagi remaja putri. Menarche cepat
merupakan salah satu penyebab wanita terkena kanker payudara sedangkan
menarche terlambat merupakan salah satu penyebab osteoporosis. Penelitian ini
bertujuan menentukan faktor-faktor yang memengaruhi usia menarche remaja
putri di SMPN Ragunan dan SMPN 1 Dramaga. Peubah respons yang digunakan
yaitu kategori usia menarche (cepat, ideal, dan lambat). Metode analisis yang
digunakan adalah Classification and Regression Trees (CART) dan bootsrap
aggregating (bagging). CART menghasilkan pohon klasifikasi tunggal sedangkan
bagging menghasilkan pohon agregat untuk meningkatkan akurasi pendugaan

pohon klasifikasi tunggal. Peubah-peubah penting yang memengaruhi usia
menarche pada pohon klasifikasi tunggal secara berurutan adalah jenis sekolah,
asupan protein, asupan kalsium, dan asupan lemak. Sementara itu, pada pohon
agregat urutannya adalah jenis sekolah, asupan kalsium, asupan protein, dan
asupan lemak. Pohon agregat dengan berbagai versi replikasi memberikan
ketepatan klasifikasi yang lebih baik dibandingkan pohon klasifikasi tunggal.
Selain itu, hasil validasi silang lipat 5 menunjukkan bahwa ketepatan klasifikasi
pohon agregat dengan 100 replikasi lebih baik dibandingkan dengan pohon
klasifikasi tunggal. Pada penelitian ini, bagging mampu meningkatkan ketepatan
klasifikasi pohon tunggal dari 60.00% menjadi 62.50%.
Kata kunci: bootstrap aggregating (bagging), Classification and Regression Trees
(CART), menarche, validasi silang

ABSTRACT
IIS ISTIQOMAH. Application of Classification Trees and Bootstrap Aggregating
in Menarche Age Classification (Case Study: Ragunan Junior High School and
Dramaga 1 Junior High School). Supervised by ANIK DJURAIDAH and AGUS
MOHAMAD SOLEH.
Menarche is the first menstruation for girls. Early menarche is one of the
causes of breast cancer. Meanwhile, late menarche is one of the causes of

osteoporosis. This research aims to determine the factors that affect menarche age
at Ragunan Junior High School and Dramaga 1 Junior High School. The response
variable is the category of menarche age (early, ideal, and late). The analytical
methods are Classification and Regression Trees (CART) and bootstrap
aggregating (bagging). CART generates a single classification tree while bagging
generates an aggregat classification tree to improve prediction accuracy of a single
tree. The important variables affecting menarche age on single classification tree
consecutively are type of school, protein consumption, calcium consumption, and
fat consumption. While on the aggregat tree, consecutively, the important
variables are type of school, calcium consumption, protein consumption, and fat
consumption. The aggregat tree with different versions of replication give better
classification accuracy than single classification tree. In addition, cross validation
5 fold of bagging with 100 replication shows the classification accuracy of
bagging is better than single classification tree. In this research, bagging can
improve classification accuracy of the single tree from 60.00% to 62.50%.
Keywords: bootstrap aggregating (bagging), Classification and Regression Trees
(CART), cross validation, menarche

PENERAPAN POHON KLASIFIKASI DAN BOOTSTRAP
AGGREGATING DALAM KLASIFIKASI USIA MENARCHE

(Studi Kasus: SMPN Ragunan dan SMPN 1 Dramaga)

IIS ISTIQOMAH

Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Statistika pada
Departemen Statistika

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015

Judul Skripsi: Penerapan Pohon Klasiikasi dn Bootstrap Aggregating dalam
Klasiikasi Usia Menarche (Studi Kasus: SPN Ragunan dan
SPN 1 Dramaga)
Nama


: lis Istiqomah

NM

: G14110032

Disetujui oleh

Dr Ir Anik Djuraidah. MS

A

Pembimbing I

I

Tanggal Lulus:

0 3 JUN 2015


PRAKATA
Puji syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala
limpahan rahmat dan karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan.
Judul karya ilmiah yang dipilih ialah “Penerapan Pohon Klasifikasi dan Bootstrap
Aggregating (Bagging) dalam Klasifikasi Usia Menarche (Studi Kasus: SMPN
Ragunan dan SMPN 1 Dramaga).
Penulis mengucapkan terima kasih kepada semua pihak yang berperan
dalam membantu penyusunan karya ilmiah ini, antara lain:
1. Ibu Dr Ir Anik Djuraidah, MS dan Bapak Agus Mohamad Soleh, SSi MT
selaku dosen pembimbing,
2. Ibu Dian Kusumaningrum, MSi selaku penguji luar,
3. Ayah, ibu, serta seluruh keluarga atas segala doa dan kasih sayangnya,
4. Sry Novi Yanti Sofya yang telah mengizinkan saya menggunakan data
penelitiannya, dan
5. Rekan-rekan Statistika Institut Pertanian Bogor angkatan 48 atas
kebersamaan dan dukungannya selama ini.
Penulis menyadari masih terdapat kekurangan dalam penyusunan karya
ilmiah ini sehingga penulis mengharapkan saran dan kritik yang bersifat
membangun dari pembaca untuk kesempurnaan karya ilmiah. Semoga karya
ilmiah ini bisa bermanfaat bagi kita semua.


Bogor, Juni 2015
Iis Istiqomah

DAFTAR ISI
DAFTAR TABEL

vi

DAFTAR GAMBAR

vi

DAFTAR LAMPIRAN

vi

PENDAHULUAN

vi


Latar Belakang

1

Tujuan Penelitian

2

METODOLOGI

2

Sumber Data

2

Prosedur Analisis Data

3


HASIL DAN PEMBAHASAN

5

Deskripsi Data

5

Pohon Klasifikasi

6

Pembentukan Pohon Klasifikasi Optimum

6

Faktor-faktor yang Memengaruhi Usia Menarche

8


Pengaruh Batas Kategori Usia Menarche terhadap Ketepatan Klasifikasi

9

Bootstrap Aggregating (Bagging)

10

SIMPULAN

11

DAFTAR PUSTAKA

11

DAFTAR LAMPIRAN

12


RIWAYAT HIDUP

14

DAFTAR TABEL
1
2
3
4
5

Peubah penjelas dalam penelitian
Hubungan antara banyaknya simpul terminal dan nilai relatif
Persentase ketepatan klasifikasi data
Persentase ketepatan klasifikasi pengkategorian baru
Nilai relatif dan ketepatan klasifikasi pada setiap replikasi bagging

2
7
7
9
10

DAFTAR GAMBAR
1
2
3
4

Sebaran frekuensi usia menarche
Sebaran frekuensi peubah penjelas pada setiap kategori
Pohon klasifikasi optimum
Diagram kotak-garis skor kepentingan peubah penjelas pada pohon
agregat 100 replikasi

5
6
8
10

DAFTAR LAMPIRAN
1 Pohon klasifikasi maksimal CART
2 Skor kepentingan peubah penjelas pada pohon klasifikasi tunggal CART
3 Aturan pengklasifikasian (rules) pohon agregat bagging dengan 100
replikasi pada pohon ke-1, 2, 3, 98, 99, dan 100

12
12
13

PENDAHULUAN
Latar Belakang
Masa remaja merupakan masa transisi menuju dewasa yang terjadi pada usia
9 sampai 18 tahun. Sebelum memasuki masa remaja, seseorang akan mengalami
periode pubertas terlebih dahulu. Tarwoto et al. (2010) dalam Safitri et al. (2014)
menyatakan bahwa pada periode pubertas ini, seseorang mengalami percepatan
pertumbuhan dan perkembangan fisik serta kematangan organ reproduksi seksual.
Pada wanita, masa pubertas ditandai oleh pertumbuhan fisik yang cepat, menarche,
perubahan psikologis, dan timbulnya ciri-ciri kelamin sekunder. Menarche adalah
suatu periode menstruasi pertama bagi remaja putri. Menarche dianggap sebagai
peristiwa yang penting karena menjadi puncak dari serangkaian perubahan remaja
putri pada masa pubertas.
Tingkat usia menarche di Indonesia sangat bervariasi antara 10-16 tahun
dengan rata-rata 12 tahun. Saat ini usia rata-rata menarche di Indonesia lebih
cepat 0.145 tahun tiap dekade dan menempati urutan ke-15 dari 67 negara dengan
usia menarche cepat (Hendrawati & Glinka 2003). Bagga dan Kulkarni (2000)
membagi usia menarche menjadi tiga kategori yaitu kategori cepat (9-11 tahun),
ideal (12-13 tahun), dan lambat (≥ 14 tahun). Rosenthal (2009) dalam Safitri et al.
(2014) mengemukakan bahwa menarche yang terlalu cepat merupakan faktor
risiko wanita terkena kanker payudara, obesitas abdominal, resistensi insulin,
risiko penyakit kardiovaskular, dan hipertensi sedangkan menarche yang
terlambat merupakan salah satu penyebab osteoporosis. Oleh karena itu, menarche
ideal merupakan hal yang penting untuk diperhatikan.
Cepat dan lambatnya usia menarche dipengaruhi oleh berbagai faktor.
Aktivitas fisik yang berat dan teratur seperti renang, sepeda, dan lari maraton oleh
remaja putri akan menunda usia menarche. Rosenthal (2009) dalam Safitri et al.
(2014) menyatakan bahwa para atlet putri dengan olahraga yang terlalu berat
dapat mengalami amennorhea yaitu kondisi ketika wanita tidak akan mengalami
menstruasi sama sekali. Selain itu, konsumsi makanan beragam dan bergizi
seimbang juga memengaruhi terjadinya menarche. Asupan lemak, protein (hewani
dan nabati), serat, dan kalsium berperan penting sebagai penentu usia menarche
remaja putri (Susanti 2012).
Berdasarkan latar belakang tersebut, penelitian ini dilakukan untuk
mengetahui faktor-faktor yang memengaruhi usia menarche. Peubah respons yang
digunakan adalah kategori usia menarche yaitu kategori cepat, ideal, dan lambat
dengan empat peubah penjelas yaitu jenis sekolah, asupan lemak, asupan protein,
dan asupan kalsium. Jenis sekolah dibedakan berdasarkan aktivitas fisiknya
menjadi sekolah atlet dan sekolah umum. Analisis yang dapat digunakan yaitu
pohon klasifikasi dengan algoritme Classification and Regression Trees (CART)
dan bootstrap aggregating (bagging). CART akan menghasilkan pohon
klasifikasi tunggal sedangkan bagging akan menghasilkan pohon agregat.

2
Tujuan Penelitian
Tujuan dari penelitian ini adalah:
1. Menentukan faktor-faktor yang memengaruhi usia menarche menggunakan
pohon klasifikasi dengan algoritme Classification and Regression Trees
(CART).
2. Menerapkan prosedur bootstrap aggregating (bagging) untuk membangun
pohon agregat.

METODOLOGI
Sumber Data
Data yang digunakan dalam penelitian ini adalah data primer hasil penelitian
Sofya (2015) tentang pengaruh aktivitas fisik terhadap usia menarche. Jenis
penelitian yang dilakukan yaitu penelitian survei analitik dengan rancangan cross
sectional, yaitu mengukur peubah respons dan peubah penjelas dalam satu titik
secara bersamaan pada bulan Desember 2014 di dua Sekolah Menengah Pertama
Negeri (SMPN), yaitu SMPN Ragunan dan SMPN 1 Dramaga. Metode penarikan
contoh yang digunakan yaitu purposive sampling dengan kriteria responden yaitu
siswi yang telah mengalami menstruasi, berusia 9-14 tahun, dan memiliki status
gizi normal.
Informasi usia menarche yang didapatkan adalah usia (tahun) pertama
responden mengalami menstruasi. Akan tetapi, pada penelitian ini dilakukan
pengkategorian usia menarche menjadi kategori cepat (9-11 tahun), ideal (12-13
tahun), dan lambat (≥14 tahun) karena hasil pengkategorian akan lebih informatif
daripada sebelum pengkategorian. Sementara itu, peubah penjelas yang digunakan
ada empat yaitu jenis sekolah � , asupan lemak � , asupan protein � , dan
asupan kalsium � . Informasi asupan lemak, protein, dan kalsium didapatkan
melalui pengisian kuesioner Food Recall 24-hours, yaitu pencatatan jenis dan
jumlah bahan makanan yang dikonsumsi pada periode 24 jam. Pencatatan tersebut
dilakukan selama dua hari, yaitu satu hari kerja dan satu hari libur. Kebiasaan
responden dalam mengkonsumsi makanan saat penelitian diasumsikan tidak
berbeda dengan sebelum menarche karena waktu pelaksanaan penelitian tidak
terlalu lama dengan saat responden mengalami menarche. Kategori setiap peubah
penjelas yang digunakan dapat dilihat pada Tabel 1.
Tabel 1 Peubah penjelas dalam penelitian
No.
1
2
3
4

Peubah penjelas
Jenis sekolah
Asupan lemak
Asupan protein
Asupan kalsium

1.
1.
1.
1.

Umum
Kurang
Kurang
Kurang

Kategori
2. Atlet
2. Cukup
2. Cukup
2. Cukup

3. Lebih
3. Lebih
3. Lebih

3
Prosedur Analisis Data
Tahapan-tahapan analisis yang dilakukan pada penelitian ini adalah:
1. Melakukan analisis statistika deskriptif terhadap data yang ada untuk
mengetahui gambaran umum responden.
i. Membuat diagram sebaran frekuensi usia menarche untuk mengetahui
gambaran umum usia menarche di SMPN Ragunan dan SMPN 1 Dramaga.
ii. Membuat diagram sebaran frekuensi peubah penjelas untuk mengetahui
gambaran umum karakteristik responden berdasarkan peubah penjelas yang
digunakan dalam penelitian.
2. Membangun pohon klasifikasi optimum dengan algoritme CART.
i. Membentuk pohon klasifikasi melalui tiga tahapan utama, yaitu pemilihan
penyekat (classifier), penentuan simpul terminal, dan penandaan label kelas.
Ketiga tahapan utama tersebut sebagai berikut (Breiman et al. 1993):
a. Aturan Penyekatan
Penyekatan yang dilakukan pada setiap simpul yaitu menentukan
semua kemungkinan penyekat
pada tiap peubah penjelas. Tiap penyekat
bergantung pada nilai yang berasal dari satu peubah penjelas �. Jika peubah
penjelas � bersifat kontinu, penyekatan yang mungkin yaitu � < �, dengan
� adalah nilai tengah antara dua nilai amatan peubah � secara berurutan.
Sehingga apabila � memiliki nilai
amatan yang berbeda, akan ada
penyekatan
sebanyak − . Jika peubah penjelas bersifat kategorik
dengan � kategori, akan ada sebanyak �− − kemungkinan penyekatan
untuk peubah penjelas kategorik nominal dan sebanyak � − kemungkinan
penyekatan untuk peubah kategorik ordinal.
Penyekatan simpul ditentukan dengan memilih penyekat yang
menghasilkan penurunan keheterogenan paling tinggi. Ukuran
keheterogenan ini diukur menggunakan nilai impuritas indeks Gini. Nilai
indeks Gini pada simpul ,
, dapat dituliskan sebagai berikut:
=

− ∑�

|

dengan � | adalah peluang unit pengamatan dalam kelas ke- dari simpul
. Kebaikan penyekat ( ) pada simpul didefinisikan sebagai penurunan
impuritas ∆ , yaitu:
∆ , =
− �� � − �
dengan �� adalah peluang pengamatan pada simpul kiri, � adalah nilai
impuritas simpul ke- kiri, � adalah peluang pengamatan pada simpul
adalah nilai impuritas simpul ke- kanan. Penyekat terbaik
kanan, dan
adalah penyekat yang memiliki nilai kebaikan penyekat terbesar, yaitu:
∆ ∗ , = ���∈ ∆ ,
dengan ∗ adalah penyekat terbaik. Sehingga simpul akan disekat menjadi
dua bagian yaitu simpul anak kanan dan simpul anak kiri. Proses
penyekatan dilakukan secara rekursif terhadap dua simpul anak sampai
memenuhi kriteria berhenti tertentu.

4
b. Pemilihan Simpul Akhir atau Simpul Terminal
Simpul terminal adalah simpul yang sudah tidak disekat lagi oleh
suatu peubah penjelas. Suatu simpul t akan menjadi simpul terminal apabila
simpul tersebut memenuhi salah satu kriteria berikut: tidak terdapat
penurunan keheterogenan yang berarti pada penyekatan simpul, hanya ada
satu pengamatan ( =
dalam tiap simpul anak atau adanya batasan
minimum pengamatan tertentu, dan adanya batasan jumlah level atau
tingkat kedalaman pohon maksimal. Batas minimum pengamatan pada
penelitian ini yaitu 1 amatan karena data yang digunakan kecil.
c. Penandaan Label Kelas
Label dari suatu simpul adalah kelas yang dapat memaksimumkan
� | , yaitu yang memenuhi � | = �� � | . Peluang prior yang
digunakan adalah prior equal, sehingga

� | =

adalah banyaknya amatan kelas j di simpul t sedangkan � adalah

banyaknya amatan kelas j.
ii. Melakukan pemangkasan terhadap pohon klasifikasi untuk membuang sub
pohon yang dianggap tidak berarti. Ukuran pemangkasan yang digunakan
adalah cost complexity minimum dengan fungsi sebagai berikut:
�� � = � � + �|�̃ |
�� � adalah nilai relatif resubstitution suatu sub pohon � , � � adalah
nilai kesalahan klasifikasi resubstitution pada sub pohon � , �|�̃|
menunjukkan ukuran kompleksitas oleh penambahan suatu simpul terminal
pada sub pohon �, dan |�̃| adalah himpunan simpul terminal pada sub pohon
�. Nilai relatif adalah nilai yang dikorbankan dari proses pemangkasan suatu
pohon menjadi sub pohon yang berukuran lebih kecil. Sub pohon � yang
memiliki nilai relatif paling kecil, yaitu �� � = min �� � dipilih
menjadi pohon optimum.
iii. Memilih pohon klasifikasi optimum, yaitu sub pohon hasil pemangkasan
yang memiliki nilai relatif validasi silang paling kecil. Nilai relatif ini
didapatkan dari penerapan prosedur validasi silang lipat V (cross validation
V-fold). Nilai V standar yang digunakan adalah 10 (cross validation 10-fold)
namun untuk data yang berukuran kecil bisa digunakan fold yang lebih
rendah (Timofeev 2004), sehingga pada penelitian ini digunakan validasi
silang lipat 5.
iv. Melakukan validasi model untuk mengetahui ketepatan pohon klasifikasi
dalam memprediksi data baru. Prosedur validasi model yang digunakan
yaitu validasi silang lipat 5. Validasi silang lipat 5 dibentuk dengan
membagi n amatan data learning secara acak menjadi 5 subset data
berukuran relatif sama. Sebanyak 4 subset data digunakan sebagai data
learning untuk membangun pohon klasifikasi. Satu subset sisanya
digunakan sebagai data testing. Proses ini dilakukan sebanyak 5 kali
menggunakan setiap subset data sehingga setiap subset data pernah satu kali
menjadi data testing. Hasil akhir validasi silang adalah ketepatan klasifikasi
rata-rata dari 5 kali pengulangan prosedur tersebut. Ketepatan klasifikasi ini
menunjukkan ketepatan prediksi pohon terhadap data baru.

5
3. Membangun pohon agregat menggunakan prosedur bootstrap aggregating
(bagging). Proses bagging dapat digunakan untuk mengurangi kesalahan
klasifikasi yang dihasilkan oleh pohon tunggal (Hastie et al. 2008). Selain itu,
Breiman (1996) menyatakan bahwa pada banyak gugus data yang dicoba,
bagging mampu mengurangi tingkat kesalahan klasifikasi. Tahapan-tahapan
dalam pembentukan pohon agregat prosedur bagging yaitu:
i. Menarik sampel berukuran dari gugus data learning tanpa pengembalian
(resampling bootstrap) kemudian dibangun pohon klasifikasi terbaik
berdasarkan data yang didapatkan.
ii. Lakukan langkah i sebanyak kali untuk mendapat buah pohon.
iii. Melakukan pendugaan gabungan berdasarkan
buah pohon tersebut
menggunakan majority vote.
iv. Mendapatkan ketepatan klasifikasi rata-rata dari
buah pohon yang
didapatkan pada langkah iv.
v. Nilai yang digunakan yaitu 10, 25, 50, 100, dan 125. Hal ini berdasarkan
pernyataan Sutton (2005) bahwa bagging umumnya menunjukkan hasil
yang baik dengan 100 pohon, namun disarankan untuk melakukan bagging
dari replikasi yang rendah. Jika saat replikasi rendah bagging kurang
bekerja dengan baik, bagging dilakukan dengan replikasi hingga 100 atau
bahkan lebih.
vi. Melakukan validasi model menggunakan prosedur validasi silang lipat 5
terhadap model pengklasifikasian bagging dengan replikasi yang
memberikan hasil paling baik. Prosedur validasi silang yang dilakukan sama
dengan validasi pohon tunggal CART pada poin 2. Hasil akhir yang
didapatkan adalah ketepatan klasifikasi pohon agregat dalam memprediksi
data baru.

HASIL DAN PEMBAHASAN
Deskripsi Data
Remaja putri yang menjadi responden dalam penelitian ini adalah 40 orang,
terdiri dari 16 siswi SMPN Ragunan dan 24 siswi SMPN 1 Dramaga. Gambar 1
menunjukkan sebaran usia menarche setiap remaja putri yang menjadi responden.
Berdasarkan pengkategorian yang digunakan, yaitu cepat (9-11 tahun), ideal (1213 tahun), dan lambat (≥ 14 tahun), terdapat 7 orang siswi yang mengalami
menarche cepat, 29 siswi menarche ideal, dan sisanya 4 siswi menarche lambat.

Gambar 1 Sebaran frekuensi usia menarche

6
Sebaran setiap peubah penjelas pada penelitian ini dapat dilihat di Gambar
2. Remaja putri yang mengalami menarche cepat didominasi oleh siswi SMPN 1
Dramaga dengan asupan lemak berlebih, asupan kalsium dan protein kurang
sedangkan remaja putri yang mengalami menarche lambat didominasi oleh siswi
SMPN Ragunan dengan asupan kalsium kurang, asupan lemak dan protein
berlebih. Remaja putri yang mengalami menarche ideal didominasi oleh siswi
yang berasal baik dari SMPN Ragunan maupun SMPN 1 Dramaga dengan asupan
lemak, kalsium, dan proteinnya kurang dan berlebih.
20
15
10
5
0
Kurang

Cukup
Lemak

Lebih

Kurang

Cukup

Lebih

Kurang

kalsium
Cepat

Cukup
Protein

Ideal

Lebih

Umum

Atlet

Sekolah

Lambat

Gambar 2 Sebaran frekuensi peubah penjelas pada setiap kategori

Pohon Klasifikasi
Pembentukan Pohon Klasifikasi Optimum
Metode CART dengan peubah respons kategorik akan menghasilkan pohon
keputusan berupa pohon klasifikasi. Pohon klasifikasi yang optimum adalah sub
pohon yang memiliki nilai relatif paling kecil diantara sub pohon lainnya. Adapun
yang dimaksud dengan nilai relatif adalah nilai yang dikorbankan dari proses
pemangkasan suatu pohon menjadi sub pohon yang berukuran lebih kecil. Nilai
relatif resubstitution didapatkan dari pengklasifikasian seluruh set data awal
sedangkan nilai relatif validasi silang didapatkan dari pengklasifikasian data
validasi menggunakan teknik validasi silang lipat 5.
Kriteria nilai relatif validasi silang mampu memberikan hasil yang lebih
optimal dibandingkan dengan kriteria nilai relatif resubstitution. Hal ini
dikarenakan nilai relatif resubstitution selalu berkurang seiring dengan
meningkatnya ukuran pohon, sehingga pohon optimum yang akan dipilih adalah
pohon yang berukuran paling maksimal yaitu pohon yang memberikan nilai relatif
paling kecil. Namun, di sisi lain pohon maksimal (Lampiran 1) akan
menyebabkan nilai kompleksitas yang tinggi karena struktur data yang
digambarkan cenderung kompleks. Oleh karena itu, diperlukan teknik
pemangkasan untuk mendapatkan pohon yang berukuran sederhana namun
memberikan hasil pengujian yang akurat, salah satunya yaitu menggunakan
kriteria nilai relatif validasi silang.

7
Tabel 2 menunjukkan bahwa pohon klasifikasi dengan enam simpul
terminal memiliki nilai relatif validasi silang paling kecil sehingga pohon tersebut
dipilih sebagai pohon klasifikasi optimum. Struktur pohon klasifikasi optimum ini
dapat dilihat pada Gambar 3.
Tabel 2 Hubungan antara banyaknya simpul terminal dan nilai relatif
Banyaknya
simpul terminal
2
3
4
5
6
7

Nilai relatif
resubstitution (��
0.50
0.36
0.33
0.30
0.28
0.26

Nilai relatif
validasi silang (� ��
0.50
0.36
0.38
0.38
0.35
0.38

Penurunan nilai impuritas atau nilai kebaikan penyekat yang digunakan
dalam penelitian ini adalah indeks Gini, yaitu menentukan kemungkinan
penyekatan dari semua kombinasi peubah penjelas. Penurunan impuritas juga
diistilahkan sebagai improvement. Peubah penjelas yang memiliki nilai
improvement paling tinggi pada suatu simpul akan dipilih sebagai penyekat
simpul tersebut. Pemilihan penyekatan ini dilakukan secara terus menerus hingga
mencapai simpul terminal. Peubah jenis sekolah merupakan simpul induk yang
menjadi penyekat pertama, hal ini menunjukkan bahwa jenis sekolah yaitu
sekolah atlet dan sekolah umum merupakan peubah penjelas yang paling dominan
dalam pembentukan pohon klasifikasi.
Ketepatan klasifikasi pohon optimum dapat dilihat pada Tabel 3. Pohon
klasifikasi optimum yang diperoleh memiliki nilai ketepatan klasifikasi
resubstitution sebesar 60%. Artinya bahwa pohon klasifikasi optimum mampu
mengklasifikasikan remaja putri ke dalam kategori usia menarche (cepat, ideal,
dan lambat) dengan tepat sebesar 60%.
Tabel 3 Persentase ketepatan klasifikasi data
Aktual

Prediksi
Cepat Ideal Lambat
Cepat
7
0
0
Ideal
14
13
2
Lambat
0
0
4
Ketepatan klasifikasi keseluruhan

Ketepatan
klasifikasi
100.00%
44.83%
100.00%
60.00%

Keakurasian pohon tunggal CART dalam memprediksi data baru
ditunjukkan melalui ketepatan klasifikasi validasi silang lipat 5. Ketepatan
klasifikasi validasi ini adalah rata-rata ketepatan klasifikasi dari lima kali
pengulangan prosedur validasi yaitu 75.00%, 37.50%, 50.00%, 75.00%, dan
62.50%. Oleh karena itu, ketepatan klasifikasi validasi yang didapatkan adalah
60%. Ini berarti bahwa keakurasian pohon tunggal CART dalam memprediksi
data baru adalah 60%. Lima nilai ketepatan klasifikasi pada prosedur validasi
tersebut berbeda-beda untuk setiap data learning yang digunakan. Hal ini
menunjukkan bahwa hasil pohon tunggal CART masih belum stabil.

8
Faktor-faktor yang Memengaruhi Usia Menarche
Peubah penjelas yang muncul pada pohon klasifikasi optimum (Gambar 3)
merupakan peubah-peubah yang berpengaruh terhadap nilai peubah respons. Pada
penelitian ini, keempat peubah penjelas yang digunakan muncul pada pohon
optimum. Oleh karena itu, peubah-peubah yang memengaruhi usia menarche
remaja putri di SMPN Ragunan dan SMPN 1 Dramaga berdasarkan urutan
kepentingannya adalah jenis sekolah, asupan protein, asupan kalsium, dan asupan
lemak (Lampiran 2).
Jenis sekolah merupakan peubah yang menjadi penyekat pertama, artinya
bahwa jenis sekolah yaitu sekolah atlet dan sekolah umum merupakan faktor yang
paling dominan dalam pembentukan pohon klasifikasi. Kemudian untuk
mengetahui karakteristik atau peubah penciri dari setiap kategori usia menarche,
dapat dilihat melalui interpretasi simpul terminal yang didapatkan. Remaja putri
yang mengalami menarche cepat yaitu remaja putri yang sekolah di sekolah
umum dan asupan proteinnya cukup dan kurang. Remaja putri yang mengalami
menarche lambat yaitu remaja putri yang sekolah di sekolah atlet, asupan
kalsiumnya kurang, dan asupan lemaknya berlebih. Sementara itu, remaja putri
yang mengalami menarche ideal yaitu remaja putri yang berasal dari sekolah atlet
dengan asupan lemaknya kurang dan cukup, serta remaja putri yang berasal dari
sekolah umum dengan asupan lemaknya kurang dan cukup.

Gambar 3 Pohon klasifikasi optimum

9
Pengaruh Batas Kategori Usia Menarche terhadap Ketepatan Klasifikasi
Remaja putri yang aktualnya dikategorikan ideal namun diprediksi cepat ada
sebanyak 14 orang (Tabel 3). Hal ini menyebabkan ketepatan klasifikasi
keseluruhan yang didapatkan hanya 60%. Besarnya nilai ketepatan klasifikasi ini
mungkin saja dipengaruhi oleh aturan pengkategorian usia menarche yang
digunakan. Pengkategorian awal yang digunakan yaitu kategori cepat (9-11 tahun),
ideal (12-13 tahun), dan lambat (≥ 14 tahun). Penetapan batas usia ini mungkin
saja telah mengalami pergeseran karena usia menarche di Indonesia lebih cepat
0.145 tahun tiap dekade. Oleh karena itu, pada penelitian ini dibentuk pohon
klasifikasi
optimum
menggunakan
pengkategorian
baru
dengan
mempertimbangkan fakta tersebut. Berdasarkan pengkategorian baru ini, remaja
putri yang mengalami menarche pada usia 11 tahun tidak lagi dikategorikan cepat
namun dikategorikan ideal, sehingga pengkategorian baru yang digunakan yaitu
cepat* (9-10 tahun), ideal* (11-13 tahun), dan lambat* (≥ 14 tahun).
Pohon klasifikasi optimum menggunakan pengkategorian baru memiliki
ketepatan klasifikasi sebesar 77.50% (Tabel 4). Peubah penjelas yang paling
dominan berdasarkan pengkategorian baru ini sama dengan pengkategorian awal,
yaitu jenis sekolah. Selain itu, ketiga peubah penjelas lainnya yaitu asupan
kalsium, lemak, dan protein juga muncul pada pohon optimum, sehingga faktorfaktor yang memengaruhi usia menarche di SMPN Ragunan dan SMPN 1
Dramaga berdasarkan pengkategorian baru sama dengan pengkategorian awal
yaitu jenis sekolah, asupan kalsium, asupan lemak, dan asupan protein.
Tabel 4 Persentase ketepatan klasifikasi pengkategorian baru
Aktual

Prediksi
Cepat* Ideal* Lambat*
Cepat*
1
0
0
Ideal*
7
26
2
Lambat*
0
0
4
Ketepatan klasifikasi keseluruhan

Ketepatan
klasifikasi
100.00%
74.29%
100.00%
77.50%

Meskipun pohon klasifikasi optimum menggunakan pengkategorian baru
memberikan hasil yang lebih baik, data dengan pengkategorian baru ini tidak
dapat digunakan untuk analisis lebih lanjut yaitu validasi silang dan bagging. Hal
ini dikarenakan hanya terdapat satu observasi pada kategori usia menarche cepat*.
Oleh karena itu, prosedur bagging tetap menggunakan pengkategorian awal.
Namun, hasil dari pengkategorian baru ini dapat digunakan untuk menunjukkan
adanya kemungkinan pergeseran usia menarche yang terjadi di SMPN Ragunan
dan SMPN 1 Dramaga. Hasilnya adalah penetapan pengkategorian awal memiliki
ketepatan klasifikasi yang lebih rendah dibandingkan dengan pengkategorian baru,
sehingga ada kemungkinan bahwa telah terjadi pergeseran usia menarche
khususnya di SMPN Ragunan dan SMPN 1 Dramaga.

10
Bootstrap Aggregating (Bagging)
Prosedur bagging dapat digunakan untuk meningkatkan keakurasian
pendugaan pohon tunggal CART. Nilai relatif dan ketepatan klasifikasi pada
pohon tunggal optimum masing-masing adalah 0.28 dan 60.00%. Setelah dibentuk
pohon agregat bagging dengan berbagai versi replikasi, nilai relatifnya menjadi
lebih kecil dan ketepatan klasifikasinya menjadi lebih besar dibandingkan dengan
hasil pohon tunggal CART (Tabel 5). Bagging dengan 100 replikasi merupakan
bagging paling optimum karena memiliki ketepatan klasifikasi paling besar dan
nilai relatif paling kecil diantara replikasi lainnya yaitu masing-masing sebesar
77.06% dan 0.18.
Tabel 5 Nilai relatif dan ketepatan klasifikasi pada setiap replikasi bagging
Replikasi
10
25
50
100
125

Nilai relatif
0.22
0.19
0.18
0.18
0.19

Ketepatan klasifikasi
75.00%
76.80%
76.95%
77.06%
77.00%

Gambar 4 menunjukkan skor kepentingan peubah-peubah penjelas pada
pembentukan pohon agregat 100 replikasi. Sama halnya dengan pohon klasifikasi
tunggal CART, pada pohon agregat 100 replikasi, jenis sekolah merupakan faktor
yang paling dominan dalam memengaruhi kategori usia menarche di SMPN
Ragunan dan SMPN 1 Dramaga. Beberapa aturan pengklasifikasian (rules) yang
dihasilkan prosedur bagging dengan 100 replikasi dapat dilihat pada Lampiran 3.

Gambar 4 Diagram kotak-garis skor kepentingan peubah penjelas pada
pohon agregat 100 replikasi
Keakurasian pohon agregat dalam memprediksi data baru ditunjukkan
melalui hasil validasi silang lipat 5. Prosedur validasi dilakukan terhadap pohon
agregat paling optimum, yaitu pohon agregat 100 replikasi. Ketepatan klasifikasi
dari setiap pengulangan validasi adalah 50.00%, 62.50%, 62.50%, 62.50%, dan
75.00%, sehingga ketepatan klasifikasi akhir validasi adalah 62.50% yang
merupakan rata-rata dari kelima nilai ketepatan klasifikasi tersebut. Ketepatan
klasifikasi validasi silang lipat 5 pohon agregat ini lebih besar dibandingkan
dengan pohon klasifikasi tunggal CART. Oleh karena itu, pada penelitian ini
pohon agregat menggunakan prosedur bagging mampu meningkatkan keakurasian
pendugaan pohon tunggal CART.

11

SIMPULAN
Jenis sekolah, asupan lemak, asupan kalsium, dan asupan protein
merupakan peubah-peubah yang efektif dalam memprediksi kategori usia
menarche remaja putri di SMPN Ragunan dan SMPN 1 Dramaga. Nilai ketepatan
klasifikasi berdasarkan prosedur validasi silang lipat 5 pada pohon tunggal CART
adalah 60% sedangkan pada pohon agregat dengan 100 replikasi adalah 62.50%.
Hal ini menunjukkan bahwa pada penelitian ini prosedur bootstrap aggregating
(bagging) mampu meningkatkan keakurasian pendugaan pohon klasifikasi
tunggal CART dari 60.00% menjadi 62.50%.

DAFTAR PUSTAKA
Bagga A, Kulkarni S. 2000. Age at menarche and secular trend in Maharashtrian
(Indian) girls. Submitted to Acta Biologica Szegediensis: India. 44(1): 53-57.
Breiman L, Friedman JH, Olshen RA, Stone CJ. 1993. Classification and
Regression Trees. New York (US): Champan and Hall.
Breiman L. 1996. Bagging predictors. Machine Learning. 24(1): 123-140.
Hastie TJ, Tibshirani RJ, Friedman JH. 2008. The Elements of Statistical
Learning: Data-mining, Inference and Prediction. Ed ke-2. New York (US):
Springer-Verlag.
Hendrawati, Glinka J. 2003. Age at menarche in Indonesia. Submitted to Folia
Medica Indonesiana: Journal of Airlangga University. 39(1): 18-21.
Safitri D, Arneliawati, Erwin. 2014. Analisis indikator gaya hidup yang
berhubungan dengan usia menarche remaja putri. Jurnal Universitas Riau.
1(2): 1-8.
Sofya, SNY. 2015. Hubungan aktivitas fisik dengan usia menarche pada remaja
putri atlet dan non atlet [skripsi]. Bogor (ID): Institut Pertanian Bogor.
Susanti AV. 2012. Faktor risiko kejadian menarche dini pada remaja di SMPN 30
Semarang. Journal of Nutrition College. 1(1): 386–407.
Sutton CD. 2005. Classification and Regression Trees, bagging, and boosting.
Handbook of Statistics. 24(1): 303-329.doi: 10.1016/S0169-7161(04)240111.
Timofeev R. 2004. Classification and Regression Trees (CART) theory and
applications [tesis]. Berlin (DE): Humboldt University.

12

DAFTAR LAMPIRAN
Lampiran 1 Pohon klasifikasi maksimal CART

Lampiran 2 Skor kepentingan peubah penjelas pada pohon klasifikasi tunggal
CART
Peubah penjelas
Sekolah
Protein
Kalsium
Lemak

Score
100,00
89,51
78,63
73,63

|||||||||||||||||||||||||||||||||||||||||||||||
||||||||||||||||||||||||||||||||||||||||||
|||||||||||||||||||||||||||||||||||||
|||||||||||||||||||||||||||||||||||

13
Lampiran 3 Aturan pengklasifikasian (rules) pohon agregat bagging dengan 100
replikasi pada pohon ke-1, 2, 3, 98, 99, dan 100
Pohon 1
if((SEKOLAH == ATLET) && KALSIUM