Penerapan metode random forest dalam driver analysis
RINGKASAN
NARISWARI KARINA DEWI. Penerapan Metode Random Forest dalam Driver Analysis.
Dibimbing oleh UTAMI DYAH SYAFITRI dan SONI YADI MULYADI.
Driver analysis adalah analisis yang digunakan untuk mengetahui prioritas peubah penjelas
yang menggerakkan peubah respons. Analisis tersebut dikenal dalam bidang riset pemasaran.
Driver analysis dijalankan menggunakan metode-metode analisis yang bersesuaian dengan kondisi
data. Umumnya, data yang dianalisis berupa data ordinal dan memiliki hubungan non-linier antara
peubah penjelas dan peubah respons. Salah satu metode yang sesuai dengan hal tersebut adalah
metode random forest. Penerapan metode random forest dalam driver analysis didasarkan pada
ukuran random forest dan ukuran contoh peubah penjelas. Simulasi dilakukan untuk mengetahui
ukuran yang tepat agar dihasilkan random forest berakurasi tinggi dan stabil, serta hasil driver
analysis yang stabil. Dalam penelitian ini, driver analysis dilakukan dalam rangka memperbaiki
kinerja produk Z, yaitu mengenai kesediaan seseorang membeli produk Z. Hasil simulasi
menunjukkan bahwa akurasi yang tinggi dan stabil dicapai saat ukuran random forest lebih dari
500 dan ukuran contoh peubah penjelas sebesar 4. Pada ukuran tersebut juga dihasilkan driver
analysis yang stabil.
Kata kunci : Driver Analysis, Random Forest, Variable Importance.
1
PENDAHULUAN
Latar Belakang
Persaingan pasar mendorong setiap
produsen untuk selalu memperbaiki kinerja
produknya. Salah satu kinerja produk yang
perlu diperhatikan adalah kesediaan
seseorang untuk membeli produk tersebut.
Untuk menghasilkan kinerja yang lebih baik,
tindakan perbaikan dilakukan pada atribut
produk yang mempengaruhi kinerja tersebut.
Perbaikan yang efektif dan efisien dapat
dilakukan jika produsen mengetahui
prioritas atribut produk yang menggerakkan
kinerja yang dimaksud. Dalam riset
pemasaran, analisis yang digunakan untuk
menghasilkan informasi tersebut dikenal
dengan nama driver analysis.
Driver analysis didasarkan pada metode
analisis yang mengeksplorasi hubungan
antara peubah penjelas dan peubah respons.
Beberapa metode yang umum digunakan
adalah analisis korelasi dan analisis regresi.
Dalam driver analysis, data yang dianalisis
berupa data ordinal dan umumnya memiliki
hubungan non-linier antara peubah penjelas
dan peubah respons. Salah satu metode yang
mampu mengatasi hal tersebut adalah
random forest.
Random forest merupakan metode pohon
gabungan yang berasal dari pengembangan
metode classification and regression tree
(CART). Metode ini didasarkan pada teknik
pohon
keputusan
sehingga
mampu
mengatasi masalah non-linier. Untuk
mengidentifikasi peubah penjelas yang
relevan dengan peubah respons, random
forest
menghasilkan
ukuran
tingkat
kepentingan (variable importance) peubah
penjelas. Dalam bidang biostatistika, hal
tersebut telah populer diterapkan pada
masalah gene selection (Díaz-Uriarte &
Andrés 2006). Prioritas peubah penjelas
dapat diketahui melalui ukuran tingkat
kepentingan peubah penjelas. Oleh karena
itu, metode random forest dapat diterapkan
pada driver analysis. Penelitian ini mengkaji
hal tersebut. Pada penelitian ini, driver
analysis
dilakukan
dalam
rangka
memperbaiki kinerja produk Z, yaitu dalam
hal kesediaan seseorang membeli produk Z.
Tujuan
Tujuan penelitian ini adalah mengetahui
ukuran random forest dan ukuran contoh
peubah penjelas yang menghasilkan random
forest berakurasi prediksi tinggi dan stabil,
serta yang menghasilkan driver analysis
yang stabil.
TINJAUAN PUSTAKA
Driver Analysis
Driver analysis merupakan istilah yang
digunakan secara luas dan meliputi berbagai
metode analisis. Analisisnya melibatkan
peubah respons dan peubah penjelas. Peubah
respons biasanya berupa hal-hal yang para
manajer usahakan untuk meningkatkan
kondisi organisasinya. Peubah penjelas
berupa
hal-hal
yang
dianggap
mempengaruhi peubah respons. Contoh
peubah respons yang sering dianalisis dalam
driver analysis adalah kepuasan keseluruhan
(overall satisfaction), loyalitas, serta
kesediaan merekomendasikan (Sambandam
2001).
Driver
analysis
dilakukan
untuk
memahami pengaruh peubah penjelas
terhadap peubah respons sehingga dapat
diketahui prioritas setiap peubah penjelas
dalam menggerakkan peubah respons
(Weiner & Tang 2005). Metode analisis
yang digunakan dalam driver analysis
disesuaikan dengan kondisi data yang
dianalisis (Sambandam 2001).
Classification and Regression Tree
(CART)
CART merupakan metode eksplorasi
data yang didasarkan pada teknik pohon
keputusan. Metode ini diperkenalkan oleh
Leo Breiman, Jerome H. Friedman, Richard
A. Olshen dan Charles J. Stone. CART
menghasilkan pohon klasifikasi saat peubah
respons berupa data kategorik (nominal),
sedangkan pohon regresi dihasilkan saat
peubah respons berupa data numerik
(interval dan rasio). Peubah penjelas yang
dianalisis dapat berupa kategorik, numerik,
maupun campuran keduanya (Breiman et al.
1984).
CART menghasilkan pohon yang
tersusun atas banyak simpul (node) yang
terbentuk dari proses pemilahan rekursif
biner. Setiap pemilahan memisahkan sebuah
gugus data menjadi dua gugus data yang
lebih kecil dan saling lepas. Nilai peubah
respon pada setiap gugus data hasil
pemilahan
akan
lebih
homogen
dibandingkan dengan sebelum dilakukan
pemilahan (Breiman et al. 1984).
Pemilahan dilakukan pada simpul nonterminal, yaitu simpul yang memenuhi
kriteria pemilahan. Pemilahan dimulai
1
PENDAHULUAN
Latar Belakang
Persaingan pasar mendorong setiap
produsen untuk selalu memperbaiki kinerja
produknya. Salah satu kinerja produk yang
perlu diperhatikan adalah kesediaan
seseorang untuk membeli produk tersebut.
Untuk menghasilkan kinerja yang lebih baik,
tindakan perbaikan dilakukan pada atribut
produk yang mempengaruhi kinerja tersebut.
Perbaikan yang efektif dan efisien dapat
dilakukan jika produsen mengetahui
prioritas atribut produk yang menggerakkan
kinerja yang dimaksud. Dalam riset
pemasaran, analisis yang digunakan untuk
menghasilkan informasi tersebut dikenal
dengan nama driver analysis.
Driver analysis didasarkan pada metode
analisis yang mengeksplorasi hubungan
antara peubah penjelas dan peubah respons.
Beberapa metode yang umum digunakan
adalah analisis korelasi dan analisis regresi.
Dalam driver analysis, data yang dianalisis
berupa data ordinal dan umumnya memiliki
hubungan non-linier antara peubah penjelas
dan peubah respons. Salah satu metode yang
mampu mengatasi hal tersebut adalah
random forest.
Random forest merupakan metode pohon
gabungan yang berasal dari pengembangan
metode classification and regression tree
(CART). Metode ini didasarkan pada teknik
pohon
keputusan
sehingga
mampu
mengatasi masalah non-linier. Untuk
mengidentifikasi peubah penjelas yang
relevan dengan peubah respons, random
forest
menghasilkan
ukuran
tingkat
kepentingan (variable importance) peubah
penjelas. Dalam bidang biostatistika, hal
tersebut telah populer diterapkan pada
masalah gene selection (Díaz-Uriarte &
Andrés 2006). Prioritas peubah penjelas
dapat diketahui melalui ukuran tingkat
kepentingan peubah penjelas. Oleh karena
itu, metode random forest dapat diterapkan
pada driver analysis. Penelitian ini mengkaji
hal tersebut. Pada penelitian ini, driver
analysis
dilakukan
dalam
rangka
memperbaiki kinerja produk Z, yaitu dalam
hal kesediaan seseorang membeli produk Z.
Tujuan
Tujuan penelitian ini adalah mengetahui
ukuran random forest dan ukuran contoh
peubah penjelas yang menghasilkan random
forest berakurasi prediksi tinggi dan stabil,
serta yang menghasilkan driver analysis
yang stabil.
TINJAUAN PUSTAKA
Driver Analysis
Driver analysis merupakan istilah yang
digunakan secara luas dan meliputi berbagai
metode analisis. Analisisnya melibatkan
peubah respons dan peubah penjelas. Peubah
respons biasanya berupa hal-hal yang para
manajer usahakan untuk meningkatkan
kondisi organisasinya. Peubah penjelas
berupa
hal-hal
yang
dianggap
mempengaruhi peubah respons. Contoh
peubah respons yang sering dianalisis dalam
driver analysis adalah kepuasan keseluruhan
(overall satisfaction), loyalitas, serta
kesediaan merekomendasikan (Sambandam
2001).
Driver
analysis
dilakukan
untuk
memahami pengaruh peubah penjelas
terhadap peubah respons sehingga dapat
diketahui prioritas setiap peubah penjelas
dalam menggerakkan peubah respons
(Weiner & Tang 2005). Metode analisis
yang digunakan dalam driver analysis
disesuaikan dengan kondisi data yang
dianalisis (Sambandam 2001).
Classification and Regression Tree
(CART)
CART merupakan metode eksplorasi
data yang didasarkan pada teknik pohon
keputusan. Metode ini diperkenalkan oleh
Leo Breiman, Jerome H. Friedman, Richard
A. Olshen dan Charles J. Stone. CART
menghasilkan pohon klasifikasi saat peubah
respons berupa data kategorik (nominal),
sedangkan pohon regresi dihasilkan saat
peubah respons berupa data numerik
(interval dan rasio). Peubah penjelas yang
dianalisis dapat berupa kategorik, numerik,
maupun campuran keduanya (Breiman et al.
1984).
CART menghasilkan pohon yang
tersusun atas banyak simpul (node) yang
terbentuk dari proses pemilahan rekursif
biner. Setiap pemilahan memisahkan sebuah
gugus data menjadi dua gugus data yang
lebih kecil dan saling lepas. Nilai peubah
respon pada setiap gugus data hasil
pemilahan
akan
lebih
homogen
dibandingkan dengan sebelum dilakukan
pemilahan (Breiman et al. 1984).
Pemilahan dilakukan pada simpul nonterminal, yaitu simpul yang memenuhi
kriteria pemilahan. Pemilahan dimulai
2
dengan memilah gugus data lengkap atau
simpul akar , kemudian dihentikan saat suatu
simpul memenuhi kriteria berhenti memilah.
Simpul tersebut dinamakan simpul terminal.
Gambar 1 mengilustrasikan struktur pohon
yang dihasilkan metode CART. Pohon pada
Gambar 1 tersusun atas simpul t1, t2, …, t5. t1
adalah simpul akar. Simpul non-terminal
dilambangkan dengan lingkaran, sedangkan
simpul terminal dilambangkan dengan
kotak. Setiap pemilah (split) memilah simpul
non-terminal menjadis dua simpul yang
saling lepas. Hasil prediksi respons suatu
amatan terdapat pada simpul terminal.
simpul
akar
: simpul nonterminal
: simpul
terminal
t1
pemilah 1
t3
t2
pemilah 2
t4
Gambar 1
t5
Struktur Pohon pada Metode
CART.
Dalam CART, pembentukan pohon
diawali dengan membangun pohon sampai
ukuran tertentu (umumnya sampai ukuran
maksimum).
Bila
diperlukan,
akan
dilanjutkan dengan pemangkasan pohon
sampai diperoleh ukuran yang tepat
sehingga dihasilkan pohon optimum.
Menurut
Breiman
et
al.
(1984),
pembangunan pohon klasifikasi CART
meliputi tiga hal, yaitu:
1. Pemilihan pemilah (split)
2. Penentuan simpul terminal
3. Penandaan label kelas
Pemilihan pemilah (split)
Pemilihan pemilah (split) pada setiap
simpul bertujuan mendapatkan pemilah
(split) yang mampu menghasilkan simpul
dengan tingkat kehomogenan nilai peubah
respons paling tinggi. Untuk mencapai
tujuan tersebut, aturan pemilahan diterapkan
pada proses ini. Pada setiap simpul t,
pemilah s dibangkitkan dengan cara
membentuk pertanyaan biner, sehingga s
memilah t menjadi simpul kiri tL dan simpul
kanan tR. Setiap amatan pada t yang
menjawab “ya” dikirim menuju tL,
sedangkan yang menjawab “tidak” dikirim
menuju tR. Setiap pemilah hanya bergantung
pada nilai dari sebuah peubah penjelas.
Misalkan X adalah sebuah peubah penjelas
numerik,
pertanyaan
biner
yang
dibangkitkan adalah semua pertanyaan yang
berbentuk “Apakah x ≤ c?”, dengan
.
Sementara itu, jika X adalah peubah penjelas
sebagai
nominal dengan
kategorinya, maka pertanyaan biner meliputi
semua pertanyaan yang berbentuk “Apakah
?”, dimana
. Jika
pada t telah terbentuk himpunan S, yaitu
himpunan dari pemilah s, maka pemilah
untuk t diperoleh dengan cara aturan
pemilahan mencari s yang memaksimumkan
,
fungsi kriteria kebaikan pemilah
. Pemilah s yang terpilih
dimana
kemudian dinotasikan dengan pemilah
terbaik (Breiman et al. 1984).
Salah satu aturan pemilahan yang umum
digunakan adalah indeks Gini. Indeks Gini
merupakan fungsi impurity. Nilai dari fungsi
impurity dikenal dengan ukuran impurity
simpul t, yaitu
. Semakin besar
,
maka semakin besar tingkat keheterogenan
nilai peubah respons pada t. Jika terdapat
fungsi impurity , maka ukuran impurity
pada setiap simpul t didefinisikan
dengan (Breiman et al. 1984):
dimana:
:
j
:
dugaan peluang suatu amatan
merupakan kelas j, dimana
amatan tersebut berada dalam
simpul t.
kelas pada peubah respons,
.
yaitu
dinyatakan dengan:
dimana
.
, maka
Saat
.
dengan:
:
:
:
:
peluang prior kelas ke-j
banyaknya amatan kelas ke-j
yang berada di dalam simpul t
banyaknya amatan kelas ke-j
banyaknya amatan pada simpul t
Saat indeks Gini digunakan sebagai aturan
pemilahan, maka i(t) dituliskan dengan
(Breiman et al. 1984):
dimana j adalah kelas pada peubah respons.
Pada suatu t, jika s memilah t sedemikian
sehingga besar proporsi amatan pada tL dan
3
tR adalah pL dan pR, maka penurunan
impurity didefinisikan dengan (Breiman et
al. 1984):
digunakan sebagai fungsi kriteria
kebaikan pemilah
. Pemilah s yang
dipilih sebagai pemilah simpul t adalah
pemilah terbaik , yaitu (Breiman et al.
1984):
Jika pada t1, terpilih sebagai pemilah yang
memilah t1 menjadi t2 dan t3, maka dengan
cara yang sama dilakukan pencarian pemilah
terbaik pada simpul t2 dan t3, secara terpisah.
Begitu juga pada simpul non-terminal
lainnya (Breiman et al. 1984).
Penentuan simpul terminal
Pemilahan pada simpul t dihentikan jika
memenuhi salah satu atau lebih dari kriteria
berhenti memilah. Selanjutnya, t dinyatakan
sebagai simpul terminal. Berikut adalah
kriteria tersebut (Breiman et al. 1984):
tidak terdapat penurunan nilai impuritas
secara berarti pada t (
).
banyaknya amatan pada t mencapai batas
minimum yang telah ditentukan (N(t) ≤ 5
atau bahkan N(t) = 1).
amatan pada t sudah homogen.
Penandaan Label Kelas
Label kelas pada simpul terminal t
ditentukan melalui aturan pluralitas (jumlah
terbanyak),
yaitu
jika
, dimana j = {1, 2, …, J}, maka
label kelas untuk simpul terminal t adalah
dicapai oleh dua
kelas j0. Jika
atau lebih kelas yang berbeda, maka label
kelas untuk simpul terminal t adalah pilihan
acak dari kelas yang maksimum tersebut
(Brieman et al. 1984).
Random Forest
Metode
random
forest
adalah
pengembangan dari metode CART, yaitu
dengan menerapkan metode bootstrap
aggregating (bagging) dan random feature
selection (Breiman 2001). Metode ini
merupakan metode pohon gabungan. Dalam
random forest, banyak pohon ditumbuhkan
sehingga terbentuk suatu hutan (forest),
kemudian analisis dilakukan pada kumpulan
pohon tersebut. Pada gugus data yang terdiri
atas n amatan dan p peubah penjelas,
prosedur untuk melakukan random forest
adalah (Breiman 2001; Breiman & Cutler
2003):
1. Lakukan
penarikan
contoh
acak
berukuran n dengan pemulihan pada
gugus data. Tahap ini adalah tahapan
bootstrap.
2. Dengan menggunakan contoh bootstrap,
pohon dibangun sampai mencapai
ukuran maksimum (tanpa pemangkasan).
Pembangunan pohon dilakukan dengan
menerapkan random feature selection
pada setiap proses pemilihan pemilah,
yaitu m peubah penjelas dipilih secara
acak dimana m
NARISWARI KARINA DEWI. Penerapan Metode Random Forest dalam Driver Analysis.
Dibimbing oleh UTAMI DYAH SYAFITRI dan SONI YADI MULYADI.
Driver analysis adalah analisis yang digunakan untuk mengetahui prioritas peubah penjelas
yang menggerakkan peubah respons. Analisis tersebut dikenal dalam bidang riset pemasaran.
Driver analysis dijalankan menggunakan metode-metode analisis yang bersesuaian dengan kondisi
data. Umumnya, data yang dianalisis berupa data ordinal dan memiliki hubungan non-linier antara
peubah penjelas dan peubah respons. Salah satu metode yang sesuai dengan hal tersebut adalah
metode random forest. Penerapan metode random forest dalam driver analysis didasarkan pada
ukuran random forest dan ukuran contoh peubah penjelas. Simulasi dilakukan untuk mengetahui
ukuran yang tepat agar dihasilkan random forest berakurasi tinggi dan stabil, serta hasil driver
analysis yang stabil. Dalam penelitian ini, driver analysis dilakukan dalam rangka memperbaiki
kinerja produk Z, yaitu mengenai kesediaan seseorang membeli produk Z. Hasil simulasi
menunjukkan bahwa akurasi yang tinggi dan stabil dicapai saat ukuran random forest lebih dari
500 dan ukuran contoh peubah penjelas sebesar 4. Pada ukuran tersebut juga dihasilkan driver
analysis yang stabil.
Kata kunci : Driver Analysis, Random Forest, Variable Importance.
1
PENDAHULUAN
Latar Belakang
Persaingan pasar mendorong setiap
produsen untuk selalu memperbaiki kinerja
produknya. Salah satu kinerja produk yang
perlu diperhatikan adalah kesediaan
seseorang untuk membeli produk tersebut.
Untuk menghasilkan kinerja yang lebih baik,
tindakan perbaikan dilakukan pada atribut
produk yang mempengaruhi kinerja tersebut.
Perbaikan yang efektif dan efisien dapat
dilakukan jika produsen mengetahui
prioritas atribut produk yang menggerakkan
kinerja yang dimaksud. Dalam riset
pemasaran, analisis yang digunakan untuk
menghasilkan informasi tersebut dikenal
dengan nama driver analysis.
Driver analysis didasarkan pada metode
analisis yang mengeksplorasi hubungan
antara peubah penjelas dan peubah respons.
Beberapa metode yang umum digunakan
adalah analisis korelasi dan analisis regresi.
Dalam driver analysis, data yang dianalisis
berupa data ordinal dan umumnya memiliki
hubungan non-linier antara peubah penjelas
dan peubah respons. Salah satu metode yang
mampu mengatasi hal tersebut adalah
random forest.
Random forest merupakan metode pohon
gabungan yang berasal dari pengembangan
metode classification and regression tree
(CART). Metode ini didasarkan pada teknik
pohon
keputusan
sehingga
mampu
mengatasi masalah non-linier. Untuk
mengidentifikasi peubah penjelas yang
relevan dengan peubah respons, random
forest
menghasilkan
ukuran
tingkat
kepentingan (variable importance) peubah
penjelas. Dalam bidang biostatistika, hal
tersebut telah populer diterapkan pada
masalah gene selection (Díaz-Uriarte &
Andrés 2006). Prioritas peubah penjelas
dapat diketahui melalui ukuran tingkat
kepentingan peubah penjelas. Oleh karena
itu, metode random forest dapat diterapkan
pada driver analysis. Penelitian ini mengkaji
hal tersebut. Pada penelitian ini, driver
analysis
dilakukan
dalam
rangka
memperbaiki kinerja produk Z, yaitu dalam
hal kesediaan seseorang membeli produk Z.
Tujuan
Tujuan penelitian ini adalah mengetahui
ukuran random forest dan ukuran contoh
peubah penjelas yang menghasilkan random
forest berakurasi prediksi tinggi dan stabil,
serta yang menghasilkan driver analysis
yang stabil.
TINJAUAN PUSTAKA
Driver Analysis
Driver analysis merupakan istilah yang
digunakan secara luas dan meliputi berbagai
metode analisis. Analisisnya melibatkan
peubah respons dan peubah penjelas. Peubah
respons biasanya berupa hal-hal yang para
manajer usahakan untuk meningkatkan
kondisi organisasinya. Peubah penjelas
berupa
hal-hal
yang
dianggap
mempengaruhi peubah respons. Contoh
peubah respons yang sering dianalisis dalam
driver analysis adalah kepuasan keseluruhan
(overall satisfaction), loyalitas, serta
kesediaan merekomendasikan (Sambandam
2001).
Driver
analysis
dilakukan
untuk
memahami pengaruh peubah penjelas
terhadap peubah respons sehingga dapat
diketahui prioritas setiap peubah penjelas
dalam menggerakkan peubah respons
(Weiner & Tang 2005). Metode analisis
yang digunakan dalam driver analysis
disesuaikan dengan kondisi data yang
dianalisis (Sambandam 2001).
Classification and Regression Tree
(CART)
CART merupakan metode eksplorasi
data yang didasarkan pada teknik pohon
keputusan. Metode ini diperkenalkan oleh
Leo Breiman, Jerome H. Friedman, Richard
A. Olshen dan Charles J. Stone. CART
menghasilkan pohon klasifikasi saat peubah
respons berupa data kategorik (nominal),
sedangkan pohon regresi dihasilkan saat
peubah respons berupa data numerik
(interval dan rasio). Peubah penjelas yang
dianalisis dapat berupa kategorik, numerik,
maupun campuran keduanya (Breiman et al.
1984).
CART menghasilkan pohon yang
tersusun atas banyak simpul (node) yang
terbentuk dari proses pemilahan rekursif
biner. Setiap pemilahan memisahkan sebuah
gugus data menjadi dua gugus data yang
lebih kecil dan saling lepas. Nilai peubah
respon pada setiap gugus data hasil
pemilahan
akan
lebih
homogen
dibandingkan dengan sebelum dilakukan
pemilahan (Breiman et al. 1984).
Pemilahan dilakukan pada simpul nonterminal, yaitu simpul yang memenuhi
kriteria pemilahan. Pemilahan dimulai
1
PENDAHULUAN
Latar Belakang
Persaingan pasar mendorong setiap
produsen untuk selalu memperbaiki kinerja
produknya. Salah satu kinerja produk yang
perlu diperhatikan adalah kesediaan
seseorang untuk membeli produk tersebut.
Untuk menghasilkan kinerja yang lebih baik,
tindakan perbaikan dilakukan pada atribut
produk yang mempengaruhi kinerja tersebut.
Perbaikan yang efektif dan efisien dapat
dilakukan jika produsen mengetahui
prioritas atribut produk yang menggerakkan
kinerja yang dimaksud. Dalam riset
pemasaran, analisis yang digunakan untuk
menghasilkan informasi tersebut dikenal
dengan nama driver analysis.
Driver analysis didasarkan pada metode
analisis yang mengeksplorasi hubungan
antara peubah penjelas dan peubah respons.
Beberapa metode yang umum digunakan
adalah analisis korelasi dan analisis regresi.
Dalam driver analysis, data yang dianalisis
berupa data ordinal dan umumnya memiliki
hubungan non-linier antara peubah penjelas
dan peubah respons. Salah satu metode yang
mampu mengatasi hal tersebut adalah
random forest.
Random forest merupakan metode pohon
gabungan yang berasal dari pengembangan
metode classification and regression tree
(CART). Metode ini didasarkan pada teknik
pohon
keputusan
sehingga
mampu
mengatasi masalah non-linier. Untuk
mengidentifikasi peubah penjelas yang
relevan dengan peubah respons, random
forest
menghasilkan
ukuran
tingkat
kepentingan (variable importance) peubah
penjelas. Dalam bidang biostatistika, hal
tersebut telah populer diterapkan pada
masalah gene selection (Díaz-Uriarte &
Andrés 2006). Prioritas peubah penjelas
dapat diketahui melalui ukuran tingkat
kepentingan peubah penjelas. Oleh karena
itu, metode random forest dapat diterapkan
pada driver analysis. Penelitian ini mengkaji
hal tersebut. Pada penelitian ini, driver
analysis
dilakukan
dalam
rangka
memperbaiki kinerja produk Z, yaitu dalam
hal kesediaan seseorang membeli produk Z.
Tujuan
Tujuan penelitian ini adalah mengetahui
ukuran random forest dan ukuran contoh
peubah penjelas yang menghasilkan random
forest berakurasi prediksi tinggi dan stabil,
serta yang menghasilkan driver analysis
yang stabil.
TINJAUAN PUSTAKA
Driver Analysis
Driver analysis merupakan istilah yang
digunakan secara luas dan meliputi berbagai
metode analisis. Analisisnya melibatkan
peubah respons dan peubah penjelas. Peubah
respons biasanya berupa hal-hal yang para
manajer usahakan untuk meningkatkan
kondisi organisasinya. Peubah penjelas
berupa
hal-hal
yang
dianggap
mempengaruhi peubah respons. Contoh
peubah respons yang sering dianalisis dalam
driver analysis adalah kepuasan keseluruhan
(overall satisfaction), loyalitas, serta
kesediaan merekomendasikan (Sambandam
2001).
Driver
analysis
dilakukan
untuk
memahami pengaruh peubah penjelas
terhadap peubah respons sehingga dapat
diketahui prioritas setiap peubah penjelas
dalam menggerakkan peubah respons
(Weiner & Tang 2005). Metode analisis
yang digunakan dalam driver analysis
disesuaikan dengan kondisi data yang
dianalisis (Sambandam 2001).
Classification and Regression Tree
(CART)
CART merupakan metode eksplorasi
data yang didasarkan pada teknik pohon
keputusan. Metode ini diperkenalkan oleh
Leo Breiman, Jerome H. Friedman, Richard
A. Olshen dan Charles J. Stone. CART
menghasilkan pohon klasifikasi saat peubah
respons berupa data kategorik (nominal),
sedangkan pohon regresi dihasilkan saat
peubah respons berupa data numerik
(interval dan rasio). Peubah penjelas yang
dianalisis dapat berupa kategorik, numerik,
maupun campuran keduanya (Breiman et al.
1984).
CART menghasilkan pohon yang
tersusun atas banyak simpul (node) yang
terbentuk dari proses pemilahan rekursif
biner. Setiap pemilahan memisahkan sebuah
gugus data menjadi dua gugus data yang
lebih kecil dan saling lepas. Nilai peubah
respon pada setiap gugus data hasil
pemilahan
akan
lebih
homogen
dibandingkan dengan sebelum dilakukan
pemilahan (Breiman et al. 1984).
Pemilahan dilakukan pada simpul nonterminal, yaitu simpul yang memenuhi
kriteria pemilahan. Pemilahan dimulai
2
dengan memilah gugus data lengkap atau
simpul akar , kemudian dihentikan saat suatu
simpul memenuhi kriteria berhenti memilah.
Simpul tersebut dinamakan simpul terminal.
Gambar 1 mengilustrasikan struktur pohon
yang dihasilkan metode CART. Pohon pada
Gambar 1 tersusun atas simpul t1, t2, …, t5. t1
adalah simpul akar. Simpul non-terminal
dilambangkan dengan lingkaran, sedangkan
simpul terminal dilambangkan dengan
kotak. Setiap pemilah (split) memilah simpul
non-terminal menjadis dua simpul yang
saling lepas. Hasil prediksi respons suatu
amatan terdapat pada simpul terminal.
simpul
akar
: simpul nonterminal
: simpul
terminal
t1
pemilah 1
t3
t2
pemilah 2
t4
Gambar 1
t5
Struktur Pohon pada Metode
CART.
Dalam CART, pembentukan pohon
diawali dengan membangun pohon sampai
ukuran tertentu (umumnya sampai ukuran
maksimum).
Bila
diperlukan,
akan
dilanjutkan dengan pemangkasan pohon
sampai diperoleh ukuran yang tepat
sehingga dihasilkan pohon optimum.
Menurut
Breiman
et
al.
(1984),
pembangunan pohon klasifikasi CART
meliputi tiga hal, yaitu:
1. Pemilihan pemilah (split)
2. Penentuan simpul terminal
3. Penandaan label kelas
Pemilihan pemilah (split)
Pemilihan pemilah (split) pada setiap
simpul bertujuan mendapatkan pemilah
(split) yang mampu menghasilkan simpul
dengan tingkat kehomogenan nilai peubah
respons paling tinggi. Untuk mencapai
tujuan tersebut, aturan pemilahan diterapkan
pada proses ini. Pada setiap simpul t,
pemilah s dibangkitkan dengan cara
membentuk pertanyaan biner, sehingga s
memilah t menjadi simpul kiri tL dan simpul
kanan tR. Setiap amatan pada t yang
menjawab “ya” dikirim menuju tL,
sedangkan yang menjawab “tidak” dikirim
menuju tR. Setiap pemilah hanya bergantung
pada nilai dari sebuah peubah penjelas.
Misalkan X adalah sebuah peubah penjelas
numerik,
pertanyaan
biner
yang
dibangkitkan adalah semua pertanyaan yang
berbentuk “Apakah x ≤ c?”, dengan
.
Sementara itu, jika X adalah peubah penjelas
sebagai
nominal dengan
kategorinya, maka pertanyaan biner meliputi
semua pertanyaan yang berbentuk “Apakah
?”, dimana
. Jika
pada t telah terbentuk himpunan S, yaitu
himpunan dari pemilah s, maka pemilah
untuk t diperoleh dengan cara aturan
pemilahan mencari s yang memaksimumkan
,
fungsi kriteria kebaikan pemilah
. Pemilah s yang terpilih
dimana
kemudian dinotasikan dengan pemilah
terbaik (Breiman et al. 1984).
Salah satu aturan pemilahan yang umum
digunakan adalah indeks Gini. Indeks Gini
merupakan fungsi impurity. Nilai dari fungsi
impurity dikenal dengan ukuran impurity
simpul t, yaitu
. Semakin besar
,
maka semakin besar tingkat keheterogenan
nilai peubah respons pada t. Jika terdapat
fungsi impurity , maka ukuran impurity
pada setiap simpul t didefinisikan
dengan (Breiman et al. 1984):
dimana:
:
j
:
dugaan peluang suatu amatan
merupakan kelas j, dimana
amatan tersebut berada dalam
simpul t.
kelas pada peubah respons,
.
yaitu
dinyatakan dengan:
dimana
.
, maka
Saat
.
dengan:
:
:
:
:
peluang prior kelas ke-j
banyaknya amatan kelas ke-j
yang berada di dalam simpul t
banyaknya amatan kelas ke-j
banyaknya amatan pada simpul t
Saat indeks Gini digunakan sebagai aturan
pemilahan, maka i(t) dituliskan dengan
(Breiman et al. 1984):
dimana j adalah kelas pada peubah respons.
Pada suatu t, jika s memilah t sedemikian
sehingga besar proporsi amatan pada tL dan
3
tR adalah pL dan pR, maka penurunan
impurity didefinisikan dengan (Breiman et
al. 1984):
digunakan sebagai fungsi kriteria
kebaikan pemilah
. Pemilah s yang
dipilih sebagai pemilah simpul t adalah
pemilah terbaik , yaitu (Breiman et al.
1984):
Jika pada t1, terpilih sebagai pemilah yang
memilah t1 menjadi t2 dan t3, maka dengan
cara yang sama dilakukan pencarian pemilah
terbaik pada simpul t2 dan t3, secara terpisah.
Begitu juga pada simpul non-terminal
lainnya (Breiman et al. 1984).
Penentuan simpul terminal
Pemilahan pada simpul t dihentikan jika
memenuhi salah satu atau lebih dari kriteria
berhenti memilah. Selanjutnya, t dinyatakan
sebagai simpul terminal. Berikut adalah
kriteria tersebut (Breiman et al. 1984):
tidak terdapat penurunan nilai impuritas
secara berarti pada t (
).
banyaknya amatan pada t mencapai batas
minimum yang telah ditentukan (N(t) ≤ 5
atau bahkan N(t) = 1).
amatan pada t sudah homogen.
Penandaan Label Kelas
Label kelas pada simpul terminal t
ditentukan melalui aturan pluralitas (jumlah
terbanyak),
yaitu
jika
, dimana j = {1, 2, …, J}, maka
label kelas untuk simpul terminal t adalah
dicapai oleh dua
kelas j0. Jika
atau lebih kelas yang berbeda, maka label
kelas untuk simpul terminal t adalah pilihan
acak dari kelas yang maksimum tersebut
(Brieman et al. 1984).
Random Forest
Metode
random
forest
adalah
pengembangan dari metode CART, yaitu
dengan menerapkan metode bootstrap
aggregating (bagging) dan random feature
selection (Breiman 2001). Metode ini
merupakan metode pohon gabungan. Dalam
random forest, banyak pohon ditumbuhkan
sehingga terbentuk suatu hutan (forest),
kemudian analisis dilakukan pada kumpulan
pohon tersebut. Pada gugus data yang terdiri
atas n amatan dan p peubah penjelas,
prosedur untuk melakukan random forest
adalah (Breiman 2001; Breiman & Cutler
2003):
1. Lakukan
penarikan
contoh
acak
berukuran n dengan pemulihan pada
gugus data. Tahap ini adalah tahapan
bootstrap.
2. Dengan menggunakan contoh bootstrap,
pohon dibangun sampai mencapai
ukuran maksimum (tanpa pemangkasan).
Pembangunan pohon dilakukan dengan
menerapkan random feature selection
pada setiap proses pemilihan pemilah,
yaitu m peubah penjelas dipilih secara
acak dimana m