Analisa Performansi menggunakan Algoritma Decision Tree

BAB II
TINJAUAN PUSTAKA

2.1. Pengertian Data mining
Data mining adalah salah satu solusi untuk menjelaskan proses penambangan
informasi dalam suatu basis data yang berskala besar. Saat suatu organisasi baik itu
perusahaan maupun suatu institusi yang mempunyai data yang kompleks, tidak
menutup kemungkinan banyak sekali informasi yang dapat diperoleh, serta
bagaimana solusi data mining bisa diterapkan dengan berbagai teknik diantaranya
yaitu classification, association dan clustering. Dengan data mining dimana melalui
serangkaian prosesnya akan menghasilkan suatu nilai tambah berupa pengetahuan
baru yang selama ini tidak diketahui secara manual dari sekumpulan data
Data mining merupakan teknologi yang sangat berguna untuk membantu
perusahaan-perusahaan menemukan informasi yang sangat penting dari gudang data
(Data warehouse) mereka. Data mining juga dapat meramalkan tren dan sifat-sifat
perilaku bisnis yang sangat berguna untuk mendukung pengambilan keputusan
penting. Analisis otomasi yang dilakukan oleh data mining melebihi yang dilakukan
oleh sistem pendukung keputusan tradisional yang sudah banyak digunakan. Data
mining dapat menjawab pertanyaan-pertanyaan bisnis yang jika dibandingkan dengan
cara tradisional memerlukan banyak waktu dan biaya tinggi. Data mining
mengeksplorasi basis data untuk menemukan pola-pola yang tersembunyi, mencari

informasi untuk memprediksi yang mungkin saja terlupakan oleh para pelaku bisnis
karena terletak di luar ekspektasi mereka.
Kemajuan dalam pengumpulan data dan teknologi penyimpanan yang cepat
memungkinkan organisasi menghimpun jumlah data yang sangat luas. Alat dan
teknik analisis data yang tradisional tidak dapat digunakan untuk mengektrak

9

informasi dari data yang sangat besar. Untuk itu diperlukan suatu metoda baru yang
dapat menjawab kebutuhan tersebut. Data mining merupakan teknologi yang
menggabungkan metoda analisis tradisional dengan algoritma yang canggih untuk
memproses data dengan volume besar. Ada beberapa definisi dari data mining yang
dikenal diantaranya adalah :
a. Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu
kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara
manual (Maimon O dan Rokahi L, 2010).
b. Data mining adalah analisis otomatis dari data yang berjumlah besar atau
kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang
penting yang biasanya tidak disadari keberadaannya (Witten et all, 2011).
c. Data mining atau Knowledge Discovery in Database (KDD) adalah pengambilan

informasi yang tersembunyi, dimana informasi tersebut sebelumnya tidak
dikenal dan berpotensi bermanfaat. Proses ini meliputi sejumlah pendekatan
teknis yang berbeda, seperti clustering, data summarization, learning
classification rules (Chakrabarti S. et all, 2009).
Selain definisi di atas beberapa definisi juga diberikan seperti tertera di bawah
ini. “Data mining merupakan bidang dari beberapa keilmuan yang menyatukan teknik
dari pembelajaran mesin, pengenalan pola, statistik, basis data, dan visualisasi untuk
penanganan permasalahan pengambilan informasi dari basis data yang besar.”
(Larose, 2005). Kemajuan luar biasa yang terus berlanjut dalam bidang data mining
didorong oleh beberapa faktor, antara lain (Larose, 2005);
1. Pertumbuhan yang cepat dalam kumpulan data.
2. Penyimpanan data dalam data warehouse, sehingga seluruh perusahaan memiliki
akses kedalam basis data yang handal.
3. Adanya peningkatan akses data melalui navigasi web dan intranet.
4. Tekanan kompetisi bisnis untuk meningkatkan penguasaan pasar dalam
globalisasi ekonomi.

10

5. Perkembangan teknologi perangkat lunak untuk data mining (ketersediaan

teknologi).
6. Perkembangan yang hebat dalam kemampuan komputasi dan pengembangan
kapasitas media penyimpanan.
Secara umum, data mining dapat melakukan dua hal yaitu memberikan kesempatan
untuk menemukan informasi menarik yang tidak terduga, dan juga bisa menangani
data berskala besar. Dalam menemukan informasi yang menarik ini, ciri khas data
mining adalah kemampuan pencarian secara hampir otomatis, karena dalam banyak
teknik data mining ada beberapa parameter yang masih harus ditentukan secara
manual atau semi manual. Data mining juga dapat memanfaatkan pengalaman atau
bahkan kesalahan di masa lalu untuk meningkatkan kualitas dari model maupun hasil
analisisnya, salah satunya dengan kemampuan pembelajaran yang dimiliki beberapa
teknik data mining seperti klasifikasi.

2.2.Tahapan Data mining
Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar
adalah diperlukan metodologi sistematis tidak hanya ketika melakukan analisis saja
tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari hasilnya
sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat.
Data mining seharusnya dipahami sebagai suatu proses, yang memiliki tahapantahapan tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan
sebelumnya. Pada umumnya proses data mining berjalan interaktif karena tidak

jarang hasil data mining pada awalnya tidak sesuai dengan harapan analisnya
sehingga perlu dilakukan desain ulang prosesnya. Proses data mining sesuai pada
gambar 2.1

11

Gambar 2.1. Proses data mining (Maimon O dan Rokahi L, 2010)
Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa
tahap. Tahap-tahap tersebut bersifat interaktif di mana pemakai terlibat langsung atau
dengan perantaraan knowledge base.
a. Pembersihan data
Digunakan untuk membuang data yang tidak konsisten dan terdapat noise
b. Intergrasi Data
Data yang diperlukan untuk data mining tidak hanya berasal dari satu basis data
tetapi juga berasal dari beberapa basis data atau file teks. Hasil integrasi data
sering diwujudkan dalam sebuah data warehouse karena dengan data warehouse,
data dikonsolidasikan dengan struktur khusus yang efisien. Selain itu data
warehouse juga memungkinkan tipe analisis seperti Online Analytical Processing
(OLAP).


12

c. Transformasi data
Transformasi dan pemilihan data ini untuk menentukan kualitas dari hasil data
mining, sehingga data diubah menjadi bentuk sesuai untuk di-Mining.

d. Aplikasi Teknik Data mining
Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari
proses data mining. Ada beberapa teknik data mining yang sudah umum dipakai.
e. Evaluasi pola yang ditemukan
Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun
model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang
tercapai.
f. Presentasi Pengetahuan
Presentasi pola yang ditemukan untuk menghasilkan aksi tahap terakhir dari
proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari
hasil analisis yang didapat. Proses akur produksi data mining terlampir pada
gambar 2.2

Gambar 2.2. Alur produksi data mining (Han J dan Kamber M, 2000)


13

2.3.Teknik Data mining
Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu
kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.
Perlu diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit data
berharga dari sejumlah besar data dasar. Karena itu data mining sebenarnya memiliki
akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent),
machine learning, statistik dan basisdata. Beberapa teknik yang sering disebut-sebut
dalam literatur data mining antara lain yaitu association rule mining, clustering,
klasifikasi, neural network, genetic algorithm dan lain-lain. Penggolongan teknik
data mining terdapat pada gambar 2.3

Gambar 2.3. Penggolongan teknik data mining (Han J dan Kamber M, 2000)

14

a. Classification


DEPENDANT VARIABLE : PLAY
Play

9

Dont Play

5

OUTLOOK?

Sunny

Overcast

Rain

Play

2


Play

4

Play

2

Dont Play

3

Dont Play

0

Dont Play

3


Gambar 2.4. Tahapan Teknik Klasifikasi (Witten et all. 2011)
Suatu teknik dengan melihat pada prilaku dan atribut dari kelompok yang
telah didefinisikan.Contoh klasifikasi sesuai pada gambar 2.4. Teknik ini
dapat memberikan klasifikasi pada data baru dengan memanipulasi data yang
ada yang telah diklasifikasi dan dengan menggunakan hasilnya untuk
memberikan sejumlah aturan. Aturan-aturan tersebut digunakan pada data
baru untuk diklasifikasi. Teknik ini menggunakan supervised induction, yang
memanfaatkan kumpulan pengujian dari record yang terklasifikasi untuk
menentukan kelas-kelas tambahan. Salah satu contoh yang mudah dan popular
adalah dengan Decision tree yaitu salah satu metode klasifikasi yang paling
populer karena mudah untuk diinterpretasi. Decision tree adalah model
prediksi menggunakan struktur pohon atau struktur berhirarki.

15

Decision tree adalah struktur flowchart yang menyerupai tree (pohon),
dimana setiap simpul internal menandakan suatu tes pada atribut, setiap
cabang merepresentasikan hasil tes, dan simpul daun merepresentasikan kelas
atau distribusi kelas. Alur pada decision tree ditelusuri dari simpul akar ke

simpul daun yang memegang prediksi kelas untuk contoh tersebut. Decision
tree mudah untuk dikonversi ke aturan klasifikasi (classification rules).
b. Association

Gambar 2.5. Tahapan Teknik Asosiasi (Witten et all. 2011)
Pada gambar 2.5 digambarkan tahapan teknik asosiasi. Teknik asosiasi
digunakan untuk mengenali kelakuan dari kejadian-kejadian khusus atau
proses dimana link asosiasi muncul pada setiap kejadian. Contoh dari aturan
assosiatif dari analisis pembelian di suatu pasar swalayan adalah bisa
diketahui berapa besar kemungkinan seorang pelanggan membeli roti
bersamaan dengan susu. Dengan pengetahuan tersebut pemilik pasar swalayan
dapat mengatur penempatan barangnya atau merancang program promosi
pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu.

16

Penting tidaknya suatu aturan asosiatif dapat diketahui dengan dua
parameter, support yaitu prosentase kombinasi atribut tersebut dalam basis
data dan confidence yaitu kuatnya hubungan antar atribut dalam aturan
asosiatif. Motivasi awal pencarian association rule berasal dari keinginan

untuk menganalisis data transaksi supermarket, ditinjau dari perilaku
customer dalam membeli produk. Association rule ini menjelaskan seberapa
sering suatu produk dibeli secara bersamaan.
c. Clustering

Gambar 2.6. Proses clustering (Witten et all. 2011)
Clustering sesuai pada gambar 2.6. digunakan untuk menganalisis
pengelompokkan berbeda terhadap data, mirip dengan klasifikasi, namun

17

pengelompokkan belum didefinisikan sebelum dijalankannya tool data
mining. Biasanya menggunkan metode neural network atau statistik.
Clustering membagi item menjadi kelompok-kelompok berdasarkan yang
ditemukan tool data mining. Prinsip dari clustering adalah memaksimalkan
kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar
cluster. Clustering dapat dilakukan pada data yang memiliki beberapa atribut
yang dipetakan sebagai ruang multidimensi. Ilustrasi dari clustering dapat
dilihat di Gambar dimana lokasi, dinyatakan dengan bidang dua dimensi, dari
pelanggan suatu took dapat dikelompokkan menjadi beberapa cluster dengan
pusat cluster ditunjukkan oleh tanda positif (+). Banyak algoritma clustering
memerlukan fungsi jarak untuk mengukur kemiripan antar data, diperlukan
juga metoda untuk normalisasi bermacam atribut yang dimiliki data.
2.4.Kernel K-Mean
K-Means adalah suatu metode penganalisisan data atau metode Data mining yang
melakukan proses pemodelan tanpa supervisi (unsupervised) dan merupakan salah
satu metode yang melakukan pengelompokan data dengan sistem partisi. Metode kmeans berusaha mengelompokkan data yang ada ke dalam beberapa kelompok,
dimana data dalam satu kelompok mempunyai karakteristik yang sama satu sama
lainnya dan mempunyai karakteristik yang berbeda dengan data yang ada di dalam
kelompok yang lain. Dengan kata lain, metode ini berusaha untuk meminimalkan
variasi antar data yang ada di dalam suatu cluster dan memaksimalkan variasi dengan
data yang ada di cluster lainnya.
Objective function yang berusaha diminimalkan oleh k-means adalah:
J (U, V) = SUM (k=1 to N) SUM (i=1 to c) (a_ik * (x_k, v_i)^2)
dimana:
U : Matriks keanggotaan data ke masing-masing cluster yang berisikan nilai 0 dan 1
V : Matriks centroid/rata-rata masing-masing cluster
N : Jumlah data

18

c : Jumlah cluster
a_ik : Keanggotaan data ke-k ke cluster ke-i
x_k : data ke-k
v_i : Nilai centroid cluster ke-i
Prosedur yang digunakan dalam melakukan optimasi menggunakan k-means adalah
sebagai berikut:
Step 1. Tentukan jumlah cluster
Step 2. Alokasikan data ke dalam cluster secara random
Step 3. Hitung centroid/rata-rata dari data yang ada di masing-masing cluster.
Step 4. Alokasikan masing-masing data ke centroid/rata-rata terdekat
Step 5. Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau
apabila perubahan nilai centroid, ada yang di atas nilai threshold yang ditentukan
atau apabila perubahan nilai pada objective function yang digunakan, di atas nilai
threshold yang ditentukan Centroid/rata-rata dari data yang ada di masing-masing
cluster yang dihitung pada Step 3. didapatkan menggunakan rumus sebagai
berikut:
v_ij = SUM (k=0 to N_i) (x_kj) / N_i
dimana:
i,k : indeks dari cluster
j : indeks dari variabel
v_ij : centroid/rata-rata cluster ke-i untuk variabel ke-j
x_kj : nilai data ke-k yang ada di dalam cluster tersebut untuk variabel ke-j
N_i : Jumlah data yang menjadi anggota cluster ke-i
Sedangkan pengalokasian data ke masing-masing cluster yang dilakukan
pada Step 4. dilakukan secara penuh, dimana nilai yang memungkinkan untuk a_ik
adalah 0 atau 1. Nilai 1 untuk data yang dialokasikan ke cluster dan nilai 0 untuk
data yang dialokasikan ke cluster yang lain. Dalam menentukan apakah suatu data
teralokasikan ke suatu cluster atau tidak, dapat dilakukan dengan menghitung jarak
data tersebut ke masing-masing centroid/rata-rata masing-masing cluster. Dalam hal

19

ini, a_ik akan bernilai 1 untuk cluster yang centroidnya terdekat dengan data
tersebut, dan bernilai 0 untuk yang lainnya.
2.4.1. Cluster Validity Criterion
Untuk menentukan jumlah cluster yang paling tepat, saat menggunakan metode kmeans dapat dilakukan dengan beberapa cara. Salah satunya adalah dengan cara
manual yang saya jelaskan dalam posting saya tentang Akurasi Hasil Pemodelan KMeans yang sering juga direfer sebagai Bootstrapped Method. Selain itu ada beberapa
cara yang lain yang juga bisa digunakan seperti di bawah ini.
2.4.2. Elbow Criterion (RMSSDT dan RS)
Elbow criterion adalah salah satu cara untuk menentukan jumlah cluster yang paling
tepat

untuk

pemodelan

k-means.

Elbow

criterion

untuk

k-means

ini

mengkombinasikan antara nilai RMSSTD dan RS statistics, dimana cluster yang
paling tepat untuk suatu dataset ditentukan apabila perbedaan nilai antara RMSSTD
dan RS menjadi berbanding terbalik dengan keadaan sebelumnya.
RMSSTD (Root Means Square Standard Deviation) merupakan alat ukur tingkat
kemiripan (homogeneity) data yang terdapat di dalam cluster yang ditemukan (within
clusters). Makin rendah nilai RMSSTD makin mirip data di dalam cluster yang
ditemukan. RMSSDT dihitung menggunakan rumus sebagai berikut:
RMSSTD = SQRT (SUM(i=1 to k) SUM(j=1 to d) (SUM(k=1 to N_i) ((x_kj –
mu_j)^2)) / SUM(i=1 to k) SUM(j=1 to d) (N_i – 1))
RS (R Squared) digunakan untuk mengukur tingkat kesamaan atau
ketidaksamaan antara cluster (between clusters). RS mempunyai nilai antara 0 dan 1.
Nilai 0 untuk cluster yang sama dan 1 untuk cluster yang benar-benar berbeda. RS
dihitung dengan rumus:
RS = (SS_t – SS_w) / SS_t
SS_t = SUM(j=1 to d) (SUM(k=1 to N) ((x_kj – mu_j)^2) dan
SS_w = SUM(i=1 to k) SUM(j=1 to d) (SUM(k=1 to N_i) ((x_kj – mu_j)^2))
Notasi:
x_kj : data ke-k yang ada di dalam cluster untuk dimensi ke-j

20

mu_j : means/rata-rata nilai dari variabel dimensi ke-j
N_i : jumlah data di dalam cluster ke-i
N : jumlah data keseluruhan
d : jumlah dimensi dari data
k : jumlah cluster
Elbow criterion adalah suatu modelling criterion yang bisa digunakan untuk
menentukan jumlah cluster dengan melihat perubahan perbandingan antara nilai
RMSSTD dan RS. Hal ini dilihat dengan membandingkan persentase tingkat
perubahan kedua nilai (RMSSTD dan RS). Apabila muncul suatu keadaan yang
berbanding terbalik dengan keadaan sebelumnya, maka titik sebelum terjadinya
perubahan tersebut dianggap sebagai jumlah cluster yang paling tepat.

2.5.CART (Classification and Regression Trees)
CART (Classification and Regression Trees) adalah salah satu metode atau algoritma
dari salah satu teknik eksplorasi data yaitu teknik pohon keputusan. Metode ini
dikembangkan oleh Leo Breiman, Jerome H. Friedman, Richard A. Olshen dan
Charles J. Stone sekitar tahun 1980-an. CART merupakan metodologi statistik
nonparametrik yang dikembangkan untuk topik analisis klasifikasi, baik untuk
peubah respon kategorik maupun kontinu (Breiman et al. 1993). CART menghasilkan
suatu pohon klasifikasi jika peubah responnya kategorik, dan
menghasilkan pohon regresi jika peubah responnya kontinu. Tujuan utama CART
adalah untuk mendapatkan suatu kelompok data yang akurat sebagai penciri dari
suatu pengklasifikasian. Bentuk dari CHART adalah seperti berikut ini :

21

Gambar 2.7. Diagram CART
Pada Gambar 2.7 di atas A, B dan C merupakan peubah penjelas yang terpilih
untuk menjadi simpul. A merupakan simpul induk, sementara B dan C merupakan
simpul anak dimana C juga merupakan simpul akhir yang tidak bercabang lagi.
Sementara α dan β merupakan suatu nilai yang merupakan nilai tengah antara dua
nilai amatan peubah xj secara berurutan. Diagram yang dihasilkan oleh CART ini
merupakan suatu model, biasanya diinterpretasikan ke dalam suatu tabel untuk
penjelasannya. Hal ini berbeda dengan regresi konvensional dimana model regresi
dapat dituliskan menjadi model matematik atau persamaan regresinya.
Pembangunan pohon dilakukan melalui penyekatan gugus data dengan
sederetan penyekat biner sampai dihasilkan simpul akhir. Tahapannya adalah sebagai
berikut:
1. Tentukan semua kemungkinan penyekatan pada tiap peubah penjelas. Tiap
penyekatan ini bergantung pada nilai yang berasal dari satu peubah penjelas.
Untuk peubah kontinu xj, penyekatan yang diperbolehkan adalah xj ≤ c dan xj ≥ c,
dimana c adalah nilai tengah antara dua nilai amatan peubah xj secara berurutan.

22

Jadi jika xj mempunyai sebanyak n nilai yang berbeda maka akan ada n-1
penyekatan.
2. Untuk peubah kategorik, penyekatan yang terjadi berasal dari semua kemungkinan
penyekatan berdasarkan terbentuknya dua anak gugus yang saling lepas (disjoint).
Jika xj peubah kategorik nominal dengan L kategori, maka akan ada 2L-1 – 1
penyekatan, sedangkan jika xj adalah peubah kategorik ordinal maka akan ada L –
1 penyekatan.
3. Hitung kehomogenan simpul berdasarkan jumlah kuadrat dalam simpul, JKS(t),
dimana jumlah kuadrat sisaan pada simpul t dinyatakan sebagai:

dimana yi(t) = nilai individu peubah respon pada simpul ke-t dan (t ) y = nilai
tengah peubah respon pada simpul ke-t. Nt adalah jumlah data yang ada pada
simpul ke-t.
4. Lakukan untuk semua peubah penjelas sehingga didapat peubah sebagai penyekat
terbaik dimana kehomogenannya maksimum. Misalkan ada penyekatan s yang
menyekat t menjadi simpul anak kiri tL dan simpul anak kanan tR, fungsi
penyekatan yang digunakan adalah:
dan penyekat terbaik
dengan Ω

adalah gugus yang berisi semua

kemungkinan penyekatan.
5. Jika simpul induk telah didapat, maka simpul anak kiri dan kanan dibuat dengan
cara yang sama untuk semua peubah penjelas berdasarkan data yang sudah
dikelompokkan oleh simpul induk.
6. Pembentukan pohon dilakukan sampai dipenuhi suatu aturan penghentian tertentu.
Dalam kasus ini aturan yang digunakan adalah jika jumlah amatan dalam simpul
hanya mencapai 1 amatan atau mencapai nilai fungsi penyekatan Ф tertentu.

23

7. Pemangkasan pohon dilakukan untuk mendapatkan pohon akhir yang lebih
sederhana. Pemangkasan pohon dilakukan dengan cross-validation atau sampel tes
terpisah untuk mengukur keterandalan pohon. Metode pemangkasan pohon dengan
training sample 50% dipilih sebagai metode pemangkasan karena ukuran sampel
yang besar, sehingga memungkinkan untuk membagi sampel tadi menjadi
subsampel training sample dan testing sample masingmasing 50% dari seluruh
data yang ada. Proses pemangkasan pohon yang terjadi adalah dengan membangun
pohon menggunakan training sample kemudian menggunakan pohon yang
terbentuk tadi untuk subsampel testing sample. Dalam hal ini metode kuadrat
terkecil menggunakan kuadrat tengah galat (KTG) untuk mengukur ketelitian
dugaan. Pohon optimal adalah pohon dengan nilai KTG terkecil.
8. Dari pohon optimal yang terpilih, untuk setiap subpohon, CART menghitung
ringkasan statistiknya dari simpul-simpul terakhir. Pada metode kuadrat terkecil
untuk aturan penyekatan, maka hitung rataan dan standar deviasi dari pubah
respon. Nilai rataan dari simpul akhir merupakan nilai dugaan dari peubah respon
pada kasus simpul akhir tersebut.
Metode

CART

menghasilkan

model

yang

sederhana

dan

mudah

untuk

diinterpretasikan. Model yang dihasilkan berupa pohon regresi dengan peubahpeubah yang berpengaruh sebagai penciri menjadi simpul-simpulnya. Peubah yang
paling berpengaruh akan menjadi simpul pertama yang dihasilkan. Masalah pencilan
data dapat diselesaikan dengan cara yang sederhana oleh metode CART. Pencilan
akan diisolasi ke dalam simpul tertentu sehingga tidak mempengaruhi penyekatan.
CART dapat melakukan eksplorasi data untuk penyusunan model regresi yang
melibatkan banyak peubah dengan ukuran besar dan kompleks. Eksplorasi data ini
dapat dilakukan dengan lebih mudah untuk melihat hubungan antara peubah respon
kontinu dengan peubah-peubah penjelasnya. Kekomplekan tersebut dapat berupa
dimensinya yang besar atau jenis peubahnya campuran, misalnya kontinu dan
kategorik, baik nominal maupun ordinal. Metode CART ini dapat menjadi satu
alternatif

jika

beberapa

asumsi

seperti

kenormalan,

multikolinieritas

dan

24

heterokedastisitas untuk model regresi tidak dipenuhi oleh beberapa peubahpeubanhnya.
2.6.Paket Statistik untuk Ilmu Sosial
SPSS adalah program komputer yang dipakai untuk analisis statistika (Wikipedia,
2012), SPSS banyak digunakan dalam berbagai riset pemasaran, pengendalian dan
perbaikan mutu (quality improvement), serta riset-riset sains. SPSS pertama kali
muncul dengan versi PC (bisa dipakai untuk komputer desktop) dengan nama
SPSS/PC+ (versi DOS). Tetapi, dengan mulai populernya system operasi windows.
SPSS mulai mengeluarkan versi windows (mulai dari versi 6.0 sampai versi terbaru
sekarang). SPSS (Statistical Package for the Social Sciences) dianggap timer (alat
pengukur waktu) tertua di bidang data mining (Programming and Data Management
for IBM SPSS Statistics 20: A Guide for IBM SPSS Statistics and SAS Users,2011).
Ini awalnya dirancang untuk digunakan oleh ilmuwan sosial untuk menganalisis data
dari survei. SPPS mengizinkan pengguna untuk menarik data dan menampilkan
operasi analisis statistik yang rumit, seperti komputasi regresi dan menampilkan
presentasi data grafis. Ini juga menggunakan inferensial yang rumit dan prosedur
statistik yang multi variasi, seperti analisis varians (ANOVA),

analisis faktor,

analisis kluster,dan analisis data katerogikal. SPSS terutama sekali sangat cocok
digunakan untuk survei penelitian.
SPPS 18.0 digunakan pada studi ini untuk menampilkan analisis regresi pada
data set kedua yang dijelaskan pada Tabel 3.2 Keduanya merupakan langkah yang
bijak dan penuh model regresi yang dijalankan untuk menentukan model yang terbaik
yang sesuai dengan data.
2.7.Komunitas Rapidminer
Rapidminer dahulu YALE ini adalah permulaan yang bebas dan terbuka untuk KDD
dan ML, yang menyediakan beraneka ragam metode yang mengizinkan bentuk dasar

25

dari aplikasi baru (Mierswa et all., 2006 ). Rapidminer (dahulunya YALE ) dan
propagandanya membuktikan lebih dari 400 operator dari segala aspek data mining.
Operator meta secara otomatis mengoptimalkan desain eksperimen dan pengguna
tidak memerlukan waktu yang panjang untuk menentukan langkah dan parameter
yang lebih panjang. Sejumlah besar teknik visualisasi dan kemungkinan untuk
meletakkan breakpoints setelah masing masing operator memberikan pandangan
tentang

keberhasilan

desain

anda-

bahkan

untuk

menjalankan

percobaan

(http://www.rapidminer.com )
Rapidminer 5.0 digunakan pada studi ini untuk menampilkan kelompok siswa
pada kumpulan data dan memperlihatkan matriks presentasi yang tersebar dari
kelompok data.

2.8.Malcolm Baldrige National Quality Award (MBNQA)
Malcolm Baldrige National Quality Award (MBNQA)

atau yang biasa disebut

Baldrige Award atau Baldrige Criteria adalah suatu sistem manajemen kualitas yang
pada awalnya berlaku di Amerika Serikat yang bertujuan untuk mengukur komitmen
terhadap kinerja suatu organisasi, dan memberikan kerangka kerja untuk
memperbaiki dan menyempurnakan kinerja tersebut (Criteria for Performance
Excellence). Penghargaan ini disahkan dengan ditandatanganinya Malcolm Baldrige
National Quality Imporvement Act oleh Presiden Ronald Reagen pada tanggal 20
Agustus 1987.
Pada mulanya penghargaan ini muncul karena pemerintah Amerika Serikat
pada saat itu menggalakkan kebutuhan akan perbaikan atau penyempurnaan kualitas
dalam kaitannya dengan persaingan bisnis di Amerika dan pasar luar negeri terutama
Jepang.
Nama Malcolm Baldrige berasal dari nama Menteri Perdagangan Amerika
yang menjabat dari tahun 1981 sampai meninggalnya beliau pada tahun 1987 karena
kecelakaan. Dedikasinya yang tinggi terhadap perbaikan untuk dunia perdagangan di

26

Amerika membuat nama beliau dijadikan symbol untuk penghargaan ini. Sampai saat
ini Departemen Perdagangan Amerika Serikat bertanggung jawab atas pemberian
penghargaan ini, dan memberikan tugas kepada National Institute of Standard and
Technology (NIST) untuk mengelola program dan administrasi pemberian
penghargaan ini

berdasarkan Public Law 100-107 serta dibantu oleh American

Society for Quality Control (ASQC).
Tujuan dari pemberian penghargaan ini adalah untuk mempromosikan :
-

Kesadaran akan pentingnya kualitas manajemen dan dampaknya terhadap
persaingan.

-

Pemahaman akan persayaratan-persayaratan untuk kesempurnaan dalam
kualitas (Excellence in Quality)

Foundation of MBNQA

Cooperating
Organization:
- Professional Society
- Trade Asscosiation
- State and Local
Network

Department of Commerce

National Institute of
Standard and Technology

Board of Overseers

Board of Examiners:

Contractor:
American Society for

-

Judges
Senior Examiners
Examiners

Quality Control

Gambar 2.8. Struktur Administrasi MBNQA
Saling berbagi informasi mengenai berbagai strategi sukses dan keuntungankeuntungan yang didapatkan. Malcolm Baldrige memberikan suatu perspektif sistem
untuk pengelolaan organisasi dan proses-proses kunci menuju keunggulan kinerja.
Tujuh kategori dan sebelas inti Malcolm Baldrige merupakan mekanisme untuk
membangun dan mengintegrasikan kriteria-kriteria dalam mengembangkan sistem

27

organisasi bisnis yang ungg
unggul. Perspektif sistem berarti memandang dan
da mengelola
organisasi secara keselu
eluruhan, dengan mengintegrasikan komponen-kom
n-komponennya,
menuju keunggulan kine
kinerja. Sistem kinerja MBCfPE ini ditunjukkan
an pada gambar
berikut:

Ga
Gambar 2.9. Kerangka Kerja MBCfPE
Gambar 2.9

me
ge disusun oleh
menunjukkan bahwa sistem Malcolm Baldrige

oses-proses dan
tujuh kategori dalam ba
bagan inti yang mendefinisikan organisasi, pros
hasil-hasil.
- Kepemimpinan (Kat
ategori 1), Perencanaan Strategis (Kategori 2) dan Fokus Pasar
dan Pelanggan (K
(Kategori 3) merepresentasikan atau mewak
wakili tritunggal
kepemimpinan. Ka
Kategori ini ditempatkan bersama untuk mene
enekankan dan

28

menjadi landasan tentang pentingnya suatu kepemimpinan berfokus pada strategi
dan pelanggan.
- Fokus Sumber Daya Manusia (Kategori 5), Manajemen Proses (Kategori 6) dan
Hasil-hasil (Kategori 7) mewakili tritunggal Hasil. Karyawan perusahaan dan
proses-proses kunci menyelesaikan pekerjaan dari organisasi yang menghasilkan
keunggulan kinerja hasil-hasil.
- Garis anak panah horizontal dalam bagan inti Malcolm Baldrige (lihat gambar)
mengaitkan tritunggal Kepemimpinan ke Tritunggal Hasil, yang merupakan
suatu keterkaitan untuk keunggulan organisasi bisnis.
- Lebih lanjut, anak panah menunjukkan hubungan utama diantara Kepemimpinan
(Kategori 1) dan Hasil-hasil (Kategori 7). Anak panah dua arah menunjukkan
pentingnya umpan balik dalam suatu sistem manajemen kinerja yang efektif,
- Pengukuran, Analisis dan Manajemen Pengetahuan (Kategori 4) adalah penting
terhadap efektifitas manajemen dari organisasi dan terhadap sistem (manajemen
pengetahuan) berdasarkan fakta (pengukuran dan analisis) untuk peningkatan
kinerja dan daya saing. Pengukuran dan analisis berguna sebagai suatu landasan
untuk sistem manajemen kinerja dari organisasi bisnis itu (manajemen
pengetahuan).
2.9.Penelitian yang Relevan
Analisis performansi merupakan salah satu hal yang penting dalam mengukur hasil
kerja suatu organisasi atau perusahaan. Pembahasan ini terus berkembang dan data
mining merupakan salah satu metode yang paling populer dan handal. Penelitian
tentang analisis performansi telah banyak dilakukan di berbagai bidang dan berbagai
metode. Ada banyak hal yang dapat diteliti pada bidang ini, karena terdapat banyak
data yang berpotensial untuk ditambang. Data mining dapat diterapkan dalam

29

menganalisis performansi akademis mahasiswa dengan menghubungkan beberapa
faktor menggunakan metode Decision tree (Adeye dan Kuya, 2006). Bahkan ada
penelitian yang membahas prediksi beberapa faktor yang menyebabkan mahasiswa
melakukan Drop Out dengan metode yang sama (Quadri & Kalyankar, 2010). Selain
di bidang pendidikan, analisis performansi juga dapat diimplementasikan pada suatu
organisasi atau perusahaan seperti analisis performansi pada perusahaan komputer
terkemuka di Jepang yakni Fujitsu (Yaginuma, 2000). Analisis yang dilakukannya
dengan kombinasi algoritma neural network dan decision tree. Adapun manfaat dari
penelitian diatas diharapkan dapat membantu para peneliti dalam melakukan analisis
performansi dengan algoritma dcision tree
Penelitian analisis performansi dengan algortima decision tree khususnya
algoritma pohon klasifikasi dan regresi (CART) telah banyak dilakukan. Penelitian
terhadap penerapan data mining dengan menggunakan metode CART untuk
menjelaskan prinsip-prinsip dasar pohon konstruksi (Timofeev dan Roman, 2004).
Ada juga yang menggunakan metode yang sama sebagai metode alternatif dalam
regresi yang melibatkan peubah yang banyak dan kompleks, yang lebih efektif jika
dibandingkan dengan regresi konvensional (Komalasari dan Wieta B, 2007). Adapun
manfaat dari penelitian diatas diharapkan dapat membantu para peneliti bagaimana
mengeksplorasi data yang kompleks berdasarkan hasil metode pohon regresi.
Selain penelitian diatas, ada banyak penelitian lain yang menggunakan teknik
data mining dalam menganalisis performansi suatu organisasi/ perusahaan.
Perbandingan terhadap penelitian yang pernah dilakukan dapat dilihat pada tabel 2.1

30

Tabel 2.1. Tabel Perbandingan Penelitian yang Relevan
Peneliti

Topik

Adeyemo dan Kuye

Performasi Kegiatan
Akademis
Mahasiswa pada
University of
Ibadan Nigeria

Quadri M, N. &
Kalyankar Dr. N. V

Teknik pengambilan
keputusan Drop Out
pada mahasiswa

Yoginuma Y

Analisis
Performansi
perusahaan Fujitsu

Bidgoli et al

Prediksi
performansi
mahasiswa

Tahun

2006

2010

2000

2003

Algoritma

Kelebihan

CART

Selain membentuk
pohon
keputuan,
juga menganalisis
keterhubungan pada
banyak variabel

Aplikasi
digunakan
open
(DTREG)

C.45

Penelitian berbasis
pada
cara
pengambilan
keputusan dengan
teknik data mining

Tidak sesuai untuk
menghubugkan
variabel yang ada

NNs

Data
digunakan
kompleks

Variabel data yang
digunakan
tidak
serupa
dengan
variabel peneliti

LON-CAPA

yang
cukup

Metode
yang
digunakan berbasis
web

Kekurangan
yang
tidak
source

Metode
yang
digunakan
merupakan
komplikasi
dari
beberapa
metode
sehingga tidak bisa
diterapkan
pada
peneliti lain