7
BAB II TINJAUAN PUSTAKA DAN KERANGKA BERFIKIR
A. Tinjaun Pustaka
1. Penilaian dalam Pembelajaran
Penilaian dan pembelajaran merupakan dua kesatuan yang tak terpisahkan. Oleh karena itu, penilaian menjadi bagian yang sangat penting untuk
merefleksi input maupun output dalam pembelajaran suatu sekolah. Penilaian pembelajaran di sekolah meliputi banyak segi yang secara garis besar dapat dilihat
dari calon siswa, lulusan dan proses pendidikan secara menyeluruh Hayat 2006. Lebih lanjut Hayat 2006 menjelaskan bahwa, pembelajaran dan penilaian
merupakan sebuah siklus, dimana keberadaan suatu aspek akan mempengaruhi aspek yang lainnya. Pembelajaran yang dilakukan akan tercermin dalam penilaian
yang merupakan bagian dari proses evaluasi yang dilakukan. Proses pembelajaran yang baik akan menghasilkan penilaian yang baik pula.
Pada dasarnya upaya peningkatan kualitas pendidikan memerlukan upaya peningkatan pembelajaran, karena muara dari berbagai program pendidikan
adalah pada terlaksananya program pembelajaran yang berkualitas. Upaya peningkatan program pembelajaran memerlukan informasi hasil evaluasi
program-program pembelajaran sebelumnya. Untuk dapat menyusun program pembelajaran yang lebih baik, evaluasi program pembelajaran sebelumnya
merupakan acuan yang tidak dapat ditinggalkan. Hasil dari evaluasi program pembelajaran akan memberikan informasi secara optimal untuk perbaikan
program pembelajaran. Menurut Widoyoko 2010, evaluasi terhadap program pembelajaran yang disusun dan dilaksanakan guru sebaiknya menjangkau
penilaian terhadap: 1 Desain pembelajaran yang meliputi kompetensi yang dikembangkan, strategi pembelajaran yang dipilih dan isi program, 2
Implementasi program pembelajaran atau kualitas pembelajaran, serta 3 Hasil program pembelajaran.
2. Pentingnya Penilaian Kualitas Soal
Penilaian adalah suatu proses pengumpulan, dan penafsiran informasi secara sistematik untuk menentukan seberapa jauh tujuan telah tercapai
Mustaqimah 2002, dalam Muna 2006. Menilai dapat dilakukan dari banyak segi, salah satunya adalah dari segi hasil belajar siswa. Alat ukur hasil belajar siswa
dapat berupa soal. Dalam hal ini, soal tersebut harus valid dan realibel, untuk itu perlu adanya analisis soal tes.
Tujuan penilaian menurut Hamalik 2003 tidak hanya memberikan dasar pemberian angka atau skor atas hasil belajar siswa. Program penilaian hasil
belajar siswa bertujuan untuk: a.
Memberikan informasi tentang kemajuan siswa dalam rangka mencapai tujuan belajar sehubungan dengan kegiatan yang telah dilakukannya.
b. Memberikan informasi yang dapat digunakan untuk membina kegiatan belajar
lebih lanjut baik terhadap individu siswa maupun terhadap kelompok. c.
Memberikan informasi yang dapat digunakan oleh guru dan siswa untuk mengetahui tingkat kemampuan siswa, menetapkan kesulitannya dan untuk
menetapkan kegiatan remedial. d.
Mendorong motivasi belajar siswa dengan cara mengenal kemajuan sendiri dan merangsangnya untuk melakukan usaha perbaikan.
e. Memberikan informasi tentang semua aspek kemajuan siswa, dan pada
gilirannya setiap guru dapat membantu pertumbuhannya secara efektif menjadi anggota masyarakat dan pribadi yang bulat.
f. Memberikan bimbingan yang tepat untuk memilih sekolah atau jabatan yang
sesuai dengan kecakapan, minat dan kesanggupannya. Sistem penilaian yang baik akan mendorong peningkatan kualitas
pembelajaran. Tenaga pendidik harus benar-benar memahami sistem penilaian yang akan digunakan untuk menilai hasil belajar peserta didik agar dapat
menggambarkan kemampuan peserta didik yang telah dicapai. Kualitas pembelajaran yang baik, selain didukung oleh tenaga pendidik yang berkualitas
juga didukung oleh penilaian pembelajaran yang berkualitas pula Miller Davidson 2006.
Evaluasi merupakan bagian yang terpenting dalam pembelajaran, yang dilakukan oleh seorang guru untuk mengetahui tingkat pengetahuan awal,
kecakapan siswa dan program pengajaran. Evalusi ini dapat dilakukan awal pembelajaran untuk mengetahui sejauh mana tingkat pengetahuan siswa, dan
evaluasi akhir dari proses pembelajaran, yaitu untuk mendapat gambaran kecakapan penyerapan dari suatu penyajian yang telah dilaksanakan dari akhir
pelajaran. Evaluasi yang diberikan pada siswa bukan hanya sekedar pelengkap dari proses pembelajaran, akan tetapi merupakan suatu pengukuran dari suatu
proses yang harus dipersiapkan oleh guru sebelum pembelajaran berlangsung, dan evaluasi yang diberikan kepada siswa tidak terlepas dari pengembangan
kompetensi dasar yang dijabarkan dalam bentuk indikator-indikator Yamin 2007. Guru melakukan penilaian berdasarkan pada indikator yang dikembangan
dari kemampuan dasar sesuai materi pembelajaran yang diajarkan. Berdasarkan keterangan diatas, setelah materi pembelajaran disiapkan
guru hendaknya segera membuat soal yang berhubungan dengan isi pelajaran yang telah diajarkan. Soal-soal tersebut tidak boleh melenceng dari indikator yang
telah ditetapkan. Guru harus memikirkan butir-butir soal dari indikator-indikator tersebut. Soal-soal tersebut diacak sebelum diberikan kepada siswa. Soal tersebut
akan menjadi alat ukur atau evaluasi belajar dari materi pembelajaran setelah dipelajari.
Menurut Dasna 2009, try out sebagai salah satu upaya mengukur kemampuan siswa sudah ada pada jalur yang tepat karena kegiatan itu dapat
memberikan gambaran tentang kompetensi yang telah dicapaidikuasai oleh siswa, dan memberikan pengalaman kepada siswa mengerjakan tes sebagaimana yang
akan dilakukan pada UN. Bila try out yang dilakukan menggunakan soal-soal model UN maka hasil yang diperoleh akan menjadi bahan perenungan bagi siswa
dan sekolah untuk optimalisasi upaya dan usaha agar mencapai hasil yang optimal pada saatnya.
UN merupakan salah satu cara untuk mengetahui sejauh mana tujuan yang telah tercapai dalam pembelajaran. Hasilnya akan menggambarkan apakah
siswa akan lulus ataukah harus mengulang pada tahun berikutnya. Peraturan
Menteri Pendidikan Nasional RI No 46 tahun 2010 menerangkan bahwa mata pelajaran yang diikut sertakan dalam UN Tahun 20102011 meliputi Bahasa
Indonesia, Matematika, Bahasa Inggris, dan IPA. 3.
Alat Penilaian Alat penilaian terdiri dari dua bentuk, yaitu tes maupun non tes Arikunto
2002: a.
Non tes, yaitu alat penilaian yang digunakan untuk mendapatkan informasi dari sumber. Yang tergolong dalam bentuk non tes adalah sebagai berikut:
1. Skala bertingkat rating scale
Skala menggambarkan suatu nilai yang berbentuk angka terhadap suatu hasil pertimbangan.
2. Kuesioner
Kuesioner juga sering dikenal sebagai angket. Kuesioner adalah daftar pertanyaan yang harus diisi oleh orang yang akan diukur.
3. Daftar yang cocok chek list
Daftar yang cocok adalah deretan pertanyaan dimana responden yang dievaluasi membutuhkan tanda cocok
√ ditempat yang sudah disediakan. 4.
Wawancara Wawancara adalah suatu metode atau cara yang digunakan untuk
mendapatkan jawaban dari responden dengan tanya-jawab sepihak. Dikatakan sepihak karena dalam wawancara ini responden tidak diberi
kesempatan sama sekali untuk mengajukan pertanyaan. Pertanyaan hanya diajukan oleh obyek evaluasi.
5. Pengamatan observation
Pengamatan adalah suatu teknik yang dilakukan dengan cara mengadakan pengamatan secara teliti serta pengamatan secara sistematis.
6. Riwayat hidup
Riwayat hidup adalah gambaran tentang keadaan seseorang selama dalam masa kehidupannya. Dengan mempelajari riwayat hidup. Maka subyek
evaluasi akan dapat menarik suatu kesimpulan. Tentang kepribadian, kebiasaan, dan sifat dari obyek yang dinilai.
b. Tehnik Tes
1 Pengertian tes
Adanya perbedaan individual akan menentukan berhasil tidaknya suatu individu dalam menjalankan tugas dan kewajibannya. Dalam hal ini
berakibat pula akan adanya prestasi kerja maupun belajar. Senada dengan adanya perbedaan individu itu, maka perlu diciptakan alat untuk
mendiagnosis atau mengukur keadaan individu, dan alat ukur tersebut adalah tes.
Secara harfiah kata “tes” berasal dari bahasa perancis kuno yaitu “testum” yang berarti piring untuk menyisihkan logam-logam mulia
{maksudnya adalah dengan menggunakan piring logam akan diperoleh jenis-jenis logam mulia yang nilanya sangat tinggi Sudijono 1995}.
Menurut Arikunto 2002 tes merupakan alat atau prosedur yang digunakan untuk mengetahui atau mengukur sesuatu dalam suasana tertentu. Dalam hal
ini mengunakan cara-cara dan aturan-aturan yang sudah ditentukan. Sedangkan pengertian tes menurut Thoha 1996 sebagai alat pengukuran
berupa pertanyaan, perintah dan petunjuk yang ditujukan kepada testee untuk mendapatkan respon yang sesuai dengan petunjuk tersebut. Selain itu,
menurut Daryanto 2001 tes juga diartikan sebagai serentetan pertanyaan atau latihan yang digunakan untuk mengukur tingkat pengetahuan
intelegensi dan kemampuan atau bakat yang dimilki oleh individu atau kelompok.
Terdapat beberapa istilah yang memerlukan penjelasan sehubungan dengan uraian diatas yaitu testing. testee, dan tester. Testing berarti waktu
saat dilakukannya tes atau peristiwa saat berlangsungnya penalaian dan pengukuran. Testee merupakan responden yang sedang mengerjakan tes.
Sedangkan tester merupakan orang disertai untuk melaksanakan pengambilan tes terhadap para responden.
2 Macam tes
Banyak cara yang dilakukan untuk mengukur prestasi belajar siswa jika ditinjau dari penyiapan alat tes yang digunakan. Oleh sebab itu, pengukuran
tes prestasi belajar dapat dibagi mejadi 2 tipe yitu: a
Pengukuran yang mengunakan tes buatan guru Bentuk tes yang dibuat oleh guru bisa sangat bervariasi misalnya
tes tertulis, tes lisan, tes kinerja dan sikap. Pengukurannya lebih menekankan untuk mendapatkan informasi proses pembelajaran siswa
dari hari ke hari. Tes buatan guru didasarkan pada isi dan tujuan khusus untuk kelas atau sekolah ditempat guru itu mengajar. Dalam hal ini
dikembangkan oleh guru dengan sedikit ataupun tanpa bantuan dari luar. Selain itu biasanya menggunakan item-item soal yang belum pernah di
try-out kan, dianalisis atau direvisi sebelum menjadi bagian dari tes
tersebut. b
Pengukuran yang menggunkan tes standar Menurut Lababa 2008 tes standar adalah tes dimana soal-soalnya
sudah mengalami proses analisis baik secara kualitatif maupun secara kuantitatif. Langkah-langkah yang harus dilakukan untuk membuat tes
standar adalah 1 menentukan tujuan tes, 2 menentukan acuan yang akan dipakai oleh tes kriteria atau norma, 3 membuat kisi-kisi, 4 memilih
soal-soal dari kumpulan soal yang sudah sesuai dengan kisi-kisinya. Apabila soal yang diambil merupakan soal baru, maka soal-soal tersebut
harus melalui tahap telaah secara kualitatif, revisi, ujicoba, analisis hasil ujicoba sehingga diperoleh soal yang baik dari segi kualitatif maupun
kuantitatif. Pada tes standar, soal dan penskorannya harus lebih objektif dan
mudah dilakukan sehingga pada umumnya hanya menggunakan satu jenis penilaian saja yaitu tes tertulis, khususnya bentuk soal pilihan
ganda. Hal ini disebabkan tes standar digunakan untuk keperluan yang lebih luas dan umum, misalnya tes untuk bisa masuk ke jenjang
pendidikan berikutnya, tes untuk melihat daya serap siswa, tes pemantauan mutu siswa, dan sebagainya.
Bentuk tes standar telah mengalami standarisasi, yakni proses validasi dan reliabilitas, sehingga tes tersebut benar-benar valid dan
reliable untuk suatu tujuan dan bagi kelompok tertentu. Pada tes standar, soal dan penskorannya harus lebih objektif dan mudah dilakukan.
Dengan demikian, tes standar adalah tes dimana soal-soalnya sudah mengalami proses analisis baik secara kaulitatif maupun kuantitatif.
3 Fungsi tes
Menutur Hidayat 2008 secara umum ada dua macam fungsi tes yaitu:
a Sebagai alat pengukuran terhadap peserta didik. Dalam hal ini tes
berfungsi mengukur tingkat perkembangan atau kemajuan yang telah dicapai oleh peserta didik setelah mereka menempuh proses belajar
dalam jangka waktu tertentu. b
Sebagai alat pengukur keberhasilan program pengajaran. Sebab melalui tes tersebut akan dapat diketahui sudah seberapa jauh program
pengajaran yang telah ditentukan dapat dicapai. 4
Kualitas tes yang baik Tujuan utama analisis soal adalah untuk mendapatkan informasi
tentang karakteristik setiap butir soal, baik secara kualitatif maupun kuantitatif. Hasil suatu analisis soal dapat digunakan untuk mengetahui
apakah soal akan berfungsi dengan baik atau tidak. Pada dasarnya cara yang ditempuh dalam analisis soal adalah melalui
telaah analisis kualitatif dan analisis berdasarkan data hasil uji coba analisis kuantitatif yang meliputi validitas, reliabilitas, daya beda, tingkat
kesukaran dan efektifitas distraktor. Analisis secara kualitatif terhadap butir soal pada dasarnya adalah penelaahan butir soal ditinjau dari segi kaidah
penulisan soal yaitu 1 isi atau materi; 2 konstruksi; dan 3 bahasa. Soal yang baik harus memenuhi ketiga kaidah penulisan soal tersebut. Kaidah
penulisan soal menurut Umar 1996 antara lain:
a Soal sesuai dengan indikator.
b Harus memenuhi kaidah-kaidah penulisan soal, misalnya untuk soal
pilihan ganda, pokok soal juga memberikan petunjuk kearah yang benar; pilihan jawaban harus homogen dan logis.
c Soal menggunakan bahasa yang sesuai dengan kaidah bahasa Indonesia.
d Bahasa soal jelas dan komunikatif.
Analisis soal secara kualitatif dilakukan sebelum suatu soal diujikan. Analisis ini belum memberikan gambaran tentang karakteristik psikometri
soal. Oleh karena itu, untuk membuktikan bahwa soal-soal itu sudah baik perlu diuji cobakan terhadap sejumlah siswa. Jawaban siswa terhadap soal-
soal itu dijadikan dasar untuk analisis kuantitatif. Ada 2 macam karakteristik soal yang ditinjau dalam analisis kuantitatif yaitu tingkat
kesukaran dan daya beda. Tingkat kesukaran adalah proporsi jumlah peserta tes yang menjawab benar dengan jumlah peserta seluruhnya. Daya pembeda
adalah kemampuan suatu soal untuk membedakan antara siswa yang mampu dengan siswa yang kurang mampu.
4. Kriteria alat ukur
Suatu tes dapat dikatakan sebagai alat pengukur yang baik jika memenuhi kriteria berikut ini, antara lain:
a. Validitas
Valid sering diartikan sebagai kesahihan. Suatu alat ukur disebut valid bilamana alat ukur tersebut memiliki isi yang layak mengukur objek yang
harus diukur dan sesuai dengan kriteria tertentu. Dalam hal ini ada kesesuaian antara alat ukur dengan fungsi pengukuran dan sarana pengukuran.
Menurut Ridlo 2005, valid merupakan kualitas yang menunjukan hubungan antara suatu pengukuran dengan tujuan belajar. Sedangkan menurut
Supriyadi 2005 validitas tes mempunyai arti bahwa tes harus mengukur apa yang semestinya harus di ukur. Suatu instrument dikatakan valid apabila
mampu mengukur apa yang seharusnya diukur. Validitas dapat dibagi menjadi 4 macam yaitu validitas isi, validitas konstruksi, validitas ramalan dan validitas
“ada sekarang” Arikunto, 2002.
1 Validitas isi content validity
Sebuah tes dikatakan memiliki validitas isi jika mengukur tujuan khusus tertentu yang sejajar dengan materi atau isi pelajaran yang diberikan. Oleh
karena materi yang diajarkan tertera dalam kurikulum maka validitas isi ini sering disebut validitas kurikuler.
2 Validitas konstruksi construct validity
Sebuah tes dikatakan memiliki validitas konstruksi jika butir-butir soal tersebut mengukur setiap aspek berpikir seperti yang disebutkan dalam
tujuan instruksional khusus. 3
Validitas “ada sekarang” concurrent validity Validitas ini lebih umum dikenal dengan validitas empiris. Sebuah tes
dikatakan memiliki empiris jika hasilnya sesuai dengan pengalaman. Jika ada istilah “sesuai” tentu ada 2 hal yang dipasangkan. Dalam hal ini hasil
tes dipasangkan dengan hasil pengalaman. Pengalaman selalu mengenai hal yang telah lampau sehingga data pengalaman tersebut sekarang sudah
ada ada sekarang, concurrent. Dalam membandingkan hasil sebuah tes maka diperlukan suatu kriterium atau alat banding. Maka hasil tes
merupakan suatu yang dibandingkan. 4
Validitas prediksi predictive validity Memprediksi artinya meramal, dan meramal selalu mengenai hal yang
akan datang. Sebuah tes dikatakan memiliki validitas prediksi apabila mempunyai kemampuan untuk meramalkan apa yang akan terjadi pada
masa yang akan datang. b.
Reliabilitas Reliabel berarti dapat dipercaya. Reliabilitas keandalan adalah ketetapan
atau ketelitian suatu alat evaluasi. Suatu tes atau alat evaluasi dikatakan andal jika ia dapat dipercaya, konsisten atau stabil dan produktif Arifin 2009. Tes
reliabel dapat tidak valid, tetapi tes yang valid biasanya reliabel. Diantara hal yang mempengaruhi hasil tes adalah banyaknya soal dalam tes dan kualitas
butir soal. Semakin panjang tes biasanya makin relibel. Cara mencari reliabelitas antara lain:
1 Metode parallel equivalent
Tes paralel atau tes ekuivalen adalah dua buah tes yang mempunyai kesamaan tujuan, tingkat kesukaran, dan susunan, tetapi butir-butir soalnya
berbeda. Dalam menggunakan metode tes paralel ini pengetes harus menyiapkan dua buah tes, dan masing-masing dicobakan pada kelompok
siswa yang sama. 2
Metode tes ulang test-retest method Dalam menggunakan teknik atau metode ini pengetes hanya memiliki satu
seri tes tetapi dicobakan dua kali, kemudian hasil dari kedua kali tes tersebut dihitung korelasinya.
3 Metode belah dua split-half method
Dalam metode ini item atau butir soal dibelah menjadi dua. Ada dua cara membelah butir soal yaitu, membelah atas item-item genap dan item-item
ganjil yang selanjutnya disebut belahan ganjil-genap, dan membelah atas item-item awal dan item-item akhir yaitu separo jumlah pada nomor-nomor
awal dan separo pada nomor-nomor akhir yang selanjutnya disebut belahan awal-akhir.
Nilai dari reliabilitas diberi lambang r yang dapat dicari besarnya dengan menggunakan rumus K-R. 20 atau Spearman-Brown. Menurut Arikunto
2002 harga r yang diperoleh dikonsultasikan dengan r tabel product moment
dengan taraf signifikan 5. Jika harga r hitung r tabel, maka soal tersebut reliabel. Klasifikasi reliabilitas soal adalah sebagai berikut:
0,800 r ≤ 1,000 : sangat tinggi
0,600 r ≤ 0,800 : tinggi
0,400 r ≤ 0,600 : cukup
0,200 r ≤ 0,400 : rendah
0,000 r ≤ 0,200 : sangat rendah
c. Tingkat kesukaran
Soal yang baik adalah soal yang tidak terlalu mudah dan tidak terlalu sukar. Soal yang terlalu mudah tidak merangsang siswa untuk mempertinggi
usaha memecahkannya. Sebaliknya, soal yang terlalu sukar akan menyebabkan
siswa menjadi putus asa dan tidak mempunyai semangat untuk mencoba lagi karena diluar jangkauannya. Ada beberapa alasan untuk menyatakan tingkat
kesukaran soal. Bisa saja tingkat kesukaran soal ditentukan oleh kedalaman soal dan kompleksitas.
Dalam hal ini, bermutu tidaknya butir soal-soal tes hasil belajar dapat diketahui dari derajat kesukaran soal yang dimilki oleh masing-masing butir
soal tersebut. Butir-butir soal tes belajar dapat dikatakan sebagai butir soal yang baik, jika butir soal tersebut tidak terlalu mudah juga tidak terlalu sulit.
Dengan kata lain, taraf kesukaran soal tersebut adalah sedang cukup. Angka yang dapat memberi petunjuk mengenai tingkat kesukaran soal itu dikenal
dengan istilah “Difficulty indek”, dalam evaluasi belajar umumnya dilambangkan huruf P propotion. Besarnya tingkat kesukaran antara 0,00
sampai dengan 1,0. Menurut Arikunto 2002 klasifikasi indeks kesukaran adalah sebagai berikut:
Soal dengan P antara 0,00 sampai 0,30 adalah soal sukar Soal dengan P antara 0,30 sampai 0,70 adalah soal sedang
Soal dengan P antara 0,70 sampai 1,00 adalah soal mudah d.
Daya pembeda Menurut Arikunto 2002 Daya pembeda soal adalah kemampuan soal
untuk membedakan antara siswa yang pandai berkemampuan tinggi dengan siswa yang bodoh berkemampuan rendah. Angka yang menunjukan besarnya
daya pembeda disebut indeks diskriminasi D. Seperti halnya indeks kesukaran, indeks diskriminasi ini berkisar antara 0,00 sampai 1,00. Hanya
bedanya, indeks kesukaran tidak mengenal tanda negatif -, tetapi pada indeks diskriminasi ada tanda negatif. Tanda negatif pada indeks diskriminasi
digunakan jika sesuatu soal “terbalik” menunjukkan kualitas testee. Yaitu anak pandai disebut bodoh dan anak bodoh disebut pandai.
-1,00 0,00
1,00 daya pembeda daya pembeda
daya pembeda tinggi negatif
rendah positif
Dengan menggunakan program Iteman dapat menggambarkan tingkat kemampuan soal dalam membedakan antara peserta didik yang sudah
memahami materi yang diujikan dengan peserta didik yang belum atau tidak memahami materi yang diujikan. Menurut Arikunto 2007 klasifikasi daya
pembeda soal adalah sebagai berikut: D = 0,00 - 0,20 daya pembeda soal adalah jelek
D = 0,21 – 0,40 daya pembeda soal adalah cukup D = 0,41 – 0,70 daya pembeda soal adalah baik
D = 0,71 – 1,00 daya pembeda soal adalah baik sekali D = negatif daya pembeda soal adalah sangat jelek
e. Efektifitas distraktor
Option atau alternatif jawaban dalam soal jumlahnya berkisar antara 3 sampai 5 option. Selain itu juga terdapat kemungkinan satu jawaban benar dari
ke lima alternatif jawaban tersebut. Sedangkan sisanya merupakan jawaban yang salah. Jawaban yang salah itulah yang biasa dikenal dengan istilah
distraktor atau pengecoh. Menganalisis fungsi distraktor sering dikenal dengan istilah lain yaitu
menganalisis dengan pola penyebaran jawaban soal. Adapun yang dianalisis dengan pola penyebaran soal adalah suatu pola yang menggambarkan
bagaimana testee menentukan pilihan jawabannya terhadap kemungkinan jawaban yang telah dipasangkan pada setiap butir soal.
Menurut Daryanto 2001 yang dimaksud pola jawaban soal adalah distribusi peserta tes dalam hal menentukan jawaban pada soal bentuk pilihan
ganda. Dari pola jawaban soal dapat ditentukan apakah pengecoh distraktor dapat berfungsi sebagai pengecoh yang baik atau tidak. Pengecoh yang tidak
dipilih sama sekali oleh peserta tes, berarti pengecoh tersebut buruk. Sebaliknya, pengecoh dapat dikatakan baik jika pengecoh tersebut mempunyai
daya tarik yang besar bagi peserta tes yang kurang memahami konsep atau kurang menguasai bahan untuk dipilih sebagai jawaban soal. Suatu pengecoh
distraktor dapat dikatakan berfungsi baik jika paling sedikit dipilih 5 peserta tes.
5. Pengembangan Soal Higher Order of Thinking Skill HOTS
Higher Order of Thinking Skill HOTS atau keterampilan berfikir tinggi,
dibagi menjadi empat kelompok yaitu pemecahan masalah, membuat keputusan, berpikir kritis dan berpikir kreatif. Dalam pembentukan sistem konseptual IPA
proses berpikir tingkat tinggi yang biasa digunakan adalah berpikir kritis. Belajar berpikir kritis tidak langsung seperti belajar tentang materi, tetapi belajar
bagaimana cara berpikir kritis dalam penggunaanya untuk memecahkan masalah saling berkaitan satu sama lain. Keterampilan berpikir siswa dapat dilatihkan
melalui kegiatan dimana siswa diberikan suatu masalah dalam hal ini masalah berbentuk soal yang bervariasi Prayugo 2012.
Untuk mengembangkan soal HOTS, diperlukan pemahaman terlebih dahulu tentang HOTS dan cara mengembangkan soal HOTS.
a. Higher Order of Thinking Skill HOTS
Higher Order of Thinking Skill HOTS atau ketrampilan berfikir tingkat
tinggi dibagi menjadi empat kelompok yaitu pemecahan masalah, membuat keputusan, berfikir kritis dan berfikir kreatif.
Menurut Devi 2012 penilaian adalah proses pengumpulan dan pengolahan informasi. Dalam pendidikan, penilaian berarti proses
pengumpulan dan pengolahan informasi untuk menentukan pencapaian hasil belajar peserta didik. Untuk melaksanakan penilaian, guru memerlukan
instrumen penilaian dalam bentuk soal-soal, baik untuk menguji aspek kognitif, afektif, maupun psikomotor.
Instrumen penilaian yang digunakan guru untuk menguji hasil belajar peserta didik pada aspek kognitif biasanya diambil dari berbagai buku atau
kumpulan soal-soal ujian. Soal dapat berupa uraian atau pilihan ganda. Kenyataan di lapangan, soal-soal cenderung lebih banyak menguji aspek
ingatan. Banyak buku yang menyajikan materi dengan mengajak peserta didik belajar aktif, sajian konsep sangat sistematis, tetapi sering diakhiri soal evaluasi
yang kurang melatih keterampilan berpikir tingkat tinggi peserta didik. Peserta didik tingkat SMPMTs harus mulai dilatih berpikir tingkat tinggi sesuai
dengan usianya. Melatih peserta didik untuk terampil ini dapat dilakukan guru
dengan cara melatihkan soal-soal yang sifatnya mengajak siswa berpikir dalam level analisis, sintetis dan evaluasi.
Untuk menguji keterampilan berpikir peserta didik, soal-soal untuk menilai hasil belajar IPA dirancang sedemikian rupa sehingga peserta didik
menjawab soal melalui proses berpikir yang sesuai dengan kata kerja operasional dalam taksonomi Bloom, baik pada soal kognitif, afektif maupun
psikomotorik. Di dalam pembelajaran IPA dinyatakan bahwa IPA bukan hanya penguasaan kumpulan pengetahuan yang berupa fakta-fakta, konsep-konsep,
atau prinsip-prinsip saja tetapi juga merupakan suatu proses penemuan BSNP 2006, dalam Devi, berarti peserta didik harus selalu diajak untuk belajar IPA
menggunakan proses berpikir untuk menemukan konsep-konsep IPA. b.
Pengembangan soal HOTS Pengembangan soal HOTS memerlukan berbagai kriteria baik dari segi
bentuk soalnya maupun konten materi subyeknya. Teknik penulisan soal-soal HOTS baik yang berbentuk pilihan ganda atau uraian secara umum sama
dengan penulisan soal tingkat rendah, tetapi ada beberapa ciri yang membedakannya.
Ada beberapa cara yang dapat dijadikan pedoman oleh para penulis soal untuk menulis butir soal yang menuntut berpikir tingkat tinggi, yakni materi
yang akan ditanyakan diukur dengan perilaku sesuai dengan ranah kognitif Bloom pada level analisis, sintesis dan evaluasi, setiap pertanyaan diberikan
dasar pertanyaan stimulus dan soal mengukur kemampuan berpikir kritis. Agar butir soal yang ditulis dapat menuntut berpikir tingkat tinggi, maka
setiap butir soal selalu diberikan dasar pertanyaan stimulus yang berbentuk sumberbahan bacaan seperti: teks bacaan, paragrap, teks drama, penggalan
novelceritadongeng, puisi, kasus, gambar, grafik, foto, rumus, tabel, daftar katasymbol, contoh, peta, film, atau suara yang direkam.
Keterampilan-keterampilan di dalam HOTS di dalam taksonomi Bloom termasuk tiga level tertinggi yaitu analisis, sintesis dan evaluasi. Untuk peserta
didik tingkat menengah tidak semua keterampilan dapat dilatihkan melalui pemecahan soal-soal tetapi kita dapat memilih yang sesuai dengan tingkat
berpikir peserta didik SMPMTs dan mengkreasikan menjadi soal yang mendorong peserta didik berpikir.
6. Kaidah Penulisan Soal Pilihan Ganda
Menulis soal pilihan ganda sangat diperlukan ketelitian dan keterampilan. Hal yang paling sulit dilakukan dalam menulis soal dalam bentuk pilihan ganda
adalah menentukan pengecohnya. Pengecoh yang baik adalah pengecoh yang tingkat kerumitan atau tingkat kesederhanaan, serta panjang pendeknya relatif
sama dengan kunci jawaban. Oleh karena itu, untuk memudahkan dalam penulisan soal bentuk pilihan ganda, maka dalam penulisannya perlu mengikuti
langkah-langkah berikut, langkah pertama adalah menuliskan pokok soalnya, langkah kedua menuliskan kunci jawabannya, langkah ketiga menuliskan
pengecohnya BNSP 2010. Kaidah penulisan soal pilihan ganda menurut BNSP 2010 adalah
sebagai berikut: a.
Materi 1
Soal harus sesuai dengan indikator. 2
Pengecoh harus berfungsi. 3
Setiap soal harus mempunyai satu jawaban yang benar. b.
Konstruksi 1
Pokok soal harus dirumuskan dengan jelas dan tegas. 2
Rumusan pokok soal dan pilihan jawaban harus merupakan pernyataan yang diperlukan saja.
3 Pokok soal jangan memberi petunjuk ke arah jawaban yang benar.
4 Pokok soal jangan mengandung pernyataan yang bersifat negatif ganda.
5 Pilihan jawaban harus homogen dan logis ditinjau dari segi materi.
6 Panjang rumusan pilihan jawaban harus relatif sama.
7 Pilihan jawaban jangan mengandung pernyataan “Semua pilihan jawaban
di atas salah atau Semua pilihan jawaban di atas benar. 8
Pilihan jawaban yang berbentuk angka atau waktu harus disusun berdasarkan urutan besar kecilnya nilai angka atau kronologis.
9 Gambar, grafik, tabel, diagram, wacana, dan sejenisnya yang terdapat pada
soal harus jelas dan berfungsi. 10
Rumusan pokok soal tidak menggunakan ungkapan atau kata yang bermakna tidak pasti.
11 Butir soal jangan bergantung pada jawaban soal sebelumnya.
c. BahasaBudaya
1 Setiap soal harus menggunakan bahasa yang sesuai dengan kaidah bahasa
Indonesia. 2
Bahasa yang digunakan harus komunikatif, sehingga pernyataannya mudah dimengerti warga belajarpeserta didik.
3 Pilihan jawaban jangan yang mengulang katafrase yang bukan merupakan
satu kesatuan pengertian. Mengacu pada uraian diatas, jelas bahwa try out merupakan langkah awal
yang ikut memberi andil menentukan kesuksesan UN. Selain untuk meningkatkan menambah bekal siswa dalam menghadapi ujian nasional, dari try out tersebut
juga dapat mengetahui kesiapan siswa menghadapi UN. Penyusunan soal tentunya harus benar-benar diperhatikan, supaya dapat memberikan kontribusi yang baik
dalam mengukur kemampuan siswa. Berdasarkan kaidah penyusunan soal tersebut, diharapkan soal-soal yang disusun benar-benar mampu mengukur
kompetensi siswa serta dapat dijadikan bekal dalam menghadapi Ujian Nasional. Oleh karena itu, soal-soal UN, selain harus mengikuti kaidah penyusunan
soal, tentunya juga harus disusun oleh orang-orang yang memiliki kemampuan dalam menyusun soal, seperti unsur-unsur dosen dari perguruan tinggi, guru mata
pelajaran, anggota BSNP ahli-ahli di bidang psikometri, evaluasi pendidikan, kurikulum, dan manajemen pendidikan yang memiliki wawasan, pengalaman, dan
komitmen untuk peningkatan mutu pendidikan dan pakar penilai pendidikan. Dengan tujuan dapat meningkatkan kualitas pendidikan secara nasional dan dapat
mengetahui kemampuan para siswa secara nasional sesuai dengan mata pelajaran yang diujikan Andriani 2012. Mengacu pada pendapat bahwa kredibilitas
penafsiran peneliti lebih penting dari pada validitas Burns 1999. Berdasarkan pendapat tersebut, seorang peneliti bisa menganggap suatu soal valid karena soal
tersebut dikerjakan oleh orang-orang yang profesional. Kualitas soal tidak cukup dilihat dari segi validitasnnya saja, namun perlu dilihat dari segi reliabilitasnya.
Oleh karena itu, untuk mengetahui kualitas suatu soal, perlu diketahui validitas dan reliabilitasnya.
7. Program Iteman
Program Iteman dikembangkan oleh Assesment System Corporation mulai tahun 1982. Program ini dipergunakan untuk Hayat 1999:
a. Menganalisis data file format ASCII notepad melalui manual entri data.
b. Menskor dan menganalisis data soal berbentuk pilihan ganda untuk 30.000
siswa dan 250 butir soal. c.
Memberikan informasi tentang validitas butir dan reliabelitas tes. Item And Test Analysis
Iteman merupakan perangkat lunak yang dibuat melalui bahasa pemprograman komputer dan diciptakan khusus untuk analisis
statistik butir soal dan tes. Program ini dibuat dengan pendekatan analisis butir soal secara klasikal yang berguna untuk menentukan kualitas butir soal dan tes
berdasarkan data empiris hasil uji coba Hayat 1999. Analisis butir soal secara klasikal adalah proses penelaahan butir soal
melalui informasi dari jawaban peserta didik guna meningkatkan mutu butir soal yang bersangkutan dengan menggunakan teori tes klasik Dikmenum 2000.
Adapun yang termasuk teori tes modern antara lain adalah model Rasch, Bigspet dan SPSS. Digunakan program Iteman didasarkan pada prinsip kemudahan dan
kepraktisan jika dibandingkan dengan program modern. Hasil dari analisis soal mencakup informasi mengenai tingkat kesukaran
soal, daya pembeda soal, dan statistika sebaran jawaban. Selain menghasilkan statistik butir soal, juga menghasilkan statistik tes yang meliputi reliabilitas tes,
kesalahan pengukuran, dan distraktor skor. Program ini juga memberikan output skor untuk setiap peserta tes. Seluruh data yang akan dijadikan sebagai input
dalam analisis berada dalam satu file. Program Iteman mampu menganalisis maksimal 250 butir soal dalam satu file dengan kapasitas 3.000 responden. Lebar
karakter maksimal dalam satu file data adalah 255 karakter termasuk identitas responden.
Menurut Hayat 1999, hasil analisis Iteman berupa dua file yaitu file skor dan file statistik.
1. File skor
Program Iteman juga memberikan hasil skor untuk setiap peserta tes yang menunjukan jumlah benar dari seluruh jawaban. Baris pertama dari output
menunjukan jumlah karakter untuk identitas peserta tes jumlah skala, dan nama file input. Kemudian hasil skala diberikan secara berurutan sesuai denga urutan
peserta tes dalam file data. 2.
File statistik Statistik hasil analisis dapat dibedakan kedalam 2 bagian yaitu statistik
butir soal dan statistik tes. a.
Seq. No adalah nomor urut butir soal dalam file data. b.
Scala-Item adalah nomor urut butir soal dalam skala tessubtes. c.
Prop. Correct adalah proporsi siswa peserta tes yang menjawab benar butir soal. Nilai ekstrim mendekati nol atau satu menunjukan bahwa butir soal
tersebut terlalu sukar atau terlalu mudah untuk peserta tes. Indeks ini disebut juga indeks tingkat kesukaran soal secara klasikal.
d. Biser adalah daya pembeda soal dengan menggunakan koefiensi korelasi
beserial. Nilai positif menujukkan bahwa peserta tes yang menjawab benar butir soal, mempunyai skor yang relatif tinggi dalam tesskala tersebut.
Sebaliknya, nilai negatif menunjukan bahwa peserta tes yang menjawab benar butir soal, memperoleh skala yang relatif rendah dalam tesskala tersebut.
Untuk statistik pilihan jawaban alternatif korelasi biserial negatif sangat tidak dikehendaki untuk kunci jawaban dan sangat dikehendaki untuk pilihan
jawaban yang lain pengecoh. e.
Point-biser adalah juga indeks daya pembeda soal dan pilihan jawaban alternatif dengan menggunakan koefisiensi korelasi point-biserial.
Penafsirannya sama dengan statistik biserial. Statistik pilihan jawaban alternatif memberikan informasi yang sama dengan statistik butir soal.
Perbedaannya adalah bahwa statistik pilihan jawaban dihitung secara terpisah. Untuk setiap pilihan jawaban dan didasarkan ada dipilh tidaknya alternatif
tersebut, bukan pada benarnya jawaban. Tanda bintang yang muncul disebelah kanan hasil analisis menunjukan kunci jawaban.
Program Iteman memberikan hasil analisis statistik berikut untuk tesskala.
1 N of items adalah jumlah butir soal dalam tesskala yang ikut dianalisis.
Untuk tesskala yang terdiri dari butir-butir soal dikotomi, hal ini merupakan jumlah total butir soal dalam tesskala.
2 N of Examines adalah jumlah peserta tes yang digunakan dalam analisis.
3 Mean adalah skor atau rata-rata skor peserta tes.
4 Variance adalah varian dari distribusi skor peserta tes yang memberikan
gambaran tentang sebaran skor peserta tes. 5
Std. Dev adalah devisiasi standar dari distribusi skor peserta tes. Devisiasi standar merupakan akar dari variance.
6 Skew adalah kemiringan distribusi skor peserta tes yang memberikan
gambaran tentang bentuk distribusi skor peserta tes. Kemiringan negatif menunjukan bahwa sebagian besar skor berada pada bagian bawah skor
rendah dari distribusi skor. Kemiringan nol menunjukan bahwa skor berdistribusi secara simetris di sekitar skor rata-rata mean.
7 Kurtosis adalah puncak distribusi skor yang menggambarkan kelaindaian
distribusi skor dibanding dengan distribusi normal. Nilai positif menunjukan distribusi yang lebih lancip memuncak dan nilai negatif menunjukan
distribusi yang lebih landai merata. Kurtosis untuk distribusi normal adalah nol 0.
8 Minimum adalah skor terendah peserta tes dalam tes atau skala tersebut.
9 Maximum adalah skor tertinggi pada peserta tes atau skala tersebut.
10 Median adalah skor tengah dimana 50 berada pada atau lebih rendah dari
skor tersebut. 11
Alpha adalah koefisiensi reliabelitas alpha untuk tes atau skala tersebut yang merupakan indeks homogenitas tes atau skala. Koefisien alpha bergerak dari
0.0 sampai 1.0. Koefisien alpha hanya cocok digunakan pada tes yang bukan mengukur kecepatan dan yang hanya mengukur satu dimensi.
Semakin tinggi koefisien alpha menandakan semakin realibel suatu soal. 12
SEM adalah kesalahan pengukuran standar untuk setiap tes atau skala. SEM merupakan estimit dari devisiasi standar kesalahan pengukuran dalam skor
tes. 13
Mean P adalah rata-rata tingkat kesukaran semua butir soal dalam tes secara klasikal dihitung dengan mencari rata-rata proporsi peseta tes yang
menjawab benar untuk semua butir soal dalam tes atau skala. 14
Mean Item-Tot adalah nilai rata-rata indeks daya pembeda yang diperoleh dengan menghitung nilai rata-rata korelasi biserial dari semua butir soal data
tes atau skala. 15
Mean-Biserial adalah juga nilai rata-rata indeks daya pembeda yang diperoleh dengan menghitung nilai rata-rata korelasi biserial dari semua
butir soal data tes atau skala. Kelebihan analisis butir soal secara klasikal adalah mudah, dapat
dilaksanakan sehari-hari dengan cepat menggunakan komputer, murah, sederhana, familiar dan dapat menggunakan data dari beberapa peserta didik maupun dengan
sampel kecil Millman dan Greene 1993, dalam Dikmenum 2000. Berdasarkan keterangan tersebut, program Iteman merupakan alat analisis soal yang sangat
praktis. Hanya dengan memasukkan data kedalam program Iteman tersebut, maka banyak sekali hasil yang dapat diketahui. Dengan menggunakan program Iteman,
akan kita ketahui apakah soal-soal try out yang telah disusun oleh guru-guru yang berkompeten sudah memiliki kualitas yang baik.
B. Kerangka Berfikir